深層学習を用いたドラムセット収録時の被り音抑圧,

>100 Views

March 07, 26

#ドラムセット #マルチトラック録音 #被り音抑圧 #conv-tasnet #film #深層学習 #Conv-TasNet

スライド概要

片山碧人, "深層学習を用いたドラムセット収録時の被り音抑圧," 香川高等専門学校電気情報工学科卒業研究論文, 42 pages, 2026年2月.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 2K

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.9K

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 1.4K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.4K

補助関数法に基づくスパース正則化付き非負値行列因子分解と行列補完への応用

非負値行列因子分解スパース正則化補助関数法単調非増加性

Kitamura Laboratory 1.1K

深層学習を用いた単一話者発話区間検出

Kitamura Laboratory 1.1K

各ページのテキスト

香川高等専門学校電気情報工学科卒業研究発表会 2026年2月27日深層学習を用いたドラムセット収録時の被り音抑圧 12番片山碧人（北村研究室）

2 研究背景 • ドラムセット – ドラムセットには複数の音源が存在クラッシュシンバル（クラッシュCY）クラッシュシンバルタムタム（TT）ハイハット（HH）スネアドラム（SD）キックドラム（KD） – ドラムセットの録音方法（マルチトラック録音） • 複数のマイクロホンを音源に近接 • 近接させた音源のみを録音したいクラッシュシンバルライドシンバルフロアタム

3 研究背景 • 被り音の問題 – 近接マイクロホンの信号には，被り音が入り込む右図）目的音源：スネアドラム被り音源：キックドラム，ハイハットなど被り音被り音被り音スネアの近接マイクロホン目的音 – 被り音はミキシングのクオリティを低下させる • 目的音に最適な音量調整，コンプレッサ，およびイコライザを適用被り音 • 被り音には最適ではない HA コンプレッサイコライザ HA コンプレッサイコライザ HA コンプレッサイコライザ被り音は避けるべきミキサー

4 従来手法 • 深層ニューラルネットワーク（deep neural network: DNN）を用いた手法 – LarsNet [Mezza+, 2024] • U-Netアーキテクチャを使用 • U-Netを5本並列に配置し，5つの音源の信号を並列に推定するモデルステレオ入力入力信号 STFT KD U-Net ISTFT KD SD U-Net ISTFT SD TT U-Net ISTFT TT STFT: 短時間フーリエ変換 HH U-Net ISTFT HH 5つの音源の信号を出力 CY U-Net ISTFT CY

5 目的と概要 • 目的 – マルチトラック録音で得られる多チャネル信号を入力とした被り音抑圧 • 提案手法の概要 – KD，SD，HHを独立に推定するモデルを構築各音源に特化した学習が可能 KD DNN SD DNN – KDモデルにはKD近接マイクロホン信号を入力 • KDの音を最も近くで録音している KDの推定が容易 – SDおよびHH近接マイクロホン信号は補助情報として使用 • 被り音を最も近くで録音抑圧に大きく貢献するかも入力入力補助入力 HH DNN KD DNN KD DNN

6 提案手法 • 推定対象の近接マイクロホン信号をメインの入力とし，他近接マイクロホン信号を補助の入力とするDNNモデル – 基本アーキテクチャ： Conv-TasNet [Luo+, 2019] – メイン入力→Conv-TasNetに入力補助入力→FiLM [Perez+, 2018]により条件付けに使用 – 出力：推定対象の音のみの信号 KD DNN ConvTasNet FiLM KDの信号を推定 SD DNN ConvTasNet FiLM SDの信号を推定 HH DNN ConvTasNet FiLM HHの信号を推定

DNN構造メイン入力 TCN Block TCN Blockの入力 Encoder TCN Block TCN Block Mask PReLU スキップコネクションマスク生成 TCN Block Conv2D DWConv2D PReLU Conv2D Conv2D Decoder KDの信号を推定マスク生成へ TCN Blockの出力 (次のTCN Blockの入力) 7

8 DNN構造補助入力メイン入力 TCN Block TCN Blockの入力 Encoder TCN Block Mask PReLU Conv2D + PReLU DWConv2D Conv2D + PReLU PReLU Linear ＆ Conv2D Conv2D Decoder KDの信号を推定 FiLM TCN Block Conv2D スキップコネクションマスク生成 TCN Block Mel-Spectrogram transform マスク生成へ TCN Blockの出力 (次のTCN Blockの入力)

データセット • StemGMD [Mezza+, 2024] – 人間が電子ドラムで演奏したMIDIデータから作成 – ドラムセットの音源を個別にした音源信号（ステム）を収録 – 様々な音色のドラムキットの音が含まれる • データセットの作成 – StemGMDのステムを基に近接マイクロホン信号を模擬ステム ×1 ステムステム × 0.15 × 0.004 9

10.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 10

11.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 11

12.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 12

13.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 13

14.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 14

15.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 15

16.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 16

17.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 17

18.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 18

19.

実験結果（パワースペクトログラム） KD SD HH 観測信号観測信号観測信号正解信号正解信号正解信号推定信号推定信号推定信号 19

20.

実験結果（パワースペクトログラム） HH（前ページと同一） HH（失敗例）観測信号観測信号正解信号正解信号推定信号推定信号 20

21.

実験結果（パワースペクトログラム） HH（前ページと同一） HH（失敗例）観測信号観測信号正解信号正解信号推定信号推定信号 21

22.

22 比較結果 • 評価指標 – 音源対歪み比（source-to-distortion ratio: SDR） [Vincent, 2006] • 被り音の抑圧度合いと目的音源の歪みの少なさの両方を考慮 • 比較対象 – 1. 観測信号（未処理） – 2. 学習済み公開モデルLarsNet（参考値） – 3. 本研究のデータセットで再学習したLarsNet – 4. FiLMなしConv-TasNet – 5. FiLM付きConv-TasNet（提案手法）平均SDR [dB] 音源観測信号公開モデル LarsNet 再学習モデル LarsNet FiLMなし Conv-TasNet 提案手法 KD 19.75 30.57 34.09 36.14 36.37 SD 10.63 16.71 21.66 23.06 22.87 HH -22.32 -5.29 -1.23 2.22 2.25

23.

まとめ 23 • マルチトラック録音の信号を入力とするDNNモデルを提案し，ドラムセットにおける被り音の抑圧を行った • 結果 – パワースペクトログラムより被り音の抑圧を確認 – 全ての手法においてSDRが観測信号から改善 – Conv-TasNet系のモデルが有利 – FiLMによる条件付けの効果は限定的 • 考察 – FiLMによるSDRの改善量が微量 • Conv-TasNet単体で被り音抑圧を一定程度達成でき，FiLMによる条件付けの寄与が相対的に小さかった可能性 • 条件付け設計の改善が必要