深層学習を用いたドラムセット収録時の被り音抑圧,

>100 Views

March 07, 26

スライド概要

片山碧人, "深層学習を用いたドラムセット収録時の被り音抑圧," 香川高等専門学校電気情報工学科 卒業研究論文, 42 pages, 2026年2月.

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

香川高等専門学校 電気情報工学科 卒業研究発表会 2026年2月27日 深層学習を用いた ドラムセット収録時の被り音抑圧 12番 片山碧人(北村研究室)

2.

2 研究背景 • ドラムセット – ドラムセットには複数の音源が存在 クラッシュ シンバル (クラッシュCY) クラッシュ シンバル タムタム (TT) ハイハット (HH) スネアドラム (SD) キックドラム (KD) – ドラムセットの録音方法(マルチトラック録音) • 複数のマイクロホンを音源に近接 • 近接させた音源のみを録音したい クラッシュ シンバル ライド シンバル フロアタム

3.

3 研究背景 • 被り音の問題 – 近接マイクロホンの信号には, 被り音が入り込む 右図) 目的音源: スネアドラム 被り音源 : キックドラム,ハイハットなど 被り音 被り音 被り音 スネアの近接 マイクロホン 目的音 – 被り音はミキシングのクオリティを低下させる • 目的音に最適な音量調整,コンプレッサ,およびイコライザを適用 被り音 • 被り音には最適ではない HA コンプレッサ イコライザ HA コンプレッサ イコライザ HA コンプレッサ イコライザ 被り音は避けるべき ミキサー

4.

4 従来手法 • 深層ニューラルネットワーク(deep neural network: DNN) を用いた手法 – LarsNet [Mezza+, 2024] • U-Netアーキテクチャを使用 • U-Netを5本並列に配置し,5つの音源の信号を並列に推定するモデル ステレオ入力 入力信号 STFT KD U-Net ISTFT KD SD U-Net ISTFT SD TT U-Net ISTFT TT STFT: 短時間フーリエ変換 HH U-Net ISTFT HH 5つの音源の信号を出力 CY U-Net ISTFT CY

5.

5 目的と概要 • 目的 – マルチトラック録音で得られる 多チャネル信号を入力とした被り音抑圧 • 提案手法の概要 – KD,SD,HHを独立に推定するモデルを構築 各音源に特化した学習が可能 KD DNN SD DNN – KDモデルにはKD近接 マイクロホン信号を入力 • KDの音を最も近くで録音している KDの推定が容易 – SDおよびHH近接マイクロホン 信号は補助情報として使用 • 被り音を最も近くで録音 抑圧に大きく貢献 するかも 入力 入力 補助 入力 HH DNN KD DNN KD DNN

6.

6 提案手法 • 推定対象の近接マイクロホン信号をメインの入力とし, 他近接マイクロホン信号を補助の入力とするDNNモデル – 基本アーキテクチャ: Conv-TasNet [Luo+, 2019] – メイン入力→Conv-TasNetに入力 補助入力→FiLM [Perez+, 2018]により条件付けに使用 – 出力: 推定対象の音のみの信号 KD DNN ConvTasNet FiLM KDの信号を推定 SD DNN ConvTasNet FiLM SDの信号を推定 HH DNN ConvTasNet FiLM HHの信号を推定

7.

DNN構造 メイン入力 TCN Block TCN Blockの入力 Encoder TCN Block TCN Block Mask PReLU スキップコネクション マスク生成 TCN Block Conv2D DWConv2D PReLU Conv2D Conv2D Decoder KDの信号を推定 マスク生成へ TCN Blockの出力 (次のTCN Blockの入力) 7

8.

8 DNN構造 補助入力 メイン入力 TCN Block TCN Blockの入力 Encoder TCN Block Mask PReLU Conv2D + PReLU DWConv2D Conv2D + PReLU PReLU Linear & Conv2D Conv2D Decoder KDの信号を推定 FiLM TCN Block Conv2D スキップコネクション マスク生成 TCN Block Mel-Spectrogram transform マスク生成へ TCN Blockの出力 (次のTCN Blockの入力)

9.

データセット • StemGMD [Mezza+, 2024] – 人間が電子ドラムで演奏したMIDIデータから作成 – ドラムセットの音源を個別にした音源信号(ステム)を収録 – 様々な音色のドラムキットの音が含まれる • データセットの作成 – StemGMDのステムを基に近接マイクロホン信号を模擬 ステム ×1 ステム ステム × 0.15 × 0.004 9

10.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 10

11.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 11

12.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 12

13.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 13

14.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 14

15.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 15

16.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 16

17.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 17

18.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 18

19.

実験結果(パワースペクトログラム) KD SD HH 観測信号 観測信号 観測信号 正解信号 正解信号 正解信号 推定信号 推定信号 推定信号 19

20.

実験結果(パワースペクトログラム) HH(前ページと同一) HH(失敗例) 観測信号 観測信号 正解信号 正解信号 推定信号 推定信号 20

21.

実験結果(パワースペクトログラム) HH(前ページと同一) HH(失敗例) 観測信号 観測信号 正解信号 正解信号 推定信号 推定信号 21

22.

22 比較結果 • 評価指標 – 音源対歪み比(source-to-distortion ratio: SDR) [Vincent, 2006] • 被り音の抑圧度合いと目的音源の歪みの少なさの両方を考慮 • 比較対象 – 1. 観測信号(未処理) – 2. 学習済み公開モデルLarsNet(参考値) – 3. 本研究のデータセットで再学習したLarsNet – 4. FiLMなしConv-TasNet – 5. FiLM付きConv-TasNet(提案手法) 平均SDR [dB] 音源 観測信号 公開モデル LarsNet 再学習モデル LarsNet FiLMなし Conv-TasNet 提案手法 KD 19.75 30.57 34.09 36.14 36.37 SD 10.63 16.71 21.66 23.06 22.87 HH -22.32 -5.29 -1.23 2.22 2.25

23.

まとめ 23 • マルチトラック録音の信号を入力とするDNNモデル を提案し,ドラムセットにおける被り音の抑圧を行った • 結果 – パワースペクトログラムより被り音の抑圧を確認 – 全ての手法においてSDRが観測信号から改善 – Conv-TasNet系のモデルが有利 – FiLMによる条件付けの効果は限定的 • 考察 – FiLMによるSDRの改善量が微量 • Conv-TasNet単体で被り音抑圧を一定程度達成でき,FiLMによる条件 付けの寄与が相対的に小さかった可能性 • 条件付け設計の改善が必要