左右音量比特徴量を援用したConv-TasNetによるステレオ音楽分離

510 Views

March 24, 26

#dnn #ステレオ音楽信号 #film #ild #音楽分離 #ステレオ信号 #音像定位 #DNN #Conv-TasNet

スライド概要

加藤大輝, 北村大地, 矢田部浩平, "左右音量比特徴量を援用したConv-TasNetによるステレオ音楽分離," 日本音響学会 2026年春季研究発表会講演論文集, 1-1-4, pp. 145–148, 東京, 2026年3月（査読無）.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 2K

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.9K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.4K

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 1.3K

深層学習を用いた単一話者発話区間検出

Kitamura Laboratory 1.1K

ディリクレ分布に基づく正則化付き非負値行列因子分解と打楽器スペクトル表現への適用

Kitamura Laboratory 1.1K

各ページのテキスト

日本音響学会第155回研究発表会 1-1-4 13:45~14:00 左右音量比特徴量を援用した Conv-TasNetによるステレオ音楽分離 ☆加藤大輝（香川高専）北村大地（香川高専）矢田部浩平（農工大）

ステレオ音楽信号を対象とした音楽分離 • 一般的なステレオ音楽信号を入力とし，各音源信号を推定する音楽分離を考える – 本発表では，DNNを用いた音源分離を対象とする音楽信号（未知）分離信号（推定）ステレオ音楽信号 ? ? ミックスダウン DNN ? • ステレオ音楽信号を入力とする既存研究 – Demucs [Défossez+, 2021] – Inter-channel Conv-TasNet [Lee+, 2021] – SpaIn-Net [Petermann+, 2022] 1

2 音像定位 • パニングにより音源の方位感（音像定位）を付与したステレオ音楽信号を生成できる • 音量比と定位角の関係はサイン則で表される 0° 音源1は左前方に定位しているように感じる（定位角：60° ） 90 音源2は右前方に定位しているように感じる（定位角：−60° ）前方 ° 左前方ステレオ音楽信号（左チャネル）右前方 −90° ステレオ音楽信号（右チャネル）音源1 音源1 音源2 音源2 本研究では基礎的検討として，ステレオエフェクトは考慮せず，パニングにより生成されたステレオ音楽信号を対象とする

3 音像定位 • パニングにより音源の方位感（音像定位）を付与したステレオ音楽信号を生成できる • 音量比と定位角の関係はサイン則で表される音源1は左前方に定位しているように感じる（定位角：60° ） 0° 音源2は右前方に定位しているように感じる（定位角：−60° ）前方 – ただし，左前方右前方とする ° ° 90 −90 – ：左右チャネルの振幅（ゲイン）ステレオ音楽信号（右チャネル） –ステレオ音楽信号（左チャネル）：知覚される定位角音源1 音源1 音源2 音源2 本研究では基礎的検討として，ステレオエフェクトは考慮せず，パニングにより生成されたステレオ音楽信号を対象とする

4 研究の着想 • パニングにより生成されたステレオ音楽信号では，音源毎に異なる音量比（定位情報）が付与されている – モノラル音楽信号にはない，音源の定位情報が含まれる – 定位情報が音源分離にとって有効な手掛かりとなる可能性がある • 音源ごとの音量比の違いに着目し，この情報をDNNの学習に明示的に活用する方法を検討する分離信号ステレオ音楽信号 R L 空間情報（音源毎の定位） DNN

DNNを用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音像定位における定位角を補助情報としてDNNに入力することで，分離精度が大幅に向上 – 実際の音楽信号のみから定位角を正確に取得することは困難ステレオ音楽信号 R L 左右音量比に基づく音像定位メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ，27° ，−60° ] ベクトル変換補助情報分離信号 5

DNNを用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音像定位における定位角を補助情報としてDNNに入力することで，分離精度が大幅に向上 – 実際の音楽信号のみから定位角を正確に取得することは困難ステレオ音楽信号 R 非線形写像によって角度に対応した高次元ベクトルに変換 L 定位角：1° 左右音量比に基づく音像定位定位角：20° 定位角：40° メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ，27° ，−60° ] ベクトル変換補助情報分離信号 6

DNNを用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音像定位における定位角を補助情報としてDNNに入力することで，分離精度が大幅に向上 – 実際の音楽信号のみから定位角を正確に取得することは困難ステレオ音楽信号 R L 左右音量比に基づく音像定位メイン入力 ° 分離信号 0 「定位角が既知である場合に，補助情報がどの程度有効か」 SpaInを検証した基礎的・先駆的研究である Net −90° 90° 各音源の定位角 [74° ，27° ，−60° ] ベクトル変換補助情報 7

8 提案手法 • ステレオ音楽信号の左右音量比を利用した方位分離処理により，方位分離信号を生成 • Feature-wise linear modulation（FiLM）層[Ethan+, 2018]を用いて，DNNに補助入力分離信号ステレオ音楽信号 R DNN L 方位分離信号音像定位 2 1 3 方位分離 4 5 （教師無し） 1: 2: 3: 4: 5: 1: 2: 3: 4: 5: FiLM DNN補助入力 DNNが学習すべき内部表現の複雑性を低減し，学習効率と分離精度の向上を目指す

10.

9 方位分離処理 • ステレオ音楽信号（時間周波数領域）の左右音量比に基づき，各時間周波数成分の定位角を計算 • 定位角ごとのエネルギーを集計することで，音源方向のエネルギー分布（方位ヒストグラム）を構成 12 ×103 エネルギーに基づいた重み付き度数エネルギーの高さ＝その方向に強い音源が存在 10 音源1 音源2 音源3 8 6 4 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 90

11.

10 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

12.

11 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

13.

12 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

14.

13 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

15.

14 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

16.

15 方位分離信号 • 正解信号と方位分離信号の時間周波数表現の比較 – 多くの周波数成分が欠落し，音としては大きく劣化している正解信号 7 7 6 6 5 5 4 3 4 3 2 2 1 1 0 0 1 2 3 4 5 6 時間 [s] 方位分離信号 8 周波数 [kHz] 周波数 [kHz] 8 7 8 9 10 0 0 1 2 3 4 5 6 時間 [s] 7 8 9 10 音質が大きく劣化した信号でも，方位ごとの情報が含まれているため，DNNにとっては有効な補助情報になる

17.

DNN構造 16 • 本研究では，Inter-channel Conv-TasNet [Lee+, 2021]を採用 • ステレオ音楽信号をメイン入力とし，分離信号を出力ステレオ音楽信号 TCN入力 Encoder Conv2D TCN block PReLU TCN block DWConv2D TCN block Mask Decoder Mixture consistency 分離信号 1: 2: 3: TCN block内部残差接続マスク生成残差接続 R L PReLU Conv2D PReLU 次のTCN入力マスク生成

18.

17 FiLM層の導入 • FiLM層は方位分離信号をもとに特徴量をスケーリング・シフトし，DNNの処理を調整ステレオ音楽信号 TCN入力 Encoder Conv2D TCN block PReLU TCN block DWConv2D TCN block Mask Decoder Mixture consistency 分離信号 1: 2: 3: TCN block内部残差接続マスク生成残差接続 R L PReLU 方位分離信号 1: 2: 3: Mel-spectrogram Conv2D PReLU Linear FiLM ジェネレータ Conv2D PReLU 次のTCN入力マスク生成 ※ , は TCNブロックごとに独立して学習される

19.

損失関数 • 損失関数はL1損失と Threshold SI-SNR 損失を使用 – 正解信号，分離信号無音方位チャネルに対する損失関数 – – – – 有音方位チャネルに対する損失関数：有音方位チャネルのインデクス集合：無音方位チャネルのインデクス集合：2つの損失関数のバランスを決めるパラメータ：無音判定の閾値 • Threshold SI-SNR 損失

20.

19 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源（Bass, Drum, Vocal, Other）を10秒に切り出す – 等間隔に分割した方位スロットに各音源をランダムに割り当て，ステレオ音楽信号を生成 • 1つの方位スロットには複数の音源は配置しない – 得られたステレオ音楽信号を方位分離処理し，方位分離信号を生成音楽信号ステレオ音楽信号 2 1 3 4 5 ※サイン則を用いて音像定位を決定

21.

20 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源（Bass, Drum, Vocal, Other）を10秒に切り出す – 等間隔に分割した方位スロットに各音源をランダムに割り当て，ステレオ音楽信号を生成 • 1つの方位スロットには複数の音源は配置しない – 得られたステレオ音楽信号を方位分離処理し，方位分離信号を生成方位分離方位分離信号ステレオ音楽信号 2 1 3 4 5 1 2 3 4 5

22.

21 実験条件 • 勾配累積を行い，学習をおこなう（16バッチ毎に更新） • 混合精度学習を使用 – 16bitと32bit浮動小数点型の両方をモデルに使ってモデルのトレーニングを高速化し，使用するメモリを少なくする手法条件値学習回数 200 バッチサイズ 4 学習率 1e-3 サンプリング周波数 [kHz] 16 メル周波数ビン数 128 学習データの総音声時間 [s] 32,720 （100曲分）検証データの総音声時間 [s] 3,130 （10曲分）テストデータの総音声時間 [s] 3,650 （10曲分）評価スコア Source-to-distortion ratio (SDR)

23.

22 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみ） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力） 5. IC Conv-TasNet + FiLM（提案手法）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

24.

23 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみ） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力） 5. IC Conv-TasNet + FiLM（提案手法）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

25.

24 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみ） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力） 5. IC Conv-TasNet + FiLM（提案手法）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

26.

25 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみ） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力） 5. IC Conv-TasNet + FiLM（提案手法）ステレオ音楽信号 R L 左右音量比に基づく音像定位メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ，27° ，−60° ] ベクトル変換補助情報分離信号

27.

26 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみ） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力） 5. IC Conv-TasNet + FiLM（提案手法）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

28.

テストデータにおける全音源平均SDR 27 • 提案手法は，SDRの中央値において他手法より最も高い値を示した – 方位分離信号が補助情報として有効に機能していることが示唆ステレオ音楽信号方位分離信号（提案手法）

29.

28 平均SDR改善量の比較 • SDR改善量（Δ ）とは – ステレオ音楽信号のSDRを基準とした，分離性能の改善指標 • 全音源の平均Δ の結果 – 音源ごとの大きな差は見られず，手法間の傾向は一貫している – 提案手法が最も高いSDRを示し，全体的な性能向上を確認 Bass Drum Other Vocal Avg. -4.97 -4.29 -5.86 -6.61 -5.37 方位分離信号 5.12 5.92 6.58 8.04 6.41 IC Conv-TasNet 9.69 8.07 8.15 10.66 9.14 11.34 10.79 10.10 13.48 11.43 12.78 11.64 12.13 15.14 12.92 音源ステレオ音楽信号 SpaIn-Net IC Conv-TasNet + FiLM （提案手法） SDR Δ 方位分離信号を補助情報として用いることの有効性が示された

30.

まとめ 29 • 本発表の概要 – ステレオ音楽信号は，各音源が左右チャネル間の音量比により特定の方位に定位するようにミキシングされている • この音源毎の定位の違いが重要な空間的特徴量となる • 提案手法 – ステレオ音楽信号の左右音量比を利用した方位分離を行い，得られた方位分離信号をDNNの補助入力として与える • 音質は大きく劣化しているが，DNNにとっては有効な補助情報となる • FiLMでDNN内部特徴を条件付けし，補助情報に基づく特徴変調を行う • 実験 – 補助情報を使用しないIC Conv-TasNetや，類似研究である SpaIn-Netと比較し，提案手法は全ての音源で性能改善を達成入手が容易な方位分離信号を用いることで，高精度かつ高い汎化性能の実現可能性が示された