左右音量比特徴量を援用したConv-TasNetによるステレオ音楽分離

-- Views

March 24, 26

スライド概要

加藤大輝, 北村大地, 矢田部浩平, "左右音量比特徴量を援用したConv-TasNetによるステレオ音楽分離," 日本音響学会 2026年春季研究発表会講演論文集, 1-1-4, pp. 145–148, 東京, 2026年3月(査読無).

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

日本音響学会第155回研究発表会 1-1-4 13:45~14:00 左右音量比特徴量を援用した Conv-TasNetによるステレオ音楽分離 ☆加藤大輝(香川高専) 北村大地(香川高専) 矢田部浩平(農工大)

2.

ステレオ音楽信号を対象とした音楽分離 • 一般的なステレオ音楽信号を入力とし,各音源信号を 推定する音楽分離を考える – 本発表では,DNNを用いた音源分離を対象とする 音楽信号(未知) 分離信号(推定) ステレオ音楽信号 ? ? ミックス ダウン DNN ? • ステレオ音楽信号を入力とする既存研究 – Demucs [Défossez+, 2021] – Inter-channel Conv-TasNet [Lee+, 2021] – SpaIn-Net [Petermann+, 2022] 1

3.

2 音像定位 • パニングにより音源の方位感(音像定位)を付与した ステレオ音楽信号を生成できる • 音量比と定位角の関係はサイン則で表される 0° 音源1は左前方に定位 しているように感じる (定位角:60° ) 90 音源2は右前方に定位 しているように感じる (定位角:−60° ) 前方 ° 左前方 ステレオ音楽信号(左チャネル) 右前方 −90° ステレオ音楽信号(右チャネル) 音源1 音源1 音源2 音源2 本研究では基礎的検討として,ステレオエフェクトは考慮せず, パニングにより生成されたステレオ音楽信号を対象とする

4.

3 音像定位 • パニングにより音源の方位感(音像定位)を付与した ステレオ音楽信号を生成できる • 音量比と定位角の関係はサイン則で表される 音源1は左前方に定位 しているように感じる (定位角:60° ) 0° 音源2は右前方に定位 しているように感じる (定位角:−60° ) 前方 – ただし, 左前方 右前方とする ° ° 90 −90 – :左右チャネルの振幅(ゲイン) ステレオ音楽信号(右チャネル) –ステレオ音楽信号(左チャネル) :知覚される定位角 音源1 音源1 音源2 音源2 本研究では基礎的検討として,ステレオエフェクトは考慮せず, パニングにより生成されたステレオ音楽信号を対象とする

5.

4 研究の着想 • パニングにより生成されたステレオ音楽信号では,音源 毎に異なる音量比(定位情報)が付与されている – モノラル音楽信号にはない,音源の定位情報が含まれる – 定位情報が音源分離にとって有効な手掛かりとなる可能性が ある • 音源ごとの音量比の違いに着目し,この情報をDNNの 学習に明示的に活用する方法を検討する 分離信号 ステレオ音楽信号 R L 空間情報 (音源毎の定位) DNN

6.

DNNを用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音像定位における定位角を補助情報としてDNNに入力する ことで,分離精度が大幅に向上 – 実際の音楽信号のみから定位角を正確に取得することは困難 ステレオ音楽信号 R L 左右音量比に基づく音像定位 メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ,27° ,−60° ] ベクトル 変換 補助情報 分離信号 5

7.

DNNを用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音像定位における定位角を補助情報としてDNNに入力する ことで,分離精度が大幅に向上 – 実際の音楽信号のみから定位角を正確に取得することは困難 ステレオ音楽信号 R 非線形写像によって角度に対応した高次元ベクトルに変換 L 定位角:1° 左右音量比に基づく音像定位 定位角:20° 定位角:40° メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ,27° ,−60° ] ベクトル 変換 補助情報 分離信号 6

8.

DNNを用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音像定位における定位角を補助情報としてDNNに入力する ことで,分離精度が大幅に向上 – 実際の音楽信号のみから定位角を正確に取得することは困難 ステレオ音楽信号 R L 左右音量比に基づく音像定位 メイン入力 ° 分離信号 0 「定位角が既知である場合に,補助情報がどの程度有効か」 SpaInを検証した基礎的・先駆的研究である Net −90° 90° 各音源の定位角 [74° ,27° ,−60° ] ベクトル 変換 補助情報 7

9.

8 提案手法 • ステレオ音楽信号の左右音量比を利用した方位分離処理 により,方位分離信号を生成 • Feature-wise linear modulation(FiLM)層[Ethan+, 2018]を 用いて,DNNに補助入力 分離信号 ステレオ音楽信号 R DNN L 方位分離信号 音像定位 2 1 3 方位分離 4 5 (教師無し) 1: 2: 3: 4: 5: 1: 2: 3: 4: 5: FiLM DNN補助入力 DNNが学習すべき内部表現の複雑性を低減し, 学習効率と分離精度の向上を目指す

10.

9 方位分離処理 • ステレオ音楽信号(時間周波数領域)の左右音量比に基 づき,各時間周波数成分の定位角を計算 • 定位角ごとのエネルギーを集計することで,音源方向の エネルギー分布(方位ヒストグラム)を構成 12 ×103 エネルギーに基づいた重み付き度数 エネルギーの高さ=その方向に強い音源が存在 10 音源1 音源2 音源3 8 6 4 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 90

11.

10 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

12.

11 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

13.

12 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

14.

13 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

15.

14 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

16.

15 方位分離信号 • 正解信号と方位分離信号の時間周波数表現の比較 – 多くの周波数成分が欠落し,音としては大きく劣化している 正解信号 7 7 6 6 5 5 4 3 4 3 2 2 1 1 0 0 1 2 3 4 5 6 時間 [s] 方位分離信号 8 周波数 [kHz] 周波数 [kHz] 8 7 8 9 10 0 0 1 2 3 4 5 6 時間 [s] 7 8 9 10 音質が大きく劣化した信号でも,方位ごとの情報が 含まれているため,DNNにとっては有効な補助情報になる

17.

DNN構造 16 • 本研究では,Inter-channel Conv-TasNet [Lee+, 2021]を採用 • ステレオ音楽信号をメイン入力とし,分離信号を出力 ステレオ音楽信号 TCN入力 Encoder Conv2D TCN block PReLU TCN block DWConv2D TCN block Mask Decoder Mixture consistency 分離信号 1: 2: 3: TCN block内部 残差接続 マスク生成 残差接続 R L PReLU Conv2D PReLU 次のTCN入力 マスク生成

18.

17 FiLM層の導入 • FiLM層は方位分離信号をもとに特徴量をスケーリング・ シフトし,DNNの処理を調整 ステレオ音楽信号 TCN入力 Encoder Conv2D TCN block PReLU TCN block DWConv2D TCN block Mask Decoder Mixture consistency 分離信号 1: 2: 3: TCN block内部 残差接続 マスク生成 残差接続 R L PReLU 方位分離信号 1: 2: 3: Mel-spectrogram Conv2D PReLU Linear FiLM ジェネレータ Conv2D PReLU 次のTCN入力 マスク生成 ※ , は TCNブロックごと に独立して学習される

19.

損失関数 • 損失関数はL1損失と Threshold SI-SNR 損失を使用 – 正解信号 ,分離信号 無音方位チャネル に対する損失関数 – – – – 有音方位チャネル に対する損失関数 :有音方位チャネルのインデクス集合 :無音方位チャネルのインデクス集合 :2つの損失関数のバランスを決めるパラメータ :無音判定の閾値 • Threshold SI-SNR 損失

20.

19 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源(Bass, Drum, Vocal, Other)を10秒に切り出す – 等間隔に分割した方位スロットに各音源をランダムに割り当て, ステレオ音楽信号を生成 • 1つの方位スロットには複数の音源は配置しない – 得られたステレオ音楽信号を方位分離処理し,方位分離信号を 生成 音楽信号 ステレオ音楽信号 2 1 3 4 5 ※サイン則を用いて音像定位を決定

21.

20 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源(Bass, Drum, Vocal, Other)を10秒に切り出す – 等間隔に分割した方位スロットに各音源をランダムに割り当て, ステレオ音楽信号を生成 • 1つの方位スロットには複数の音源は配置しない – 得られたステレオ音楽信号を方位分離処理し,方位分離信号を 生成 方位分離 方位分離信号 ステレオ音楽信号 2 1 3 4 5 1 2 3 4 5

22.

21 実験条件 • 勾配累積を行い,学習をおこなう(16バッチ毎に更新) • 混合精度学習を使用 – 16bitと32bit浮動小数点型の両方をモデルに使ってモデルの トレーニングを高速化し,使用するメモリを少なくする手法 条件 値 学習回数 200 バッチサイズ 4 学習率 1e-3 サンプリング周波数 [kHz] 16 メル周波数ビン数 128 学習データの総音声時間 [s] 32,720 (100曲分) 検証データの総音声時間 [s] 3,130 (10曲分) テストデータの総音声時間 [s] 3,650 (10曲分) 評価スコア Source-to-distortion ratio (SDR)

23.

22 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみ) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力) 5. IC Conv-TasNet + FiLM(提案手法) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

24.

23 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみ) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力) 5. IC Conv-TasNet + FiLM(提案手法) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

25.

24 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみ) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力) 5. IC Conv-TasNet + FiLM(提案手法) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

26.

25 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみ) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力) 5. IC Conv-TasNet + FiLM(提案手法) ステレオ音楽信号 R L 左右音量比に基づく音像定位 メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ,27° ,−60° ] ベクトル 変換 補助情報 分離信号

27.

26 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみ) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力) 5. IC Conv-TasNet + FiLM(提案手法) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 (教師無し) 1: 2: 3: 4: 5: FiLM 1: 2: 3: 4: 5:

28.

テストデータにおける全音源平均SDR 27 • 提案手法は,SDRの中央値において他手法より最も高い 値を示した – 方位分離信号が補助情報として有効に機能していることが示唆 ステレオ音楽信号 方位分離信号 (提案手法)

29.

28 平均SDR改善量の比較 • SDR改善量(Δ )とは – ステレオ音楽信号のSDRを基準とした,分離性能の改善指標 • 全音源の平均Δ の結果 – 音源ごとの大きな差は見られず,手法間の傾向は一貫している – 提案手法が最も高いSDRを示し,全体的な性能向上を確認 Bass Drum Other Vocal Avg. -4.97 -4.29 -5.86 -6.61 -5.37 方位分離信号 5.12 5.92 6.58 8.04 6.41 IC Conv-TasNet 9.69 8.07 8.15 10.66 9.14 11.34 10.79 10.10 13.48 11.43 12.78 11.64 12.13 15.14 12.92 音源 ステレオ音楽信号 SpaIn-Net IC Conv-TasNet + FiLM (提案手法) SDR Δ 方位分離信号を補助情報として用いることの有効性が示された

30.

まとめ 29 • 本発表の概要 – ステレオ音楽信号は,各音源が左右チャネル間の音量比により 特定の方位に定位するようにミキシングされている • この音源毎の定位の違いが重要な空間的特徴量となる • 提案手法 – ステレオ音楽信号の左右音量比を利用した方位分離を行い, 得られた方位分離信号をDNNの補助入力として与える • 音質は大きく劣化しているが,DNNにとっては有効な補助情報となる • FiLMでDNN内部特徴を条件付けし,補助情報に基づく特徴変調を行う • 実験 – 補助情報を使用しないIC Conv-TasNetや,類似研究である SpaIn-Netと比較し,提案手法は全ての音源で性能改善を達成 入手が容易な方位分離信号を用いることで, 高精度かつ高い汎化性能の実現可能性が示された