音量比における事前処理を援用した深層ステレオ音楽分離

233 Views

March 02, 26

#dnn #ステレオ音楽信号 #film #ild #音楽分離 #深層学習 #ステレオ信号 #方位分離 #補助情報

スライド概要

加藤大輝,"音量比における事前処理を援用した深層ステレオ音楽分離,"香川高等専門学校専攻科電気情報工学科コース特別研究論文, 63 pages, 2026年2月.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 2K

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.9K

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 1.4K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.4K

補助関数法に基づくスパース正則化付き非負値行列因子分解と行列補完への応用

非負値行列因子分解スパース正則化補助関数法単調非増加性

Kitamura Laboratory 1.1K

深層学習を用いた単一話者発話区間検出

Kitamura Laboratory 1.1K

各ページのテキスト

令和7年度特別研究Ⅱ発表審査会 2026/2/4 9:00~12:00 音量比における事前処理を援用した深層ステレオ音楽分離 7番加藤大輝

1 背景 • 音楽分離とは – 様々な音源が混合した信号から，音楽中の個々の音源を分離する – 深層ニューラルネットワーク（deep neural network: DNN）を用いた音楽分離が発展[Araki+, 2025] 音楽信号（未知）分離信号（推定）ステレオ音楽信号 ? ? ミックスダウン DNN ? • 応用例 – 自動採譜 – ジャンル認識 etc… AI 自動採譜

2 背景 • ミックスダウン処理では，左右チャネルの音量比や各種ステレオエフェクトにより，音源の方向感（定位角）を決定 0° 音源1は左前方に定位（定位角: 60° ）音源2は右前方に定位（定位角: −60° ）前方左前方 90° ステレオ音楽信号（左チャネル）右前方 −90° ステレオ音楽信号（右チャネル）音源1 音源1 音源2 音源2 実際のステレオ音楽信号から，単純な左右音量比のみを用いて正確な定位角を求めることは困難

深層学習を用いた音楽分離の発展 • End-to-end モデルのDNNによる音楽分離が発展 – デメリットとして，大量のデータ・計算コストを要する分離信号ステレオ音楽信号 R DNN L • 高精度な音楽分離を実現する方法として，空間情報など補助的特徴量を入力に追加することが有効[Petermann+, 2022] 分離信号ステレオ音楽信号 R DNN L 補助的特徴量 3

深層学習を用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音源の方向感（定位角）を補助情報としてDNNに入力することで，分離精度が大幅に向上 – 実際の音楽から定位角を正確に取得することは極めて困難ステレオ音楽信号 R L 左右音量比に基づく音源の方向感分離信号メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ，27° ，−60° ] 補助情報 4

深層学習を用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音源の方向感（定位角）を補助情報としてDNNに入力することで，分離精度が大幅に向上 – 実際の音楽から定位角を正確に取得することは極めて困難ステレオ音楽信号 R L 左右音量比に基づく音源の方向感メイン入力 0° 分離信号「定位角が既知である場合に，補助情報がどの程度有効か」 SpaInを検証した基礎的・先駆的研究である Net −90° 90° 各音源の定位角 [74° ，27° ，−60° ] 補助情報 5

6 提案手法 • 新たに音楽分離性能向上手法を提案 – ステレオ音楽信号の左右音量比を利用した方位分離を行い，その結果をDNNの補助入力として与える分離信号ステレオ音楽信号 R DNN L 方位分離信号方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5: DNN補助入力 DNNの負担となる複雑な分離処理の一部を緩和でき，学習効率の向上と必要データ量の削減を目指す

なぜ方位分離を行うの？ 7 • ステレオ音楽信号は，左右チャネルの音量比によって音源の方向感を決定 – DNNもこの方向感を手がかりに学習している可能性がある音源2は前方に定位 0° 音源1は左前方に定位音源3は右前方に定位前方左前方 90° ステレオ音楽信号（左チャネル）右前方 −90° ステレオ音楽信号（右チャネル）音源1 音源1 音源2 音源2 音源3 音源3

8 方位分離処理 • ステレオ音楽信号（時間周波数領域）の左右音量比に基づき，音源の方向感をエネルギー分布として表現 • 特定の方位に対応する成分だけを残すバイナリマスクを作成し，方位ごとの信号を生成する 12 ×103 エネルギーに基づいた重み付き度数エネルギーの高さ＝その方向に強い音源が存在 10 音源1 音源2 音源3 8 6 4 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 90

10.

9 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

11.

10 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

12.

11 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

13.

12 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

14.

13 方位分離処理エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出するバイナリマスクを生成し，ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

15.

14 方位分離信号 • 正解信号と方位分離後信号の時間周波数表現の比較 – 多くの周波数成分が欠落し，音としては大きく劣化している正解信号 7 7 6 6 5 5 4 3 4 3 2 2 1 1 0 0 1 2 3 4 5 6 時間 [s] 方位分離信号 8 周波数 [kHz] 周波数 [kHz] 8 7 8 9 10 0 0 1 2 3 4 5 6 時間 [s] 7 音質が大きく劣化した信号が，DNNにとっては有効な補助情報になる 8 9 10

16.

DNN構造 • 本研究では，IC Conv-TasNet を採用[Lee+, 2021] • ステレオ音楽信号をメイン入力とし，分離信号を出力ステレオ音楽信号 TCN block内部 R L TCN入力 Conv2D PReLU TCN block TCN block TCN block Mask Decoder DWConv2D 残差接続マスク生成残差接続 Encoder PReLU Conv2D PReLU 分離信号 1: 2: 3: 次のTCN入力マスク生成 15

17.

DNN構造 • 本研究では，IC Conv-TasNet を採用[Lee+, 2021] • ステレオ音楽信号をメイン入力とし，分離信号を出力ステレオ音楽信号 TCN block内部 R L TCN入力 Conv2D PReLU TCN block TCN block DWConv2D 残差接続マスク生成残差接続 Encoder PReLU ステレオ音楽信号に含まれる空間的混合を，すべて TCN blockDNN内部で学習させるのは困難 → 学習負担が大きい・大量データが必要 Mask Conv2D Decoder PReLU 分離信号 1: 2: 3: 次のTCN入力マスク生成 16

18.

17 FiLM[Ethan+, 2018]の導入 • FiLMは，方位分離信号をDNNの主処理に自然に組み込む仕組みステレオ音楽信号 TCN block内部 R L TCN入力 Conv2D PReLU TCN block TCN block TCN block Mask Decoder DWConv2D 残差接続マスク生成残差接続 Encoder PReLU 方位分離信号 1: 2: 3: Mel-spectrogram Conv2D PReLU Linear FiLM ジェネレータ Conv2D PReLU 分離信号 1: 2: 3: 次のTCN入力マスク生成 : スケーリングパラメータ : シフトパラメータ

19.

18 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源（Bass, Drum, Vocal, Other）を10秒に切り出す – 等間隔に分割した方位スロットに各音源をランダムに割り当て，ステレオ音楽信号を生成 • 1つの方位スロットには複数の音源は配置しない – 得られたステレオ音楽信号を方位分離処理し，方位分離信号を生成音楽信号ステレオ音楽信号 2 1 3 4 5

20.

19 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源（Bass, Drum, Vocal, Other）を10秒切り出す – 各音源にランダムな定位角度を割り当て，ステレオ音楽信号を生成 • 1つの方位には同時に2種類以上の音源を配置しない – 得られたステレオ音楽信号を方位分離処理し，方位分離信号を生成方位分離方位分離信号ステレオ音楽信号 2 1 3 4 5 1 2 3 4 5

21.

20 実験条件 • 勾配累積を行い，学習をおこなう（4バッチ毎に更新） • 混合精度学習を使用 – 16bitと32bit浮動小数点型の両方をモデルに使ってモデルのトレーニングを高速化し，使用するメモリを少なくする手法条件値学習回数 1000回バッチサイズ 4 学習率 1e-3 サンプリング周波数 [kHz] 16 早期終了の回数 30 学習データの総音声時間 [s] 32,720 （100曲分）検証データの総音声時間 [s] 3,130 （10曲分）テストデータの総音声時間 [s] 3,650 （10曲分）

22.

21 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの分離性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力することを仮定） 5. IC Conv-TasNet + FiLM（提案手法）ステレオ音楽信号分離信号ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離各音源の定位角 [74° ，27° ，−60° ] 2: 3: 4:補助情報 5:

23.

22 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの分離性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力することを仮定） 5. IC Conv-TasNet + FiLM（提案手法）ステレオ音楽信号分離信号ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離各音源の定位角 [74° ，27° ，−60° ] 2: 3: 4:補助情報 5:

24.

23 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの分離性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力することを仮定） 5. IC Conv-TasNet + FiLM（提案手法）ステレオ音楽信号分離信号ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離各音源の定位角 [74° ，27° ，−60° ] 2: 3: 4:補助情報 5:

25.

24 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの分離性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力することを仮定） 5. IC Conv-TasNet + FiLM（提案手法）ステレオ音楽信号 R L 左右音量比に基づく音源の方向感 0° SpaInNet −90° 90° 各音源の定位角 [74° ，27° ，−60° ] 分離信号メイン入力補助情報

26.

25 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの分離性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. SpaIn-Net（正確な定位角を入力することを仮定） 5. IC Conv-TasNet + FiLM（提案手法）ステレオ音楽信号分離信号ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離各音源の定位角 [74° ，27° ，−60° ] 2: 3: 4:補助情報 5:

27.

テストデータの分離性能比較（Bass） 26 • 提案手法は，SDRの中央値において他手法より最も高い値を示した – 方位分離信号が補助情報として有効に機能していることが示唆信号対歪み比（Source-to-distortion ratio: SDR） SDRとは，分離信号がどれだけ元の音源に近いかを表す指標で，値が大きいほど分離性能が高いといえるステレオ音楽信号方位分離信号（提案手法）

28.

テストデータの分離性能比較（Bass） 27 • 提案手法は，SDRの中央値において他手法より最も高い値を示した – 方位分離信号が補助情報として有効に機能していることが示唆ステレオ音楽信号方位分離信号（提案手法）

29.

テストデータの分離性能比較（Drum） 28 • 提案手法は，SDRの中央値において他手法より最も高い値を示した – 方位分離信号が補助情報として有効に機能していることが示唆ステレオ音楽信号方位分離信号（提案手法）

30.

テストデータの分離性能比較（Other） 29 • 提案手法は，SDRの中央値において他手法より最も高い値を示した – 方位分離信号が補助情報として有効に機能していることが示唆ステレオ音楽信号方位分離信号（提案手法）

31.

テストデータの分離性能比較（Vocal） 30 • 提案手法は，SDRの中央値において他手法より最も高い値を示した – 方位分離信号が補助情報として有効に機能していることが示唆ステレオ音楽信号方位分離信号（提案手法）

32.

平均SDR改善量（Δ • Δ 31 ）の比較とは – ステレオ音楽信号のSDRを基準とした，分離性能の改善指標 • 全音源の平均Δ の結果 – 音源ごとの大きな差は見られず，手法間の傾向は一貫している – 提案手法が最も高いSDRを示し，全体的な性能向上を確認 Bass Drum Other Vocal Avg. -4.97 -4.29 -5.86 -6.61 -5.37 方位分離信号 5.12 5.92 6.58 8.04 6.41 IC Conv-TasNet 9.69 8.07 8.15 10.66 9.14 11.34 10.79 10.10 13.48 11.43 12.78 11.64 12.13 15.14 12.92 音源ステレオ音楽信号 SpaIn-Net IC Conv-TasNet + FiLM （提案手法） SDR Δ 方位分離信号を補助情報として用いることの有効性が示された

33.

32 汎化性能評価実験 • ここまでの実験では，音源数を4に固定し，空間配置をランダムに変化させて学習 2 3 4 1 2 5 3 4 1 2 5 3 4 1 5 • 音源数が 2～4 と変動する条件下で，提案手法の汎化性能を検証 2 1 3 4 2 5 1 3 4 2 5 1 3 4 5

34.

33 汎化性能評価実験 • ここまでの実験では，音源数を4に固定し，空間配置をランダムに変化させて学習 2 3 3 4 1 4 2 提案手法（固定音源数モデル） 5 1 5 2 3 4 1 5 • 音源数が 2～4 と変動する条件下で，提案手法の汎化性能を検証 2 1 3 3 4 4 2 提案手法（可変音源数モデル） 5 1 5 2 1 3 4 5

35.

34 実験条件 • 勾配累積を行い，学習をおこなう（4バッチ毎に更新） • 混合精度学習を使用 – 16bitと32bit浮動小数点型の両方をモデルに使ってモデルのトレーニングを高速化し，使用するメモリを少なくする手法条件値学習回数 1000回バッチサイズ 4 学習率 1e-3 サンプリング周波数 [kHz] 16 早期終了の回数 30 学習データの総音声時間 [s] 80,960 （100曲分）検証データの総音声時間 [s] 8,220 （10曲分）テストデータの総音声時間 [s] 8,570 （10曲分）

36.

35 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. 提案手法（固定音源数モデル） 5. 提案手法（可変音源数モデル）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

37.

36 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. 提案手法（固定音源数モデル） 5. 提案手法（可変音源数モデル）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

38.

37 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. 提案手法（固定音源数モデル） 5. 提案手法（可変音源数モデル）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

39.

38 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号（分離の基準） 2. 方位分離信号（事前処理のみの性能を確認するため） 3. IC Conv-TasNet（補助情報なし） 4. 提案手法（固定音源数モデル） 5. 提案手法（可変音源数モデル）分離信号ステレオ音楽信号 R IC ConvTasNet L 方位分離信号方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

40.

平均Δ • 全音源の平均Δ 39 の比較の結果 – 固定音源数モデルは学習時に想定していない音源数条件を含むため性能が悪化 – 可変音源数モデルそれを上回る最も高い分離結果を示し，全体的な性能向上を確認音源ステレオ音楽信号 SDR 方位分離信号 IC Conv-TasNet 提案手法（固定音源数モデル）提案手法（可変音源数モデル） Δ Bass Drum Other Vocal Avg. -3.16 -2.60 -4.07 -4.73 -3.64 6.31 7.59 8.03 9.78 7.93 9.07 7.60 7.54 9.59 8.45 13.24 11.58 12.90 15.25 13.24 15.68 14.70 15.73 18.00 16.03 音源数を可変とした学習により，未知の音源数条件に対しても対応可能となり，高い汎化性能を獲得

41.

40 テストデータへの適用（デモ） • 曲名：Angels in amplifiers - ’m lr gh • 各音源の配置箇所 – 1: 音源なし – 2: Other （定位角: 45° ） – 3: Drum （定位角: -8° ） – 4: 音源なし – 5: Vocal （定位角: -56° ） 0° 2 90 ° 3 4 1 5 -90° Drum Other Vocal ステレオ音楽信号 -4.55 -3.91 -0.95 方位分離信号 5.50 6.73 2.64 5.44 2.13 7.43 10.20 15.44 17.23 音源 IC Conv-TasNet（補助情報なし）提案手法（可変音源数モデル） SDR

42.

まとめ 41 • 方位分離信号を補助情報としてDNNに統合する手法を提案 • 補助情報を使用しないIC Conv-TasNetや，類似研究であるSpaIn-Netと比較し，提案手法は全ての音源で性能改善を達成 • 通常のDNNとは異なり，ステレオ音楽信号内の音源数によらず，有効に機能することを確認入手が容易な方位分離信号を用いることで，高精度かつ高い汎化性能を実現可能であることが示された • 研究実績加藤大輝, 北村大地, "単一話者発話区間情報を援用したブラインド音源分離," 第27回日本音響学会関西支部若手研究者交流研究発表会, p. 11, 大阪, 2024年12月（査読無）. 加藤大輝, 北村大地, 矢田部浩平, “左右音量比特徴量を援用した Conv-TasNet によるステレオ音楽分離,” 日本音響学会2026年春季研究発表会講演論文集, 東京, 2026年3月（in press）.