音量比における事前処理を援用した深層ステレオ音楽分離

>100 Views

March 02, 26

スライド概要

加藤大輝,"音量比における事前処理を援用した深層ステレオ音楽分離,"香川高等専門学校専攻科電気情報工学科コース 特別研究論文, 63 pages, 2026年2月.

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

令和7年度特別研究Ⅱ発表審査会 2026/2/4 9:00~12:00 音量比における事前処理を援用した 深層ステレオ音楽分離 7番 加藤 大輝

2.

1 背景 • 音楽分離とは – 様々な音源が混合した信号から,音楽中の個々の音源を 分離する – 深層ニューラルネットワーク(deep neural network: DNN)を 用いた音楽分離が発展[Araki+, 2025] 音楽信号(未知) 分離信号(推定) ステレオ音楽信号 ? ? ミックス ダウン DNN ? • 応用例 – 自動採譜 – ジャンル認識 etc… AI 自動採譜

3.

2 背景 • ミックスダウン処理では,左右チャネルの音量比や各種 ステレオエフェクトにより,音源の方向感(定位角)を決定 0° 音源1は左前方に定位 (定位角: 60° ) 音源2は右前方に定位 (定位角: −60° ) 前方 左前方 90° ステレオ音楽信号(左チャネル) 右前方 −90° ステレオ音楽信号(右チャネル) 音源1 音源1 音源2 音源2 実際のステレオ音楽信号から,単純な左右音量比のみを 用いて正確な定位角を求めることは困難

4.

深層学習を用いた音楽分離の発展 • End-to-end モデルのDNNによる音楽分離が発展 – デメリットとして,大量のデータ・計算コストを要する 分離信号 ステレオ音楽信号 R DNN L • 高精度な音楽分離を実現する方法として,空間情報など 補助的特徴量を入力に追加することが有効[Petermann+, 2022] 分離信号 ステレオ音楽信号 R DNN L 補助的特徴量 3

5.

深層学習を用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音源の方向感(定位角)を補助情報としてDNNに入力する ことで,分離精度が大幅に向上 – 実際の音楽から定位角を正確に取得することは極めて困難 ステレオ音楽信号 R L 左右音量比に基づく音源の方向感 分離信号 メイン入力 0° SpaInNet −90° 90° 各音源の定位角 [74° ,27° ,−60° ] 補助情報 4

6.

深層学習を用いた音楽分離の発展 • SpaIn-Net [Petermann+, 2022] – 音源の方向感(定位角)を補助情報としてDNNに入力する ことで,分離精度が大幅に向上 – 実際の音楽から定位角を正確に取得することは極めて困難 ステレオ音楽信号 R L 左右音量比に基づく音源の方向感 メイン入力 0° 分離信号 「定位角が既知である場合に,補助情報がどの程度有効か」 SpaInを検証した基礎的・先駆的研究である Net −90° 90° 各音源の定位角 [74° ,27° ,−60° ] 補助情報 5

7.

6 提案手法 • 新たに音楽分離性能向上手法を提案 – ステレオ音楽信号の左右音量比を利用した方位分離を行い, その結果をDNNの補助入力として与える 分離信号 ステレオ音楽信号 R DNN L 方位分離信号 方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5: DNN補助入力 DNNの負担となる複雑な分離処理の一部を緩和でき, 学習効率の向上と必要データ量の削減を目指す

8.

なぜ方位分離を行うの? 7 • ステレオ音楽信号は,左右チャネルの音量比によって 音源の方向感を決定 – DNNもこの方向感を手がかりに学習している可能性がある 音源2は前方に定位 0° 音源1は左前方に定位 音源3は右前方に定位 前方 左前方 90° ステレオ音楽信号(左チャネル) 右前方 −90° ステレオ音楽信号(右チャネル) 音源1 音源1 音源2 音源2 音源3 音源3

9.

8 方位分離処理 • ステレオ音楽信号(時間周波数領域)の左右音量比に基 づき,音源の方向感をエネルギー分布として表現 • 特定の方位に対応する成分だけを残すバイナリマスクを 作成し,方位ごとの信号を生成する 12 ×103 エネルギーに基づいた重み付き度数 エネルギーの高さ=その方向に強い音源が存在 10 音源1 音源2 音源3 8 6 4 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 90

10.

9 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

11.

10 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

12.

11 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

13.

12 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

14.

13 方位分離処理 エネルギーに基づいた重み付き度数 12 ×103 10 8 6 4 方位成分を抽出する バイナリマスクを生成し, ステレオ音楽信号に適応 2 0 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 定位角度 10 20 30 40 50 60 70 80 時間周波数領域で単純なマスクを掛けているだけの極めて粗い分離 90

15.

14 方位分離信号 • 正解信号と方位分離後信号の時間周波数表現の比較 – 多くの周波数成分が欠落し,音としては大きく劣化している 正解信号 7 7 6 6 5 5 4 3 4 3 2 2 1 1 0 0 1 2 3 4 5 6 時間 [s] 方位分離信号 8 周波数 [kHz] 周波数 [kHz] 8 7 8 9 10 0 0 1 2 3 4 5 6 時間 [s] 7 音質が大きく劣化した信号が,DNNにとっては 有効な補助情報になる 8 9 10

16.

DNN構造 • 本研究では,IC Conv-TasNet を採用[Lee+, 2021] • ステレオ音楽信号をメイン入力とし,分離信号を出力 ステレオ音楽信号 TCN block内部 R L TCN入力 Conv2D PReLU TCN block TCN block TCN block Mask Decoder DWConv2D 残差接続 マスク生成 残差接続 Encoder PReLU Conv2D PReLU 分離信号 1: 2: 3: 次のTCN入力 マスク生成 15

17.

DNN構造 • 本研究では,IC Conv-TasNet を採用[Lee+, 2021] • ステレオ音楽信号をメイン入力とし,分離信号を出力 ステレオ音楽信号 TCN block内部 R L TCN入力 Conv2D PReLU TCN block TCN block DWConv2D 残差接続 マスク生成 残差接続 Encoder PReLU ステレオ音楽信号に含まれる空間的混合を,すべて TCN blockDNN内部で学習させるのは困難 → 学習負担が大きい・大量データが必要 Mask Conv2D Decoder PReLU 分離信号 1: 2: 3: 次のTCN入力 マスク生成 16

18.

17 FiLM[Ethan+, 2018]の導入 • FiLMは,方位分離信号をDNNの主処理に自然に 組み込む仕組み ステレオ音楽信号 TCN block内部 R L TCN入力 Conv2D PReLU TCN block TCN block TCN block Mask Decoder DWConv2D 残差接続 マスク生成 残差接続 Encoder PReLU 方位分離信号 1: 2: 3: Mel-spectrogram Conv2D PReLU Linear FiLM ジェネレータ Conv2D PReLU 分離信号 1: 2: 3: 次のTCN入力 マスク生成 : スケーリングパラメータ : シフトパラメータ

19.

18 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源(Bass, Drum, Vocal, Other)を10秒に切り出す – 等間隔に分割した方位スロットに各音源をランダムに割り当て, ステレオ音楽信号を生成 • 1つの方位スロットには複数の音源は配置しない – 得られたステレオ音楽信号を方位分離処理し,方位分離信号を 生成 音楽信号 ステレオ音楽信号 2 1 3 4 5

20.

19 データセットの作成 • 公開データセット MUSDB18 を使用 – 各音源(Bass, Drum, Vocal, Other)を10秒切り出す – 各音源にランダムな定位角度を割り当て,ステレオ音楽信号を 生成 • 1つの方位には同時に2種類以上の音源を配置しない – 得られたステレオ音楽信号を方位分離処理し,方位分離信号を 生成 方位分離 方位分離信号 ステレオ音楽信号 2 1 3 4 5 1 2 3 4 5

21.

20 実験条件 • 勾配累積を行い,学習をおこなう(4バッチ毎に更新) • 混合精度学習を使用 – 16bitと32bit浮動小数点型の両方をモデルに使ってモデルの トレーニングを高速化し,使用するメモリを少なくする手法 条件 値 学習回数 1000回 バッチサイズ 4 学習率 1e-3 サンプリング周波数 [kHz] 16 早期終了の回数 30 学習データの総音声時間 [s] 32,720 (100曲分) 検証データの総音声時間 [s] 3,130 (10曲分) テストデータの総音声時間 [s] 3,650 (10曲分)

22.

21 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの分離性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力することを仮定) 5. IC Conv-TasNet + FiLM(提案手法) ステレオ音楽信号 分離信号 ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離 各音源の定位角 [74° ,27° ,−60° ] 2: 3: 4:補助情報 5:

23.

22 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの分離性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力することを仮定) 5. IC Conv-TasNet + FiLM(提案手法) ステレオ音楽信号 分離信号 ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離 各音源の定位角 [74° ,27° ,−60° ] 2: 3: 4:補助情報 5:

24.

23 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの分離性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力することを仮定) 5. IC Conv-TasNet + FiLM(提案手法) ステレオ音楽信号 分離信号 ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離 各音源の定位角 [74° ,27° ,−60° ] 2: 3: 4:補助情報 5:

25.

24 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの分離性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力することを仮定) 5. IC Conv-TasNet + FiLM(提案手法) ステレオ音楽信号 R L 左右音量比に基づく音源の方向感 0° SpaInNet −90° 90° 各音源の定位角 [74° ,27° ,−60° ] 分離信号 メイン入力 補助情報

26.

25 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの分離性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. SpaIn-Net(正確な定位角を入力することを仮定) 5. IC Conv-TasNet + FiLM(提案手法) ステレオ音楽信号 分離信号 ステレオ音楽信号R R L L左右音量比に基づく音源の方向感 0° 90° メイン入力 1: 2: IC Conv- 分離信号 3: TasNet 4: 5: 方位分離信号 SpaIn1: Net −90° 方位分離 各音源の定位角 [74° ,27° ,−60° ] 2: 3: 4:補助情報 5:

27.

テストデータの分離性能比較(Bass) 26 • 提案手法は,SDRの中央値において他手法より最も高い 値を示した – 方位分離信号が補助情報として有効に機能していることが示唆 信号対歪み比(Source-to-distortion ratio: SDR) SDRとは,分離信号がどれだけ元の音源に近いかを表す 指標で,値が大きいほど分離性能が高いといえる ステレオ音楽信号 方位分離信号 (提案手法)

28.

テストデータの分離性能比較(Bass) 27 • 提案手法は,SDRの中央値において他手法より最も高い 値を示した – 方位分離信号が補助情報として有効に機能していることが示唆 ステレオ音楽信号 方位分離信号 (提案手法)

29.

テストデータの分離性能比較(Drum) 28 • 提案手法は,SDRの中央値において他手法より最も高い 値を示した – 方位分離信号が補助情報として有効に機能していることが示唆 ステレオ音楽信号 方位分離信号 (提案手法)

30.

テストデータの分離性能比較(Other) 29 • 提案手法は,SDRの中央値において他手法より最も高い 値を示した – 方位分離信号が補助情報として有効に機能していることが示唆 ステレオ音楽信号 方位分離信号 (提案手法)

31.

テストデータの分離性能比較(Vocal) 30 • 提案手法は,SDRの中央値において他手法より最も高い 値を示した – 方位分離信号が補助情報として有効に機能していることが示唆 ステレオ音楽信号 方位分離信号 (提案手法)

32.

平均SDR改善量(Δ • Δ 31 )の比較 とは – ステレオ音楽信号のSDRを基準とした,分離性能の改善指標 • 全音源の平均Δ の結果 – 音源ごとの大きな差は見られず,手法間の傾向は一貫している – 提案手法が最も高いSDRを示し,全体的な性能向上を確認 Bass Drum Other Vocal Avg. -4.97 -4.29 -5.86 -6.61 -5.37 方位分離信号 5.12 5.92 6.58 8.04 6.41 IC Conv-TasNet 9.69 8.07 8.15 10.66 9.14 11.34 10.79 10.10 13.48 11.43 12.78 11.64 12.13 15.14 12.92 音源 ステレオ音楽信号 SpaIn-Net IC Conv-TasNet + FiLM (提案手法) SDR Δ 方位分離信号を補助情報として用いることの有効性が示された

33.

32 汎化性能評価実験 • ここまでの実験では,音源数を4に固定し,空間配置を ランダムに変化させて学習 2 3 4 1 2 5 3 4 1 2 5 3 4 1 5 • 音源数が 2~4 と変動する条件下で,提案手法の汎化 性能を検証 2 1 3 4 2 5 1 3 4 2 5 1 3 4 5

34.

33 汎化性能評価実験 • ここまでの実験では,音源数を4に固定し,空間配置を ランダムに変化させて学習 2 3 3 4 1 4 2 提案手法(固定音源数モデル) 5 1 5 2 3 4 1 5 • 音源数が 2~4 と変動する条件下で,提案手法の汎化 性能を検証 2 1 3 3 4 4 2 提案手法(可変音源数モデル) 5 1 5 2 1 3 4 5

35.

34 実験条件 • 勾配累積を行い,学習をおこなう(4バッチ毎に更新) • 混合精度学習を使用 – 16bitと32bit浮動小数点型の両方をモデルに使ってモデルの トレーニングを高速化し,使用するメモリを少なくする手法 条件 値 学習回数 1000回 バッチサイズ 4 学習率 1e-3 サンプリング周波数 [kHz] 16 早期終了の回数 30 学習データの総音声時間 [s] 80,960 (100曲分) 検証データの総音声時間 [s] 8,220 (10曲分) テストデータの総音声時間 [s] 8,570 (10曲分)

36.

35 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. 提案手法(固定音源数モデル) 5. 提案手法(可変音源数モデル) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

37.

36 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. 提案手法(固定音源数モデル) 5. 提案手法(可変音源数モデル) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

38.

37 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. 提案手法(固定音源数モデル) 5. 提案手法(可変音源数モデル) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

39.

38 評価対象 • 評価対象は以下の5種類とした 1. ステレオ音楽信号(分離の基準) 2. 方位分離信号(事前処理のみの性能を確認するため) 3. IC Conv-TasNet(補助情報なし) 4. 提案手法(固定音源数モデル) 5. 提案手法(可変音源数モデル) 分離信号 ステレオ音楽信号 R IC ConvTasNet L 方位分離信号 方位分離 1: 2: 3: 4: 5: 1: 2: 3: 4: 5:

40.

平均Δ • 全音源の平均Δ 39 の比較 の結果 – 固定音源数モデルは学習時に想定していない音源数条件を 含むため性能が悪化 – 可変音源数モデルそれを上回る最も高い分離結果を示し, 全体的な性能向上を確認 音源 ステレオ音楽信号 SDR 方位分離信号 IC Conv-TasNet 提案手法(固定音源数モデル) 提案手法(可変音源数モデル) Δ Bass Drum Other Vocal Avg. -3.16 -2.60 -4.07 -4.73 -3.64 6.31 7.59 8.03 9.78 7.93 9.07 7.60 7.54 9.59 8.45 13.24 11.58 12.90 15.25 13.24 15.68 14.70 15.73 18.00 16.03 音源数を可変とした学習により,未知の音源数条件に対しても 対応可能となり,高い汎化性能を獲得

41.

40 テストデータへの適用(デモ) • 曲名:Angels in amplifiers - ’m lr gh • 各音源の配置箇所 – 1: 音源なし – 2: Other (定位角: 45° ) – 3: Drum (定位角: -8° ) – 4: 音源なし – 5: Vocal (定位角: -56° ) 0° 2 90 ° 3 4 1 5 -90° Drum Other Vocal ステレオ音楽信号 -4.55 -3.91 -0.95 方位分離信号 5.50 6.73 2.64 5.44 2.13 7.43 10.20 15.44 17.23 音源 IC Conv-TasNet(補助情報なし) 提案手法(可変音源数モデル) SDR

42.

まとめ 41 • 方位分離信号を補助情報としてDNNに統合する手法を 提案 • 補助情報を使用しないIC Conv-TasNetや,類似研究で あるSpaIn-Netと比較し,提案手法は全ての音源で性能 改善を達成 • 通常のDNNとは異なり,ステレオ音楽信号内の音源数に よらず,有効に機能することを確認 入手が容易な方位分離信号を用いることで,高精度かつ 高い汎化性能を実現可能であることが示された • 研究実績 加藤大輝, 北村大地, "単一話者発話区間情報を援用したブラインド音源分離," 第27回日本音響学会 関西支部 若手研究者交流研究発表会, p. 11, 大阪, 2024年12月(査読無). 加藤大輝, 北村大地, 矢田部浩平, “左右音量比特徴量を援用した Conv-TasNet によるステレオ音楽 分離,” 日本音響学会2026年春季研究発表会講演論文集, 東京, 2026年3月(in press).