独立深層学習行列分析に基づく多チャネル音源分離（Multichannel audio source separation based on independent deeply learned matrix analysis）

3.6K Views

March 16, 18

#source separation #music #bss #ica #ilrma #deep neural network #idlma #音源分離 #深層学習 #DNN #IDLMA #多チャネル

スライド概要

角野隼斗, 北村大地, 高宗典玄, 高道慎之介, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離," 日本音響学会 2018年春季研究発表会講演論文集, 1-4-16, pp. 449–452, Saitama, March 2018.
Hayato Sumino, Daichi Kitamura, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, Nobutaka Ono, "Multichannel audio source separation based on independent deeply learned matrix analysis," Proceedings of 2018 Spring Meeting of Acoustical Society of Japan, 1-4-16, pp. 449–452, Saitama, March 2018 (in Japanese).

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 187.5K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 63.2K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 46.1K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 42.3K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 16K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 14.3K

各ページのテキスト

独立深層学習行列分析に基づく多チャネル音源分離 ☆角野隼斗, 北村大地, 高宗典玄, 高道慎之介, 猿渡洋 (東大), 小野順貴 (首都大)

多チャネル音源分離 n 観測信号を利用し，混合前の音源信号を推定する技術音源信号 sij sij,1 sij,2 観測信号 xij = Ai sij Ai 混合系未知 xij,1 xij,2 既知分離信号 yij = Wi xij yij,1 Wi 分離系推定 yij,2 i ：周波数インデクス j ：時間インデクス Ai , Wi は行列 ※ 以下の条件を仮定している n 優決定条件（観測マイク数 ≧ 音源数） n 周波数領域上での瞬時混合（ランク1空間モデル） 2 / 15

本研究の位置付け 2018年3月13日提案手法 3 / 15

Duong+DNN法 [Nugraha+, 2016] n 生成モデル：多変量複素ガウス分布（Duongモデル [Duong+, 2009] ） sij,1 sij,2 混合系 Ai xij xij,1 xij,2 xij 分離系 Wi yij,1 yij,2 n 尤度関数音源の分散（パワー） DNNで推定空間相関行列 ↓ EMアルゴリズムに基づき空間モデル最適化 n EMアルゴリズムの反復に必要な計算量が多い n 分離系を推定する手法は混合系を推定する手法に比べ高精度な分離が可能 [Kitamura+, 2016] 4 / 15

定式化生成モデル：時間周波数分散変動型複素ガウス分布 [Févotte+, 2009] 時間周波数の各スロットで定義された複素ガウス分布 n：音源インデクス複素要素の時間周波数行列 (I × J 次元) 時間周波数に依存する分散（＝のパワー）観測信号の負対数尤度音源モデル空間モデル 5 / 15

独立低ランク行列分析（ILRMA）空間モデル (音源間が独立) 音源モデル (低ランク性) 分散行列分離信号空間モデル yij 音源モデル（低ランク行列） Wi Frequency （周波数ごとに個別な分離行列） Frequency xij 分離行列交互に最適化観測信号 [Kitamura+, 2016] Time n 空間モデル（Wの推定）：各音源が統計的に独立となる分離行列を推定 n 音源モデル（Rの推定）：各音源の分散時間周波数行列の低ランク近似 2018年3月13日 6 / 15

独立低ランク行列分析（ILRMA）音源モデル (低ランク性) [Kitamura+, 2016] 空間モデル (音源間が独立) 音源によっては低ランク性が音源・マイク位置，部屋の形状，成り立たない場合がある残響時間などの膨大な物理要因に依存事前に学習データを用いて音源モデル学習データの用意は非現実的の分散を推定する写像を作るブラインドに推定 DNNによる汎用的な音源モデルの構成 2018年3月13日 7 / 15

提案手法：独立深層学習行列分析 n IDLMA(Independent Deeply Learned Matrix Analysis) 分離信号 xij yij 空間モデル Wi 音源モデル（DNN） Time Frequency Frequency 観測信号交互に最適化空間モデル (音源間が独立） Frequency Frequency 音源モデル (DNN) Time n 空間モデル：各音源が統計的に独立となる分離行列を推定 n 音源モデル：分散行列 2018年3月13日を推定するDNNを各音源ごとに構成 8 / 15

提案手法：独立深層学習行列分析 n IDLMA(Independent Deeply Learned Matrix Analysis) n DNN音源モデル（音源ごとに構成）混合信号（パワー） DNN 分離信号推定分散（パワー） DNN学習時のコスト関数 (IS divergence) → Minimize n IS divergenceに基づく最適化は 2018年3月13日の赤枠部分の最小化（最尤推定）と等価 9 / 15

10.

評価実験学習信号 DSD100（音楽データセット）Dev 50曲（Vo./Ba. & Vo./Dr.) 評価信号 DSD100 Test 25曲に対し，以下の配置のE2Aインパルス応答（RT60 = 300 ms）を畳み込んだ信号サンプリング周波数 8 kHz STFTの設定窓長 128, 256, 512, 1024 ms / シフト長: 窓長の半分評価指標 Signal-to-Distortion Ratio (SDR) の改善量比較手法 ILRMA / DNN+WF法 [Uhlich+, 2015] / Duong+DNN法 / 提案手法（IDLMA）配置1 (a) Vo. Ba. or Dr. 配置2 (b) Ba. or Dr. Vo. 2m 40 40 5.66 cm 2m E2A impulse response T60 = 300 ms 40 20 2.83 cm E2A impulse response T60 = 300 ms 10 / 15

11.

DNNの学習方法 n DNNの入出力音源ごとにDNNを学習 n モデル DNNの構造全結合NN 隠れ層4層（各層ユニット数1024）活性化関数 ReLU（隠れ層及び出力層） 2018年3月13日 11 / 15

12.

実験結果（STFTの窓長と性能の関係） n STFTの窓長と音源分離性能（平均SDR改善量） [dB] ※配置1と配置2の平均窓長 [ms] 128 256 512 1024 Vo ./Ba. (ILRMA) 3.67 4.98 6.48 4.39 Vo ./Ba. (IDLMA) 11.03 12.30 13.04 11.11 Vo ./Dr. (ILRMA) 5.45 6.39 6.18 4.82 Vo ./Dr. (IDLMA) 6.89 10.09 5.77 6.02 短い瞬時混合仮定が不成立長い統計バイアス増加 DNNのパラメータ数増加 n Vo./Ba.では窓長512 ms，Vo./Dr.では窓長256 msが最も性能が良い n IDLMAの性能は窓長に関してトレードオフが存在 2018年3月13日 12 / 15

13.

実験結果（従来手法との性能比較） n 空間モデル更新毎のSDR改善量（窓長512 ms，配置1，Vo./Ba.） Proposed method (IDLMA) Good Duong+DNN 教師あり DNN+WF ILRMA ブラインド n 10回に1回 DNNで分散行列を更新 2018年3月13日 13 / 15

14.

実験結果（従来手法との性能比較） n 空間モデル更新毎のSDR改善量（窓長512 ms，配置1，Vo./Ba.） Proposed method (IDLMA) Good Duong+DNN 実計算時間例 26.56 [s] DNN+WF ILRMA 287.06 [s] 23.31 [s] n 10回に1回 DNNで分散行列を更新 2018年3月13日 14 / 15

15.

まとめ n 従来のブラインド音源分離手法（ILRMA）において，音源モデルをDNNによって推定する教師あり拡張手法（IDLMA）を提案した n 提案手法（IDLMA）は，既存手法に対し優れた分離性能を示し，分離系の推定が混合系の推定よりも高速かつ高精度であることを示した xij yij 空間モデル Wi 2018年3月13日音源モデル（DNN） Time Frequency Frequency 分離信号 Frequency Frequency 観測信号 Time 15 / 15