独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on independent deeply learned matrix analysis)

610 Views

March 16, 18

スライド概要

角野隼斗, 北村大地, 高宗典玄, 高道慎之介, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離," 日本音響学会 2018年春季研究発表会講演論文集, 1-4-16, pp. 449–452, Saitama, March 2018.
Hayato Sumino, Daichi Kitamura, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, Nobutaka Ono, "Multichannel audio source separation based on independent deeply learned matrix analysis," Proceedings of 2018 Spring Meeting of Acoustical Society of Japan, 1-4-16, pp. 449–452, Saitama, March 2018 (in Japanese).

profile-image

http://d-kitamura.net/links_en.html

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

独立深層学習行列分析に基づく 多チャネル音源分離 ☆角野隼斗, 北村大地, 高宗典玄, 高道慎之介, 猿渡洋 (東大), 小野順貴 (首都大)

2.

多チャネル音源分離 n 観測信号を利用し,混合前の音源信号を推定する技術 音源信号 sij sij,1 sij,2 観測信号 xij = Ai sij Ai 混合系 未知 xij,1 xij,2 既知 分離信号 yij = Wi xij yij,1 Wi 分離系 推定 yij,2 i :周波数インデクス j :時間インデクス Ai , Wi は行列 ※ 以下の条件を仮定している n 優決定条件(観測マイク数 ≧ 音源数) n 周波数領域上での瞬時混合(ランク1空間モデル) 2 / 15

3.

本研究の位置付け 2018年3月13日 提案手法 3 / 15

4.

Duong+DNN法 [Nugraha+, 2016] n 生成モデル:多変量複素ガウス分布(Duongモデル [Duong+, 2009] ) sij,1 sij,2 混合系 Ai xij xij,1 xij,2 xij 分離系 Wi yij,1 yij,2 n 尤度関数 音源の分散(パワー) DNNで推定 空間相関行列 ↓ EMアルゴリズムに基づき空間モデル最適化 n EMアルゴリズムの反復に必要な計算量が多い n 分離系を推定する手法は混合系を推定する手法に比べ高精度な分離が 可能 [Kitamura+, 2016] 4 / 15

5.

定式化 生成モデル:時間周波数分散変動型複素ガウス分布 [Févotte+, 2009] 時間周波数の各スロットで 定義された複素ガウス分布 n:音源インデクス 複素要素の時間周波数行列 (I × J 次元) 時間周波数に依存する分散 (= のパワー) 観測信号の負対数尤度 音源モデル 空間モデル 5 / 15

6.

独立低ランク行列分析(ILRMA) 空間モデル (音源間が独立) 音源モデル (低ランク性) 分散行列 分離信号 空間モデル yij 音源モデル(低ランク行列) Wi Frequency (周波数ごとに 個別な分離行列) Frequency xij 分離行列 交互に最適化 観測信号 [Kitamura+, 2016] Time n 空間モデル(Wの推定):各音源が統計的に独立となる分離行列を推定 n 音源モデル(Rの推定):各音源の分散時間周波数行列の低ランク近似 2018年3月13日 6 / 15

7.

独立低ランク行列分析(ILRMA) 音源モデル (低ランク性) [Kitamura+, 2016] 空間モデル (音源間が独立) 音源によっては低ランク性が 音源・マイク位置,部屋の形状, 成り立たない場合がある 残響時間などの膨大な物理要因に依存 事前に学習データを用いて音源モデル 学習データの用意は非現実的 の分散を推定する写像を作る ブラインドに推定 DNNによる汎用的な音源モデルの構成 2018年3月13日 7 / 15

8.

提案手法:独立深層学習行列分析 n IDLMA(Independent Deeply Learned Matrix Analysis) 分離信号 xij yij 空間モデル Wi 音源モデル(DNN) Time Frequency Frequency 観測信号 交互に最適化 空間モデル (音源間が独立) Frequency Frequency 音源モデル (DNN) Time n 空間モデル:各音源が統計的に独立となる分離行列を推定 n 音源モデル:分散行列 2018年3月13日 を推定するDNNを各音源ごとに構成 8 / 15

9.

提案手法:独立深層学習行列分析 n IDLMA(Independent Deeply Learned Matrix Analysis) n DNN音源モデル(音源ごとに構成) 混合信号 (パワー) DNN 分離信号 推定分散(パワー) DNN学習時のコスト関数 (IS divergence) → Minimize n IS divergenceに基づく最適化は 2018年3月13日 の赤枠部分の最小化(最尤推定)と等価 9 / 15

10.

評価実験 学習信号 DSD100(音楽データセット)Dev 50曲(Vo./Ba. & Vo./Dr.) 評価信号 DSD100 Test 25曲に対し,以下の配置のE2Aインパルス応答 (RT60 = 300 ms)を畳み込んだ信号 サンプリング周波数 8 kHz STFTの設定 窓長 128, 256, 512, 1024 ms / シフト長: 窓長の半分 評価指標 Signal-to-Distortion Ratio (SDR) の改善量 比較手法 ILRMA / DNN+WF法 [Uhlich+, 2015] / Duong+DNN法 / 提案手法(IDLMA) 配置1 (a) Vo. Ba. or Dr. 配置2 (b) Ba. or Dr. Vo. 2m 40 40 5.66 cm 2m E2A impulse response T60 = 300 ms 40 20 2.83 cm E2A impulse response T60 = 300 ms 10 / 15

11.

DNNの学習方法 n DNNの入出力 音源ごとにDNNを学習 n モデル DNNの構造 全結合NN 隠れ層4層(各層ユニット数1024) 活性化関数 ReLU(隠れ層及び出力層) 2018年3月13日 11 / 15

12.

実験結果(STFTの窓長と性能の関係) n STFTの窓長と音源分離性能(平均SDR改善量) [dB] ※配置1と配置2の平均 窓長 [ms] 128 256 512 1024 Vo ./Ba. (ILRMA) 3.67 4.98 6.48 4.39 Vo ./Ba. (IDLMA) 11.03 12.30 13.04 11.11 Vo ./Dr. (ILRMA) 5.45 6.39 6.18 4.82 Vo ./Dr. (IDLMA) 6.89 10.09 5.77 6.02 短い 瞬時混合仮定が不成立 長い 統計バイアス増加 DNNのパラメータ数増加 n Vo./Ba.では窓長512 ms,Vo./Dr.では窓長256 msが最も性能が良い n IDLMAの性能は窓長に関してトレードオフが存在 2018年3月13日 12 / 15

13.

実験結果(従来手法との性能比較) n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.) Proposed method (IDLMA) Good Duong+DNN 教師あり DNN+WF ILRMA ブラインド n 10回に1回 DNNで分散行列を更新 2018年3月13日 13 / 15

14.

実験結果(従来手法との性能比較) n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.) Proposed method (IDLMA) Good Duong+DNN 実計算時間例 26.56 [s] DNN+WF ILRMA 287.06 [s] 23.31 [s] n 10回に1回 DNNで分散行列を更新 2018年3月13日 14 / 15

15.

まとめ n 従来のブラインド音源分離手法(ILRMA)において,音源モデル をDNNによって推定する教師あり拡張手法(IDLMA)を提案した n 提案手法(IDLMA)は,既存手法に対し優れた分離性能を示し, 分離系の推定が混合系の推定よりも高速かつ高精度であることを 示した xij yij 空間モデル Wi 2018年3月13日 音源モデル(DNN) Time Frequency Frequency 分離信号 Frequency Frequency 観測信号 Time 15 / 15