ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

1.

ランク1空間近似を用いた BSS における音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation 総合研究大学院大学博士課程2年東京大学国立情報学研究所/総合研究大学院大学 NTT 東京大学/NTT ○北村大地猿渡洋小野順貴澤田宏亀岡弘和

2.

研究の背景 • ブラインド音源分離（blind source separation: BSS） – 観測信号のみ（混合系は未知）から音源信号を推定する技術音源信号観測信号混合系 – 優決定条件（音源数分離信号分離系録音マイク数）におけるBSS • 独立成分分析（ICA） [Comon, 1994] 等 – 劣決定条件（音源数録音マイク数）におけるBSS • 時間周波数マスク [Araki, 2007]，非負値行列因子分解（NMF）[Lee, 1999] 等 • BSSの応用 – 話者分離，雑音抑圧，音楽信号解析，音場再現の前処理 etc. 2

3.

本発表の目的 • ランク1空間近似を用いたBSS（全て優決定条件下） – 周波数領域ICA（FDICA） [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc. • スペクトログラム領域で周波数毎に独立なICAを適用 • パーミュテーション問題を解く – 独立ベクトル分析（IVA） [Hiroe, 2006], [Kim, 2006] • FDICAに対して球対称かつ多変量な事前分布を導入 • パーミュテーション問題を回避しつつ音源を分離 – ランク1多チャネルNMF（Rank-1 MNMF） [Kitamura, 2015] • 多チャネルNMF [Sawada, 2013] の空間相関行列にランク1制約を課す • 効率的かつ安定に最適化できる音源分離手法 • 上記3手法の音源モデル及び空間モデルについて考察 – 音源のスペクトル構造や混合系の制約等 • Rank-1 MNMFが最も柔軟なBSSであることを実験的に示す 3

4.

ランク1空間近似とは？ • 音源毎の空間相関行列のランクが1（という近似モデル） – 時間周波数領域において1つの音源の伝達系が1本の時不変なステアリングベクトルで表現可能 : 周波数インデクス : 時間インデクス音源マイクアレイ観測信号ステアリングベクトルステアリングベクトル – 時間周波数領域における時不変複素瞬時混合モデル時不変混合行列 – ランク1空間近似の物理的な意味 • 音源の伝達系が時不変 • インパルス応答が短時間フーリエ変換（STFT）の窓長より十分短い 4

5.

FDICAとパーミュテーション解決 • 周波数領域ICA（FDICA） [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc. – スペクトログラムの周波数ビン毎に独立なICAを適用 – 音源及び空間モデルはパーミュテーション解決法に依存分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数領域の信号（スペクトログラム） 5

6.

FDICA+DOAの音源モデルと空間モデル • FDICA+DOAクラスタリング [Saruwatari, 2000] DOA クラスタリング左正面到来方向（DOA）右推定された音源成分の頻度推定された音源成分の頻度 – 推定分離フィルタからステアリングベクトルを逆算し音源の到来方向（DOA）でクラスタリングすることでパーミュテーションを解く Source 1 Source 2 左正面右到来方向（DOA） – 音源モデル • 具体的なモデルスペクトログラムは無し（ICAの非ガウス性制約のみ） – 空間モデル • ランク1空間近似 • 混合系はDOAクラスタリングで解決できるという仮定（制約）音源の空間的な配置条件と残響レベルが分離性能に影響 6

7.

IVAの音源モデルと空間モデル • 独立ベクトル分析（IVA） [Hiroe, 2006], [Kim, 2006] 音源信号混合行列観測信号分離行列 … … … … … – 音源モデル分離信号球対称 • 周波数間の一定分散多次元ラプラス分布（球対称ラプラス分布） – 空間モデル • 特に制約無し（ランク1空間近似のみ） 7

8.

Rank-1 MNMFの音源モデルと空間モデル • ランク1空間近似付き多チャネルNMF [Kitamura, 2015] 多チャネル観測信号空間モデル音源モデル全空間相関行列がランク1という制約を導入 – 音源モデル • 任意基底数のNMFによる低ランク近似分解（分散が時間周波数で変動する）分散が変動 – 空間モデル • 特に制約無し（ランク1空間近似のみ） 8

9.

IVAとRank-1 MNMFの音源モデルの違い • IVAの音源モデル • 一定分散の多次元ラプラス分布 • 周波数ビン毎にスケールが任意なので一様（フラット）なスペクトルとは限らない Frequency – 周波数方向に一様な分散を持つ濃淡は分散値 – 1本の基底のNMFに近い Time 本来の音源のスペクトログラムが持つ基底数が分離性能に影響 – 任意基底数のNMF • より具体的な調波構造等を捉えられる – 音源毎に基底数を変えることも可能 • 潜在変数付きNMFモデルとして提案済濃淡は分散値 Frequency • Rank-1 MNMFの音源モデル Time 9

10.

実験的な実証方法 • 音源スペクトログラムの基底数の違い • 音源の混合系の違い分離精度に与える影響限定的空間モデル柔軟 – 実測信号ではその他の要因が多すぎる – 完全に人工的な音源と混合系を用いて実証するフルランク空間モデル MNMF ランク1空間モデル IVA NMFによる音源モデルの基底数拡張ランク1空間モデル＋DOAクラスタリング限定的音源モデル Rank1 MNMF FDICA +DOA 柔軟 10

11.

実験条件 • 実験に用いる信号 – ガンマ分布に従う変数の積とその線形結合に基づくパワースペクトログラムを2音源分生成 – いかなる基底数においてもが等カートシス（）となるように形状母数を設定（導出は省略！） • カートシスの違いによる音源分離性能の変化を除外するため – の一様分布に従う位相を付与・・・・・・人工的なパワースペクトログラム生成（基底数＝）生成 11

12.

実験条件 • 実験に用いる混合系推定された音源成分の頻度 – DOA上で2音源分のガウス分布を定義 – 各ガウス分布からステアリングベクトルを生成 – 先の人工音源に対して人工ステアリングベクトルを乗算人工混合行列生成生成人工観測信号到来方向（DOA） [rad] • その他の実験条件 FDICA: 自然勾配法, DOAクラスタリング: k-means法, 最適化アルゴリズム IVA: 補助関数法, Rank-1 MNMF: 補助関数法 200 回（FDICAの反復ステップサイズは実験的に調整済）反復回数 SDR改善量（総合分離性能）評価値 12

13.

音源の基底数の違いによる分離精度比較 • 音源の基底数を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF （基底数＝） IVA に固定 – FDICA+DOAはによらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF（基底数＝１）は音源の基底数の増加に伴って精度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF（基底数＝度劣化しない FDICA+DOA 音源の基底数音源1の結果グラフ）は精 • 適切で具体的な音源モデルが仮定されているため Rank-1 MNMFの持つ音源モデル（NMF分解）が最も柔軟 13

14.

音源の基底数の違いによる分離精度比較 • 音源の基底数を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF （基底数＝） IVA に固定 – FDICA+DOAはによらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF（基底数＝１）は音源の基底数の増加に伴って精度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF（基底数＝度劣化しない FDICA+DOA 音源の基底数音源1の結果グラフ）は精 • 適切で具体的な音源モデルが仮定されているため Rank-1 MNMFの持つ音源モデル（NMF分解）が最も柔軟 14

15.

音源の基底数の違いによる分離精度比較 • 音源の基底数を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF （基底数＝） IVA に固定 – FDICA+DOAはによらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF（基底数＝１）は音源の基底数の増加に伴って精度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF（基底数＝度劣化しない FDICA+DOA 音源の基底数音源1の結果グラフ）は精 • 適切で具体的な音源モデルが仮定されているため Rank-1 MNMFの持つ音源モデル（NMF分解）が最も柔軟 15

16.

音源の基底数の違いによる分離精度比較 • 音源の基底数を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF （基底数＝） IVA に固定 – FDICA+DOAはによらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF（基底数＝１）は音源の基底数の増加に伴って精度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF（基底数＝度劣化しない FDICA+DOA 音源の基底数音源1の結果グラフ）は精 • 適切で具体的な音源モデルが仮定されているため Rank-1 MNMFの持つ音源モデル（NMF分解）が最も柔軟 16

17.

音源の混合系の違いによる分離精度比較 • 音源の混合系を変化させた場合の分離精度比較 – 音源の基底数は，分散は Rank-1 MNMF（基底数＝1） – に固定 FDICA+DOAは2音源が接近すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMF（基底数＝１）は音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源間角度（）[rad] 音源1の結果グラフ IVAとRank-1 MNMFの無制約な空間モデルが柔軟 17

18.

音源の混合系の違いによる分離精度比較 • 音源の混合系を変化させた場合の分離精度比較 – 音源の基底数は，分散は Rank-1 MNMF（基底数＝1） – に固定 FDICA+DOAは2音源が接近すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMF（基底数＝１）は音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源間角度（）[rad] 音源1の結果グラフ IVAとRank-1 MNMFの無制約な空間モデルが柔軟 18

19.

音源の混合系の違いによる分離精度比較 • 音源の混合系を変化させた場合の分離精度比較 – 音源の基底数は，分散は Rank-1 MNMF（基底数＝1） – に固定 FDICA+DOAは2音源が接近すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMF（基底数＝１）は音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源間角度（）[rad] 音源1の結果グラフ IVAとRank-1 MNMFの無制約な空間モデルが柔軟 19

20.

音源の混合系の違いによる分離精度比較 • 音源の混合系を変化させた場合の分離精度比較 – 音源の基底数は，平均は Rank-1 MNMF（基底数＝1） – に固定 FDICA+DOAは2音源のDOA幅が増加すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMFは音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源の分散（）音源1の結果グラフ IVAとRank-1 MNMFの無制約な空間モデルが柔軟 20

21.

音源の混合系の違いによる分離精度比較 • 音源の混合系を変化させた場合の分離精度比較 – 音源の基底数は，平均は Rank-1 MNMF（基底数＝1） – に固定 FDICA+DOAは2音源のDOA幅が増加すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMFは音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源の分散（）音源1の結果グラフ IVAとRank-1 MNMFの無制約な空間モデルが柔軟 21

22.

音源の混合系の違いによる分離精度比較 • 音源の混合系を変化させた場合の分離精度比較 – 音源の基底数は，平均は Rank-1 MNMF（基底数＝1） – に固定 FDICA+DOAは2音源のDOA幅が増加すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMFは音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源の分散（）音源1の結果グラフ IVAとRank-1 MNMFの無制約な空間モデルが柔軟 22

23.

各手法の計算量の比較 • SiSECデータベース収録のプロ音楽信号ファイル名: bearlin-roads__snip_85_99，14 s（16 kHzサンプル）音源: acoustic_guit_main, bass, vocalsの3音源実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz) 更新回数: 200回（単位は全てs） IVA MNMF Rank-1 MNMF (音源毎に基底数を固定) Rank-1 MNMF (音源毎に基底数を可変) 91.6 4498.4 121.0 173.4 200回更新時（MNMF以外は十分収束） SDR improvement [dB] – – – – 12 10 8 6 4 2 0 -2 IVA MNMF Rank-1 MNMF （基底数固定） Rank-1 MNMF （基底数可変） 0 100 200 Iteration steps 300 400 23

24.

結論とまとめ • Rank-1 MNMF [D. Kitamura et al., ICASSP 2015] 柔軟 IVAの音源モデルを任意の基底数に拡張空間モデルへの制限は「ランク1」のみモデル複雑化に伴う最適化の不安定さもさほど問題にならないランク1空間近似を用いる優決定条件BSSとして優秀な手法具体的空間モデル – – – – ランク1空間モデル IVA NMFによる音源モデルの基底数拡張ランク1空間モデル＋DOAクラスタリング具体的音源モデル Rank1 MNMF FDICA +DOA 柔軟 24

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

Daichi Kitamura

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

各ページのテキスト