ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

352 Views

September 18, 15

スライド概要

Presented at 2015 Autumn Meeting of Acoustical Society of Japan (domestic conference)
北村大地, 猿渡洋, 小野順貴, 澤田宏, 亀岡弘和, "ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察," 日本音響学会 2015年秋季研究発表会, 3-6-10, pp.583-586, Fukushima, September 2015.
Daichi Kitamura, Hiroshi Saruwatari, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, "Study on source and spatial models for BSS with rank-1 spatial approximation," Proceedings of 2015 Autumn Meeting of Acoustical Society of Japan, 3-6-10, pp.583-586, Fukushima, September 2015 (in Japanese).

profile-image

http://d-kitamura.net/links_en.html

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

ランク1空間近似を用いた BSS における 音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation 総合研究大学院大学 博士課程2年 東京大学 国立情報学研究所/総合研究大学院大学 NTT 東京大学/NTT ○北村大地 猿渡洋 小野順貴 澤田宏 亀岡弘和

2.

研究の背景 • ブラインド音源分離(blind source separation: BSS) – 観測信号のみ(混合系は未知)から音源信号を推定する技術 音源信号 観測信号 混合系 – 優決定条件(音源数 分離信号 分離系 録音マイク数)におけるBSS • 独立成分分析(ICA) [Comon, 1994] 等 – 劣決定条件(音源数 録音マイク数)におけるBSS • 時間周波数マスク [Araki, 2007],非負値行列因子分解(NMF)[Lee, 1999] 等 • BSSの応用 – 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理 etc. 2

3.

本発表の目的 • ランク1空間近似を用いたBSS(全て優決定条件下) – 周波数領域ICA(FDICA) [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc. • スペクトログラム領域で周波数毎に独立なICAを適用 • パーミュテーション問題を解く – 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006] • FDICAに対して球対称かつ多変量な事前分布を導入 • パーミュテーション問題を回避しつつ音源を分離 – ランク1多チャネルNMF(Rank-1 MNMF) [Kitamura, 2015] • 多チャネルNMF [Sawada, 2013] の空間相関行列にランク1制約を課す • 効率的かつ安定に最適化できる音源分離手法 • 上記3手法の音源モデル及び空間モデルについて考察 – 音源のスペクトル構造や混合系の制約等 • Rank-1 MNMFが最も柔軟なBSSで あることを実験的に示す 3

4.

ランク1空間近似とは? • 音源毎の空間相関行列のランクが1(という近似モデル) – 時間周波数領域において1つの音源の伝達系が1本の時不変 なステアリングベクトルで表現可能 : 周波数インデクス : 時間インデクス 音源 マイク アレイ 観測 信号 ステアリング ベクトル ステアリング ベクトル – 時間周波数領域における時不変複素瞬時混合モデル 時不変混合行列 – ランク1空間近似の物理的な意味 • 音源の伝達系が時不変 • インパルス応答が短時間フーリエ変換(STFT)の窓長より十分短い 4

5.

FDICAとパーミュテーション解決 • 周波数領域ICA(FDICA) [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc. – スペクトログラムの周波数ビン毎に独立なICAを適用 – 音源及び空間モデルはパーミュテーション解決法に依存 分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数 領域の信号 (スペクトログラム) 5

6.

FDICA+DOAの音源モデルと空間モデル • FDICA+DOAクラスタリング [Saruwatari, 2000] DOA クラスタリング 左 正面 到来方向(DOA) 右 推定された 音源成分の頻度 推定された 音源成分の頻度 – 推定分離フィルタからステアリングベクトルを逆算し音源の到来 方向(DOA)でクラスタリングすることでパーミュテーションを解く Source 1 Source 2 左 正面 右 到来方向(DOA) – 音源モデル • 具体的なモデルスペクトログラムは無し(ICAの非ガウス性制約のみ) – 空間モデル • ランク1空間近似 • 混合系はDOAクラスタリングで解決できるという仮定(制約) 音源の空間的な配置条件と残響レベルが分離性能に影響 6

7.

IVAの音源モデルと空間モデル • 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006] 音源信号 混合行列 観測信号 分離行列 … … … … … – 音源モデル 分離信号 球対称 • 周波数間の一定分散多次元ラプラス分 布(球対称ラプラス分布) – 空間モデル • 特に制約無し(ランク1空間近似のみ) 7

8.

Rank-1 MNMFの音源モデルと空間モデル • ランク1空間近似付き多チャネルNMF [Kitamura, 2015] 多チャネル観測信号 空間モデル 音源モデル 全空間相関行列がランク1という制約を導入 – 音源モデル • 任意基底数のNMFによる低ランク近似 分解(分散が時間周波数で変動する) 分散が 変動 – 空間モデル • 特に制約無し(ランク1空間近似のみ) 8

9.

IVAとRank-1 MNMFの音源モデルの違い • IVAの音源モデル • 一定分散の多次元ラプラス分布 • 周波数ビン毎にスケールが任意なので 一様(フラット)なスペクトルとは限らない Frequency – 周波数方向に一様な分散を持つ 濃淡は分散値 – 1本の基底のNMFに近い Time 本来の音源のスペクトログラムが持つ基底数が分離性能に影響 – 任意基底数のNMF • より具体的な調波構造等を捉えられる – 音源毎に基底数を変えることも可能 • 潜在変数付きNMFモデルとして提案済 濃淡は分散値 Frequency • Rank-1 MNMFの音源モデル Time 9

10.

実験的な実証方法 • 音源スペクトログラムの基底数の違い • 音源の混合系の違い 分離精度に 与える影響 限定的 空間モデル 柔軟 – 実測信号ではその他の要因が多すぎる – 完全に人工的な音源と混合系を用いて実証する フルランク空間モデル MNMF ランク1空間モデル IVA NMFによる音源 モデルの基底数拡張 ランク1空間モデル +DOAクラスタリング 限定的 音源モデル Rank1 MNMF FDICA +DOA 柔軟 10

11.

実験条件 • 実験に用いる信号 – ガンマ分布に従う変数の積とその線形結合に基づくパワースペ クトログラムを2音源分生成 – いかなる基底数 においても が等カートシス( )と なるように形状母数 を設定(導出は省略!) • カートシスの違いによる音源分離性能の変化を除外するため – の一様分布に従う位相を付与 ・・・ ・・・ 人工的なパワー スペクトログラム 生成 (基底数= ) 生成 11

12.

実験条件 • 実験に用いる混合系 推定された 音源成分の頻度 – DOA上で2音源分のガウス分布を定義 – 各ガウス分布からステアリングベクトルを生成 – 先の人工音源に対して人工ステアリングベクトルを乗算 人工混合行列 生成 生成 人工観測信号 到来方向(DOA) [rad] • その他の実験条件 FDICA: 自然勾配法, DOAクラスタリング: k-means法, 最適化アルゴリズム IVA: 補助関数法, Rank-1 MNMF: 補助関数法 200 回 (FDICAの反復ステップサイズは実験的に調整済) 反復回数 SDR改善量(総合分離性能) 評価値 12

13.

音源の基底数の違いによる分離精度比較 • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF (基底数= ) IVA に固定 – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= 度劣化しない FDICA+DOA 音源の基底数 音源1の結果グラフ )は精 • 適切で具体的な音源モデルが仮定され ているため Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 13

14.

音源の基底数の違いによる分離精度比較 • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF (基底数= ) IVA に固定 – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= 度劣化しない FDICA+DOA 音源の基底数 音源1の結果グラフ )は精 • 適切で具体的な音源モデルが仮定され ているため Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 14

15.

音源の基底数の違いによる分離精度比較 • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF (基底数= ) IVA に固定 – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= 度劣化しない FDICA+DOA 音源の基底数 音源1の結果グラフ )は精 • 適切で具体的な音源モデルが仮定され ているため Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 15

16.

音源の基底数の違いによる分離精度比較 • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は Rank-1 MNMF (基底数= ) IVA に固定 – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= 度劣化しない FDICA+DOA 音源の基底数 音源1の結果グラフ )は精 • 適切で具体的な音源モデルが仮定され ているため Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 16

17.

音源の混合系の違いによる分離精度比較 • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,分散は Rank-1 MNMF(基底数=1) – に固定 FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源間角度( )[rad] 音源1の結果グラフ IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 17

18.

音源の混合系の違いによる分離精度比較 • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,分散は Rank-1 MNMF(基底数=1) – に固定 FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源間角度( )[rad] 音源1の結果グラフ IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 18

19.

音源の混合系の違いによる分離精度比較 • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,分散は Rank-1 MNMF(基底数=1) – に固定 FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源間角度( )[rad] 音源1の結果グラフ IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 19

20.

音源の混合系の違いによる分離精度比較 • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,平均は Rank-1 MNMF(基底数=1) – に固定 FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源の分散( ) 音源1の結果グラフ IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 20

21.

音源の混合系の違いによる分離精度比較 • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,平均は Rank-1 MNMF(基底数=1) – に固定 FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源の分散( ) 音源1の結果グラフ IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 21

22.

音源の混合系の違いによる分離精度比較 • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,平均は Rank-1 MNMF(基底数=1) – に固定 FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する IVA – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため FDICA+DOA 音源の分散( ) 音源1の結果グラフ IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 22

23.

各手法の計算量の比較 • SiSECデータベース収録のプロ音楽信号 ファイル名: bearlin-roads__snip_85_99,14 s(16 kHzサンプル) 音源: acoustic_guit_main, bass, vocalsの3音源 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz) 更新回数: 200回 (単位は全てs) IVA MNMF Rank-1 MNMF (音源毎に基底数を固定) Rank-1 MNMF (音源毎に基底数を可変) 91.6 4498.4 121.0 173.4 200回更新時(MNMF以外は十分収束) SDR improvement [dB] – – – – 12 10 8 6 4 2 0 -2 IVA MNMF Rank-1 MNMF (基底数固定) Rank-1 MNMF (基底数可変) 0 100 200 Iteration steps 300 400 23

24.

結論とまとめ • Rank-1 MNMF [D. Kitamura et al., ICASSP 2015] 柔軟 IVAの音源モデルを任意の基底数に拡張 空間モデルへの制限は「ランク1」のみ モデル複雑化に伴う最適化の不安定さもさほど問題にならない ランク1空間近似を用いる優決定条件BSSとして優秀な手法 具体的 空間モデル – – – – ランク1空間モデル IVA NMFによる音源 モデルの基底数拡張 ランク1空間モデル +DOAクラスタリング 具体的 音源モデル Rank1 MNMF FDICA +DOA 柔軟 24