Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

268 Views

March 18, 15

#nmf #source separation #direction of arrivals #music #Audio Signal Processing #Nonnegative Matrix Factorization #Optimal Divergence #Hybrid Method #SuperResolution

スライド概要

Presented at 2014 Spring Meeting of Acoustical Society of Japan (domestic comference)
Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, Kazunobu Kondo, Yu Takahashi, Hirokazu Kameoka, "Optimal divergence diversity for superresolution-based nonnegative matrix factorization," Proceedings of 2014 Spring Meeting of Acoustical Society of Japan, 3-2-9, pp.727-730, Tokyo, March 2014.

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 198K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 65.1K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 47.1K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 45.7K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 16.4K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 14.4K

各ページのテキスト

2014 ASJ Spring meeting 第二会場電気音響アレー信号処理 3-2-9 Optimal divergence diversity for superresolutionbased nonnegative matrix factorization 超解像型教師あり非負値行列因子分解における最適なダイバージェンスのダイバーシチ北村大地, 猿渡洋, 中村哲, (奈良先端科学技術大学院大学) 高橋祐, 近藤多伸 (ヤマハ株式会社) 亀岡弘和 (東京大学/NTT)

研究背景 • 音楽信号分離技術の研究が盛ん応用例 • 自動採譜技術の前段処理 • 音ARシステムへの応用等信号分離 • 非負値行列因子分解(NMF)を用いた手法が高い注目を集めいている • 教師ありNMF(SNMF)は高精度な信号分離が可能だが，非目的音源が増加すると精度が劣化ステレオ信号を対象とした新しいハイブリッド信号分離手法が提案されている 2

研究背景 • ハイブリッド手法入力ステレオ信号 L R 音源の空間情報による分離 (方位クラスタリング) 教師あり手法による分離 (超解像型SNMF) 分離目的信号 3

研究背景 • 後段の超解像型SNMFにおける最適な距離規範(ダイバージェンス)は入力信号中の音源の空間配置に依存 – 音源の空間情報の違い • 本発表の目的いかなる空間配置においても最適なダイバージェンスを用いて高精度で目的音源を分離できる一般化ハイブリッド手法を提案する 4

NMF [Lee, 2001] • NMF – スパース分解表現手法 – スペクトログラム中の有意な特徴量を抽出可能 Frequency Time Amplitude Time 基底アクティベーション行列 (各基底の時間変化) Amplitude 基底行列 (頻出スペクトル) Frequency 観測行列 (スペクトログラム) Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 分解基底数 5

NMFの変数最適化 • 分解行列(変数) は観測データと分解表現データの距離(ダイバージェンス)の最小化で求めるコスト関数: : 行列の要素 • 特にユークリッド距離とKLダイバージェンスが用いられる • 振幅ドメインでのSNMFでは，KLダイバージェンスのコスト関数が高精度に分離できる [FitzGerald, 2012], [Kitamura, 2013] – 音楽信号のスペクトログラムの持つスパース性に起因 6

SNMF [Smaragdis, 2007] • 分離目的音源の教師情報を用いる – 教師スペクトル基底を作成(目的音のスペクトルの辞書) – 観測スペクトログラムを目的成分とそれ以外の成分に分離学習ステージ目的音の音階情報目的音源のサンプル音教師基底行列 (目的音源のスペクトル辞書) 最適化分離ステージ混合信号目的音源成分固定その他の音源成分 7

SNMFの問題 • 目的音源以外の干渉成分が増加すると分離精度が劣化 2音源の場合 SNMF 5音源の場合 SNMF 残留成分 8

方位クラスタリング [Araki, 2007], [Miyabe, 2009] • チャネル間の振幅差を用いてクラスタリング • スペクトログラムドメインでのバイナリマスキング要素毎の積入力ステレオ信号 Right C C C C C C L C R C C L C R C R L C L C Time L R L R R L C バイナリマスク R R R L C Frequency 混合信号 Frequency Left Center 分離信号 1 1 1 1 1 1 0 1 0 1 1 0 1 0 1 0 0 1 0 1 0 0 0 0 1 Center 0 0 0 0 1 Time 方位クラスタリング L R • 問題点 – 同一方位の複数音源の分離は不可能 – バイナリマスキングによる人工歪みの発生 9

10.

ハイブリッド手法 [Kitamura, 2013] • 方位クラスタリングの後に超解像型SNMFを適用するハイブリッド手法が提案されたハイブリッド手法空間分離 L スペクトル分離 R 方位クラスタリング超解像型SNMF 10

11.

超解像型SNMF • 方位クラスタリングによって生じる人工歪み(スペクトログラム上での穴)を教師基底から外挿して復元 Time 方位クラスタリング分離目的クラスタ復元目的信号 Frequency 非目的方位成分目的方位成分 Frequency Frequency 入力スペクトログラム : 欠落 Time Time 超解像型SNMF 11

12.

超解像型SNMF • 方位クラスタリングによって生じる歪み欠落 Frequency 分離されたクラスタ : 欠落 Time 教師スペクトル基底欠落成分をコスト関数から除外フィットする基底を外挿 … 12

13.

超解像型SNMFに最適なダイバージェンス • 従来のSNMFではKLダイバージェンスが高精度 KL-divergence EUC-distance 一方 • 超解像型SNMFの最適ダイバージェンスはスペクトログラムの欠落数に依存 KL-divergence ? EUC-distance – 方位クラスタリングの結果(音源の空間配置)に依存 13

14.

超解像型SNMFに最適なダイバージェンス • 超解像型SNMFは2つのタスクがある目的音源分離超解像型SNMF 基底外挿 (超解像) • 分離能力と外挿能力はトレードオフになる [Kitamura, 2013] 一般化距離関数(b -divergence) 性能ハイブリッド手法の総合性能分離能力 0 IS 1 外挿能力 2 KL EUC 3 4 14

15.

多重ダイバージェンスに基づくSNMF • スペクトルの欠落と最適なダイバージェンス – 多いフレームはユークリッド距離 (外挿重視) – 少ないフレームはKLダイバージェンス (分離重視) バイナリマスク Frequency 観測スペクトログラム欠落が少ないフレーム KLダイバージェンスで測る欠落が多いフレームユークリッド距離で測る Time 番目のフレームにおける穴の密度と閾値で距離規範を決定 15

16.

Frequency 提案手法: フロー図 Time Calculation of rate ofCalculation chasms of rate ofCalculation chasms of rate (EUC) Yesof chasmsNo (EUC) Yes No (EUC) Yes No (KL)Calculation (KL) of chasms (KL) (EUC) Yes EUC-distanceKL-divergenceEUC-distanceKL-divergencebased cost function based cost function EUC-distanceKL-divergencebased cost function based cost function based cost function basedEUC-distancecost function based cost function of rate No (KL) KL-divergencebased cost function Superresolution-based SNMF 16

17.

提案手法: コスト関数 • 多重ダイバージェンスに基づく超解像型SNMFのコスト関数 : 各フレームにおける穴の密度 17

18.

提案手法: 更新式 • 多重ダイバージェンスに基づく超解像型SNMFの更新式 – アクティベーション行列の更新式はフレーム毎に独立している為，直接場合分けされる 18

19.

提案手法: 更新式 • 多重ダイバージェンスに基づく超解像型SNMFの更新式 – その他の基底の更新式はフレームに関する総和の中に場合分けが起きる 19

20.

実験条件 • 4つのメロディからなるステレオの混合音源を作成 • 中央に2つ，左右 °に1つずつ音源を配置 • 3種の楽器編成のMIDI信号を用意，計36パターンの平均評価値 Left Dataset No. 1 No. 2 No. 3 Melody 1 Oboe Trumpet Horn Melody 2 Midrange Bass Flute Piano Trombone Violin Harpsichord Fagotto Clarinet Piano Cello Center ２４１目的音源 Right ３教師用音源信号目的音源の音域をカバーする2オクターブの24音階 20

21.

実験条件 • 音源の空間配置の異なる4種類の入力データを作成 • SP1は欠落が少なく，SP4は欠落が多い • 閾値 t = 0.2 Spatial condition SP1 SP2 SP3 SP4 Left Measure 1 2 3 Center 4 ２４１目的音源 Right ３ 21

22.

実験結果 Good 14 SDR [dB] 12 Bad Hybrid method (KL-divergence) Hybrid method (EUC-distance) Hybrid method based on multi-divergence 10 SNMF (KL) 8 SNMF (EUC) 6 4 2 0 SP1 SP2 SP3 SP4 Spatial patterns 少ない穴の数多い 22

23.

まとめ • いかなる音源の空間配置にも対応した多重ダイバージェンスに基づく超解像型SNMFを提案 • ダイバージェンスはスペクトログラムの各フレームの欠落密度によって閾値処理され，決定される – ダイバージェンスのダイバーシチ • 音源の空間配置を変化させた信号を用いて，提案手法の有効性を確認 23