半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法

2.7K Views

September 25, 16

スライド概要

北村大地, 小野順貴, 猿渡洋, 高橋祐, 近藤多伸, "半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法," IEICE Technical Report, EA2015-130, vol. 115, no. 521, pp. 355-360, Oita, March 2016.
Daichi Kitamura, Nobutaka Ono, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo, "Effective basis learning for sound source separation by semi-supervised nonnegative matrix factorization," IEICE Technical Report, EA2015-130, vol. 115, no. 521, pp. 355-360, Oita, March 2016.

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.41MB)

ダウンロード(pptx - 1.32MB)

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 91.8K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 42.4K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 37.2K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 28.1K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 10.3K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 9.7K

各ページのテキスト

応用音響（EA）研究会 7月8日(金) 午前（10：10～11：50） ※本講演は2016年3月研究会の未発表分であり，資料はEA2015-130に掲載されています半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 Effective Basis Learning for Sound Source Separation by Semi-Supervised Nonnegative Matrix Factorization 総合研究大学院大学国立情報学研究所/総合研究大学院大学東京大学ヤマハ株式会社ヤマハ株式会社北村大地小野順貴猿渡洋高橋祐近藤多伸

発表内容 • 研究背景 – 音源分離技術と非負値行列因子分解（NMF） • 従来手法 – 全教師ありNMFと半教師ありNMF – 音源成分のスプリット問題 – 罰則条件付き半教師ありNMFと識別的全教師ありNMF • 提案手法 – 再現用基底と分離用基底 – 識別用基底の学習アルゴリズム • 実験 – 識別用基底学習の基礎実験 – 音楽信号を用いた音源分離実験 • まとめ 2

音源分離技術とは？ • 音源分離技術 – 複数の音源が混ざった信号を個々の音源に分離する信号処理 – 音声と雑音の分離，個々の音源の編集，音拡張現実感等特定音源の分離・抽出 • 音源分離の基本的な処理 – 時間-周波数表現されたスペクトログラム上で音源ごとに分解 Frequency 分離最初の音 Time 2つの音が存在 2番目の音 4

非負値行列因子分解 [Lee, 1999] • 非負値行列因子分解 (nonnegative matrix factorization: NMF) Amplitude Frequency Frequency – 非負制約条件付き次元圧縮，有用な特徴量抽出法 – 非負制約によって暗にスパースな解が得られる傾向 Amplitude Time 観測行列 (スペクトログラム) Time 基底ベクトルアクティベーション行列 (時間的なゲイン変化) 基底行列 (頻出スペクトルパターン) Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底ベクトル数 5

全教師ありNMF (full-supervised NMF) [Smaragdis, 2007] • 全ての音源のスペクトル基底（音色の辞書）を事前学習 – 分離ステージでは各音源のアクティベーションのみを最適化 – 教師音は音源毎に必要学習ステージ，ピアノの基底サックスの基底最適化分離ステージ観測（混合）音固定目的音1 固定目的音2 7

半教師ありNMF (semi-supervised NMF) [Smaragdis, 2007] • 分離したい音源のみの教師基底を事前学習 – 分離ステージでは非目的音用の基底と各成分のアクティベーションを同時に最適化学習ステージ教師音から作成した目的音基底分離目的音の教師音最適化分離ステージ観測（混合）音固定目的音非目的音 8

教師ありNMFにおける音源分離の根本的な問題 • 教師ありNMFの分離ステージのコスト関数は「混合音をどれだけよく表現できるか」であり「各音源をどれだけよく分離できるか」とはなっていない Basis index 非目的音基底には何の制約もないため，目的音成分の一部を含んでしまうことがある Frequency Frequency • 非目的音基底に目的音成分が混入する例 Basis index 赤色が目的音の成分 9

10.

半教師ありNMFにおける効果的な基底学習 • Penalized semi-supervised NMF [Kitamura, et al., 2013] – 半教師ありNMFにおいて，非目的音用の基底が教師基底と出来るだけ無相関となる罰則条件を追加 – 分離精度を大きく向上（目的信号成分のスプリットを防ぐ）事前学習した目的音基底（固定）最適化変数コスト関数: 直交化罰則項依然として，教師基底がその他の音源成分（非目的音）を表現する問題は解決されていない 10

11.

本研究のモチベーション • 分離ステージには「音源をできるだけ分離する」というコストがない「混合信号の表現度合」しか考慮されない • 学習ステージの段階で，できるだけ他の音源の成分を表さない教師基底を得ることが望ましい「目的音源をよく表現する基底」しか学習できない「目的音源は表現するが他の音源は表現しない」ような識別的な基底の学習が必要（半教師ありNMFにも全教師ありNMFにも必要） 11

12.

従来手法：識別的な目的音基底の学習 • 全教師ありNMFにおいては識別的基底の学習が既に提案されている [Sprechmann, et al., 2014], [Weninger, et al., 2014] s.t. – 学習ステージで仮の混合信号を作成しそれを分離するアクティベーションを用いて基底を学習する – 最適化の制約条件の中に最適化（bilevel optimization） – 各音源の基底は「目的音の正確な表現」と「他音源との識別性能の最大化」の二つの目的を満たすように学習される – 従来手法は，上記の二段階最適化を提案しながらも解けないので，交互最適化での近似や簡略化した目的関数を解く 12

13.

14.

本研究のアプローチ • アプローチ – 「目的音成分の正確な表現」と「他音源との識別性能を最大化」の二つの目的を別の基底でそれぞれ実現 – 一つの目的音源に対して再現用基底と識別用基底の二種類の教師基底を学習ステージで用意する – 分離ステージでは識別用基底を用いて分離 – 推定されたアクティベーションと再現用基底で分離音を再構成 14

15.

再現用基底と識別用基底の違い • 提案手法のアイデア（赤は目的音，青は非目的音を表す） Frequency としてを推定すると Amp. 目的音と非目的音間で重複する成分が識別性能劣化の原因 Time Time Time Time Frequency として分離すると Frequency Frequency Amp. 分離信号 Amp. Time Amp. Amp. Amp. Frequency Frequency 混合信号 Amp. Frequency 混合信号 15

16.

再現用基底と識別用基底の違い • 提案手法のアイデア（赤は目的音，青は非目的音を表す） Frequency としてを推定すると重複成分を他の基底に任せて目的音源固有の周波数成分だけ持てば識別的（アクティベーションは変わらない） Time Frequency Time Amp. Time Time Amp. Amp. Amp. Amp. Amp. Amp. Amp. として分離すると Frequency 分離信号 Frequency Frequency Frequency Amp. Frequency Frequency 混合信号 Time Time 16

17.

提案法の利点と半教師ありNMFへの応用 • 提案法の利点 – 「目的音の正確な表現」と「他音源との識別性能の最大化」の両立を一つの教師基底で試みている – 変数が複雑に絡む二段階最適困難 – 実用的なことを考えると，目的音の教師信号だけを用いる「半教師ありNMF」の方が望ましい • 半教師ありNMFへの適用 – 目的音の教師信号補信号）を用意に対して混合しうる信号（非目的音の候 • 両者の混合で目的音のスペクトルのどの帯域が他音源と重なりやすいかを学習し識別用目的音基底を作成 • 混合候補信号は観測信号内の（真の）非目的音と同種の音源でなくても良い • 「同じ調の楽曲の別の楽器音による旋律や和音」等が好適 17

18.

アルゴリズム • 学習ステージ再現用基底固定識別用基底 • 分離ステージ識別用教師基底を固定 18

19.

20.

識別用基底学習の基礎実験 • MIDI音源（Garritan Personal Orchestra 4）で生成した Pf.音（C5）とFl.音（C6）の2音を時間差付きで混合 • Pf.音（C5）をとして再現用基底を学習 – 基底数は1本のみ学習された再現用教師基底（Pf.） Power [dB] 20 0 -20 -40 -60 -80 -100 0 1 2 3 Frequency [kHz] 4 5 20

21.

分離用基底学習の基礎実験 • Pf.音（C5）を，Fl.音（C6）を底を学習（反復50回） – 基底として識別用教師基の基底数は2本学習された識別用目的音基底（Pf.）スペクトルがぶつかる成分にノッチが生じており，識別的な学習が進んだことが確認できる Power [dB] 20 0 -20 -40 -60 -80 -100 0 その他の基底 1 2 3 Frequency [kHz] 4 5 1 2 3 Frequency [kHz] 4 5 （Fl.） Power [dB] 20 0 -20 -40 -60 -80 -100 0 21

22.

SiSEC201１の楽曲の実験: 条件 • データセット（SiSEC201１，プロ音楽信号） – 下記の4種類の楽曲で2楽器の音源を混合楽曲No. 楽曲名混合音源（1/2）１ bearlin-roads Gt. / Dr. 2 tamy-que pena tanto faz Gt. / Vo. 3 another dreamer-the ones we love Dr. / Gt. 4 ultimate nz tour Gt. / Synth. • 4-fold cross-validationを行う（がテスト区間の例）音源1 音源2 22

23.

MUS100の楽曲の実験: 条件 • その他の実験条件 – 短時間フーリエ変換（STFT）の設定 • 92 msのハミング窓，シフト量46 ms – NMFは振幅スペクトログラムの一般化KLD基準 – 再現用基底学習ステップと分離ステージの反復回数は1000回 – 識別用基底学習ステップは0～100回でそれぞれの性能を確認学習ステージ再現用基底学習ステップ識別用基底学習ステップ分離ステージ – NMFの基底数は全て35本 23

24.

SiSEC201１の楽曲の実験: 結果 SDR improvement [dB] • 楽曲1の結果 20 18 16 14 12 10 8 6 4 2 0 音源1（Gt.）音源2（Dr.） 0回目が従来手法（通常の半教師ありNMF） 0回目が従来手法（通常の半教師ありNMF） 0 10 20 30 40 50 60 70 80 90 100 分離用基底学習ステップの反復回数 [回] 24

25.

SiSEC201１の楽曲の実験: 結果 SDR improvement [dB] • 楽曲2の結果音源1（Gt.） 12 音源2（Vo.） 10 8 6 4 2 0 0 10 20 30 40 50 60 70 80 90 100 分離用基底学習ステップの反復回数 [回] 25

26.

SiSEC201１の楽曲の実験: 結果 SDR improvement [dB] • 楽曲3の結果 14 12 10 8 6 4 2 0 音源1（Dr.） 0 音源2（Gt.） 10 20 30 40 50 60 70 80 90 100 分離用基底学習ステップの反復回数 [回] 26

27.

SiSEC201１の楽曲の実験: 結果 SDR improvement [dB] • 楽曲4の結果音源1（Gt.） 12 音源2（Synth.） 10 8 6 4 2 0 0 10 20 30 40 50 60 70 80 90 100 分離用基底学習ステップの反復回数 [回] 27

28.

まとめ • 目的: 半教師ありNMFにおける分離精度向上 – 識別的な教師基底の学習法 – （但し，提案法は全教師ありにも応用可） • 一つの音源に対して再現用基底と識別用基底の2種の基底を学習 – 再現用基底: 全スペクトル成分を保持 – 識別用基底: 対象となる音源固有の成分のみを保持 • いくつかの実験例において分離精度の向上を確認 – 「目的音源を正確に表現する基底が最高の分離性能を与えるとは限らない」という事実を実証 • 現状の問題: アルゴリズムの収束時が最高性能でない – Stopping criteriaの検討 or 別の識別用基底学習アルゴリズムの検討 28