非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法

1.1K Views

September 28, 17

#nmf #source separation #music #bss #ica #ilrma #音源分離 #最適化手法 #音の時間周波数表現 #非負値行列因子分解 #ブラインド音源分離

スライド概要

Effective Optimization Algorithms for Blind and Supervised Music Source Separation with Nonnegative Matrix Factorization
長倉研究奨励賞第三次審査，20分間の研究概要説明
内容は自身の学位論文の一部に相当

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.78MB)

ダウンロード(pptx - 5.16MB)

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 106.2K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 44.9K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 37.6K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 30K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 11.2K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 10K

各ページのテキスト

2017年9月27日（水）16時10分第22回長倉研究奨励賞第3次審査非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 Effective Optimization Algorithms for Blind and Supervised Music Source Separation with Nonnegative Matrix Factorization 総合研究大学院大学複合科学研究科情報学専攻修了東京大学大学院情報理工学系研究科システム情報学専攻特任助教北村大地

発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似：非負値行列因子分解（NMF） • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 2

音源分離の工学的・社会的な重要性 • 音源分離（audio source separation） – 音響信号を対象とした信号処理技術の一つ • 信号処理：観測信号から有益な意味や情報を引き出し活用する技術観測信号ただの雑音… 雑音の中に人の声がある！ • 知能情報学・機械学習の一大トピック – 人の声，雑音，歌声，楽器音，機械音等の音源を「分離」 – 人間の持つカクテルパーティ効果を機械で実現：機械の耳 • カクテルパーティ効果：うるさい場所でも特定の人物の声に注意を向けて聞き取ることができる人間の能力 4

音源分離の応用の一例 • 補聴器デバイス – 雑音環境での聞きやすさを改善，健常者も対象 • 眼鏡と同じくらい補聴器は一般に普及するか • 音声認識 – 耐雑音性向上，会議等の複数話者同時認識 • 自動採譜 – 楽器毎の楽譜を音楽CDから直接作成分離音楽CD • ライブ音楽演奏の再編集 – 音楽演奏は一期一会，その場で音源が混合 – 音楽・芸術文化の興隆 – 芸術性を損なわない超高品音源分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか 5

音源分離の技術的俯瞰：観測条件 • 観測信号のマイク数（チャネル数）による条件の違い – 単一チャネル信号（モノラル信号）難 1ch • 音源分離には最も困難な録音条件 – 応用範囲は最も広いモノラル録音 • 音色に関する情報しか得られない – 劣決定条件（音源数モノラル信号（1-ch）マイク数） • 2チャネル（ステレオ）等，混合されている音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間的な情報が得られる L-ch R-ch 音楽CD ステレオ信号（2-ch） – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件（音源数マイク数） 1ch • 十分な数のマイクがある – 録音装置は大規模化，煩雑化 • 得られる空間的な情報の量も多い … … 易 2ch Mch マイクアレイ – 空間情報を使う音源分離は比較的高性能多チャネル信号 6

音源分離の技術的俯瞰：前提条件 • 事前に用意できる外部からのヒント（教師情報）の有無 – 何もヒントがない「ブラインド音源分離」難 • 複数の音源が既に混合された観測信号のみ利用可能 • 音源に関する何らかの「仮定や性質」を用いる必要あり – 推測される音声の特徴や楽器音の特徴等 – 使えるヒントがある「教師あり音源分離」 • 音源分離問題を解くヒントがあれば分離性能は向上 • 利用可能な教師は様々易 – 分離したい音源の音色サンプル（少量） » 音色をそのままパーツとして用いる – 分離したい音源の音色サンプル（大量） » 近年発展している深層学習（AI）を適用 – マイク位置や音源位置等，録音時の空間的な情報 – その他，楽譜，ユーザからの指示，カメラからの情報等 • 博士論文では「優決定条件ブラインド音源分離」と「単一チャネル教師あり音源分離」の二大トピックが対象 7

音響信号の時間周波数表現 • 時間的に変化する音色（スペクトル）を表現したい – 短時間フーリエ変換（Short-time Fourier transform: STFT）時間領域時間周波数領域 … フーリエ変換窓関数シフト長フーリエ変換長フーリエ変換フーリエ変換周波数時間波形 … 時間スペクトログラム複素数要素を持つ行列要素毎の絶対値と二乗パワースペクトログラム非負（ゼロ以上）の実数要素の行列 9

10.

音声のパワースペクトログラム 10

11.

音楽のパワースペクトログラム 11

12.

各音響信号の特徴的な「構造」 • 疎・スパース（音声も音楽も） – パワーの強い成分（黄色の部分）は全体のごく一部分 – パワーの弱い成分（暗い青色部分）が支配的 • 連続的な軌跡（音声やボーカルのみ） – 音色と音の高さは連続的にダイナミックに変動する • 縦スジと横スジ・低ランク（特に音楽） – 同じ音色，和音，メロディパターンの繰り返しが多い Speech Music 12

13.

低ランク構造のモデリング手法 • 非負値行列因子分解（NMF） [Lee+, 1999] – 音の時間周波数構造を少数の音色パーツで近似的に表現 • どのような音色の音が入っているかを推定可能 • 各音色パーツがどの時刻で生じるかも推定可能 Time アクティベーション行列（出現タイミング） Amplitude 基底行列（音色パーツ） Frequency Frequency 入力の音響信号（パワースペクトログラム） Time Amplitude : 周波数 : 時間数 : 音色パーツ数 – 例えば「ピアノのドの音」や「フルートのレの音」等が一つ一つパーツとして推定できる 13

14.

15.

優決定条件ブラインド音源分離の目的 • ブラインド音源分離の困難さ – 未知が多すぎる問題未知音源信号（潜在因子）未知混合系事前学習やモデル（仮定）が必要混合信号（観測情報）既知分離系分離信号（推定対象） – 録音環境は部屋の形状，マイク位置，音源位置，気温等に依存して変化してしまう • 例：マイク位置が1 cmずれただけで「録音環境」は変わる – 録音という行為はいつも一期一会，一度きりで再現不可能 – 「録音環境」の学習データを大量に集めることは通常不可能 • 事前学習を用いた解決法は取れない – 観測信号とモデルのみを用いるブラインド音源分離が重要 15

16.

歴史と独立低ランク行列分析 • ブラインド音源分離の歴史的発展 – 独立成分分析（ICA） [Common, 1994] • 脳科学，無線工学，メディア信号処理，金融工学等の分野で発展モデルの進化 – 音響メディア信号処理（音源分離）はICAの数理理論を常に牽引（最先端） • 音源モデルはスカラーの確率変数，非ガウスな確率分布モデル互いに独立音源信号（潜在因子）混合系混合信号（観測情報） – 独立ベクトル分析（IVA） [Kim+, 2006], [Hiroe, 2006] • 音源モデルをベクトル変数に拡張，非ガウスな多変量確率分布モデル – 独立低ランク行列分析（ILRMA） [Kitamura+, 2016] • 音源モデルを低ランク行列変数に拡張，信号の時間周波数構造モデル • 正確な音源信号のモデル高精度な分離を実現 16

17.

独立低ランク行列分析（ILRMA） • 音源分離に用いるモデル（仮定）頻出する音色パーツ周波数周波数時間周波数表現時間パーツパーツ – 混合されている複数の音源は互いに独立（ICAやIVAと同様） – 一つ一つの音源は低ランクな時間周波数構造を持つ各音色パーツの出現タイミング時間 NMFでブラインドに推定 • 独立低ランク行列分析（ILRMA） [Kitamura, 2016] 音源信号混合系混合信号分離系分離信号音源毎の構造モデル 17

18.

ブラインド音源分離の歴史と発展 • 二大音源分離（IVAとMNMF）が深く関連する事実を証明 1994 独立成分分析（ICA） 1998 周波数領域ICA（FDICA）年代 1999 2006 パーミュテーション問題解決法の検討独立ベクトル分析（IVA） 2011 補助関数IVA（AuxIVA） 2012 時変複素ガウスIVA 2016 NMFの様々な問題への適用生成モデル的解釈の発見各種拡張手法板倉斎藤擬距離NMF（ISNMF） 2009 2013 非負値行列因子分解（NMF）多チャネルNMF 独立低ランク行列分析（ILRMA） 18

19.

音源分離デモンストレーション：音楽信号の例 • 音楽信号 – 楽曲：「Ultimate NZ tour」，3音源の混合 – イコライザ（音色の変更）では不可能な処理提案法によるパートごとの音源分離 Vocal Keyboard Guitar Vocal 3つのパートが鳴っていることに注意して聞いてください Keyboard Guitar 19

20.

独立低ランク行列分析のこれまでの成果 • 学術的な成果 – 独立に提案された多チャネルNMF [Sawada+, 2013] とIVA [Kim+, 2007] が密接に関連している事実を世界で初めて示す – 音声と音楽の両方で高い分離精度 – IVAとほぼ同程度の演算時間（高効率） • 信号長は20秒 SDR improvement [dB] • 工学的な成果 Good 14 12 演算時間 5927秒（1.6時間） Music Speech 10 8 6 演算時間 16秒演算時間 13秒 4 2 Bad 0 IVA 多チャネルNMF • 社会に与えたインパクトと応用可能性 ILRMA IEEE Xploreによる計測， IEEE/ACM Trans. ASLP誌 – 掲載論文のダウンロード数で3度1位を獲得 – ACM Computing ReviewsのNotable Articles 2016に選ばれる – 災害現場でのヘビ型被害者捜索ロボットに応用 [Bando+, 2016] • 内閣府革新的研究開発推進プログラム（ImPACT），ロボット雑音除去 20

21.

災害現場でのヘビ型被害者捜索ロボット • 内閣府革新的研究開発推進プログラム（ImPACT） – 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando+, 2016] • 成果：プレスリリース，論文採録処理前の観測音（ロボットの駆動ノイズが大きい）提案法による音源分離強調された音声信号 21

22.

23.

開拓された新しいブラインド音源分離の形 • 潜在因子への構造モデルの導入による発展可能性 – 確率分布モデルでは困難だった詳細な「操作（induce）」が可能領域の指定 – ユーザとのインタラクション • ユーザが分離の途中で構造モデルに介入 • 例：映画撮影等のプロ用途の音声強調 – 実現可能な学習データの活用 • 音楽信号では「楽譜」は強力な事前情報時間区間の指定 • 楽譜の構造を直接モデルに反映可能 • 例：芸術性を損なわない超高品質な音楽編集 • その他の音源モデルの導入や最適モデルの自動獲得周波数スパースグループスパースモデル自動学習周波数周波数低ランク時間時間時間 23