方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定 Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization (in Japanese)

703 Views

March 19, 15

#nmf #direction of arrivals #music #音像深度 #方位クラスタリング #非負値行列因子分解 #DOAヒストグラム #音源分離

スライド概要

Presented at 2013 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Tomo Miyauchi, Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, "Automatic depth estimation of sound images using directional clustering and nonnegative matrix factorization," Proceedings of 2013 Autumn Meeting of Acoustical Society of Japan, 2-1-19, pp.673-676, Aichi, September 2013 (in Japanese, Student Presentation Award).
宮内智, 北村大地, 猿渡洋, 中村哲, "方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定," 日本音響学会 2013年秋季研究発表会, 2-1-19, pp.673-676, Aichi, September 2013 (学生優秀発表賞受賞).

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 198K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 65.1K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 47.1K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 45.7K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 16.4K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 14.4K

各ページのテキスト

方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定奈良先端科学技術大学院大学 ☆宮内智, 北村大地, 猿渡洋, 中村哲

発表内容 ⚫ 研究背景と関連研究 ⚫ 課題と研究目的 ⚫ 提案手法 - DOA ヒストグラム - アクティベーション同期型マルチチャネル NMF ⚫ 評価実験 ⚫ まとめと今後の課題 2

研究背景 3D TV 等の普及により “深度：奥行き感” のある映像が呈示可能一方音像に深度を与えることが可能な音響システムは確立していない映像問題1 音像 3D TV : 音像映像と音像の位置が一致せず知覚上の違和感が生じる映像問題2 音像 3D TV : 音像混合音全体が移動することによる違和感が生じる 3

関連研究問題1の関連研究問題2の関連研究 3D 立体映像と一致する音像呈示混合音に含まれる各音像の分離 Wave Field Synthesis (WFS) 方位クラスタリングに基づく音源分離 [A. J. Berkhout, et al., 1993] [S. Araki, et al., 2007] 複数のラウドスピーカアレイを用い音像を呈示することが可能な技術ステレオ信号の左右チャネル信号から方位を取得し音源分離 … … … 受聴者 4

方位クラスタリングに基づく方位分解 L-ch input signal L-ch input signal L-ch input signal 各クラスタ毎の分離信号混合信号 R-ch input signal R-ch input signal R-ch input signal Normalization ：Source component Clustering ：Spatial representative vector 5

課題と研究目的課題既存コンテンツは定位情報が失われておりそのままでは WFS に適用することができない． Up-mixer 一次音源の方位に関しては推定可能逆 VBAP による一次音源の方位推定 [Hirata, et al., 2012] 本研究の目的一次音源の深度に関する推定どの様に音像の深度情報を取得するか? 提案手法 DOA (direction of arrival) を用いたマルチチャネル音源中の音像深度推定 6

提案手法： DOA に基づく音像深度推定 DOA → direction of arrival：音の到来方向 DOA の分布を利用し音像深度の推定重み付けDOA ヒストグラム方位クラスタリングに基づく音源分離方位重み付け項振幅値 Center Right Frequency Left Direction of arrival 7

提案手法： DOA に基づく音像深度推定 Far Frequency of source component Near Frequency of source component 音源深度によるDOA ヒストグラム形状の違い音源が近い裾野は狭く頻度値は大ヒストグラムの分散値が小 Direction of arrival 音源が遠い裾野は広く頻度値は小ヒストグラムの分散値が大 Direction of arrival DOA ヒストグラムの分散値から音像深度の推定を行う 8

DOA に基づく音像深度推定信号処理上の問題点正規化問題 L-ch レベルの小さな雑音成分も過大に扱われてしまい目的音が埋もれる R-ch Binaural – recorded Center Right Frequency L-ch input signal Left Noise R-ch input signal DOA そのまま適用しただけでは目的音の真の分散値が評価できない．背景雑音やデジタル信号処理で生じる人工的なノイズの抑圧が必要改良手法アクティベーション同期型マルチチャネル NMF 9

10.

アクティベーション同期型マルチチャネル NMF Frequency Frequency Amplitude 非負値行列因子分解 (nonnegative matrix factorization: NMF) Time アクティベーション行列 Time スペクトログラム Amplitude 基底行列 𝑭が現れるタイミング及び音量を表現するスペクトログラム中で頻出するスペクトルパターン 𝛺: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底数非負行列を2つの非負行列の行列積で表現する． → 特徴的なパターンが基底となって現れる特徴を持つ．この性質を利用し目的信号成分の抽出を行う． ×左右チャネル別々に NMF 処理を行うと方位情報 (振幅比) が乱れる． 10

11.

アクティベーション共有型マルチチャネル NMF 問題 L-ch 方位情報 NMF フレーム周波数ビン毎の振幅比 R-ch チャネル毎に NMF で処理すると基底が無相関に学習される． Frequency NMF 方位情報が乱れ本来の DOA の分布が不明に DOA 11

12.

アクティベーション共有型マルチチャネル NMF 改良手法アクティベーション同期型マルチチャネル NMF L-ch NMF アクティベーションを共有 R-ch 方位情報を保存しつつ目的音源抽出 NMF コスト関数 : コスト関数, : βダイバージェンス, : 中の各要素 12

13.

アクティベーション共有型マルチチャネル NMF 一般化距離関数 -divergence [Eguchi, et al., 2001] : ユークリッド距離 : 一般化KLダイバージェンス : 板倉-斉藤擬距離スパース性が重視された距離尺度に

14.

アクティベーション共有型マルチチャネル NMF 距離関数に b -divergence を用いた場合の更新式を導出し，超解像に基づく教師あり NMF において最適な距離規範の検討を行う更新式導出は補助関数法を用いるコスト関数の上限を与える補助関数を定義コスト関数を間接的に最小化 -divergenceを用いて 14

15.

アクティベーション共有型マルチチャネル NMF コスト関数(上式) の第一項，第二項はの値に応じて凸関数 (convex) か関数 (concave) になる． concave convex convex concave concave convex 15

16.

アクティベーション共有型マルチチャネル NMF 各項の上限関数は以下の不等式を用いて設計できる凸関数: Jensen の不等式 : 凸関数凹関数: 接線不等式 : 凹関数 16

17.

アクティベーション共有型マルチチャネル NMF 補助関数を各変数で微分し，補助変数の等号成立条件を代入することで更新式を導出はそれぞれの要素 17

18.

提案手法フロー Frequency Input stereo signal R-ch L-ch STFT DOA Cluster L Cluster C Cluster R Frequency Weighted DOA histogram Activation Activation Activation shared NMF shared NMF shared NMF Variance estimation Variance estimation 各クラスタのDOA ヒストグラムの分散値を評価することにより音像深度を推定 Frequency Variance estimation DOA DOA 18

19.

評価実験実験条件提案法 1 重み付けのみ提案法 2 重み付け + NMF 処理 Mixing source parameter Interference source Test source 1, 2, 3 SNR NMF beta Target source NMF basis 2.5 m 1.5 m Dummy head 0.5 m ⚫ 3種類の楽器の混合音源 ⚫ 距離の違う3つの目的音 ⚫ ピンクノイズを混合した音源についても評価 ⚫ 方位の組み合わせ: 6通り目的音の距離： 3通りノイズ付加率の違い： 4通り Interference source 72個のテストセット 19

20.

2.0 (a) 1.5 1.0 0.5 0.0 0.5 m 1.5 m 2.5 m Variance of histogram Variance of histogram 評価実験 2.0 1.0 1.5 1.0 0.5 0.0 0.5 m 1.5 m 2.5 m Depth of sound source ：Proposed method 2 0.5 0.0 0.5 m 1.5 m 2.5 m Depth of sound source Variance of histogram Variance of histogram (c) ：Proposed method 1 1.5 Depth of sound source 2.0 (b) 2.0 (b) signal with pink noise (SNR=30 dB) (d) 1.5 (c) signal with pink noise (SNR=20 dB) 1.0 0.5 0.0 (a) signal only 0.5 m 1.5 m 2.5 m (d) signal with pink noise (SNR=１0 dB) Depth of sound source 結果 ⚫ 3つの音源距離間で有意な推定が行われた． ⚫ 全条件において提案法2の結果が若干優位 ⚫ ノイズの強い音源に関しても頑健性が示唆された． 20

21.

まとめと今後の課題まとめ ⚫ 波面合成法で必要となる音像深度の推定手法として， DOA ヒストグラムの分散値を評価することを提案した． ⚫ 改良手法として，アクティベーション共有型マルチチャネル NMF を提案した．まとめ! ⚫ 音源距離の違いに応じて特徴量に有意な差が見られ，音像深度の推定に対する提案法の有効性が示された．今後の課題 ⚫ 別条件の音源に対する評価実験の実施 ⚫ 音像定位推定を波面合成法へ適用し，実音場で再現を行った合成音源に対する主観評価実験の実施 21