単一話者の発話区間率とブラインド音源分離性能の関係の調査

305 Views

March 10, 24

スライド概要

鈴木慶,"単一話者の発話区間率とブラインド音源分離性能の関係の調査,"香川高等専門学校電気情報工学科 卒業研究論文, 31 pages, 2024年2月.

profile-image

北村研究室の学内・対外発表の発表スライドをまとめています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

令和6年度電気情報工学科 卒業研究発表会 2024/02/29 単一話者の発話区間率と ブラインド音源分離の性能の関係の調査 Analysis of relationship between activity ratio of single speaker and blind source separation performance 香川高専 電気情報工学科 北村研究室 5年 鈴木慶

2.

2 研究の背景 • ブラインド音源分離(blind source separation: BSS) – 複数の音源が混ざり合った信号から各音源の信号を推定 – 各音源の信号や複数音源の混ざり合い方は未知 • マイクの配置や音源位置等の事前情報が不明=ブラインド 音源信号(未知) 推定した音源信号 観測した混合信号 ? ? • BSS手法の例 混合系 (未知) 分離系 (推定) – 周波数領域ICA(FDICA)[Smaragdis+, 1998] – 独立ベクトル分析(IVA)[Hiroe+, 2006],[Kim, 2016], [Kim, 2017] – 独立低ランク行列分析(ILRMA)[D. Kitamura+, 2017] 現在のBSSではIVA及びILRMAが広く研究されている

3.

BSSにおける音源モデルの仮定 • 時間周波数信号として扱う • 短時間フーリエ変換 (short time Fourier transform: STFT)で実現 時間周波数領域 周波数 時間領域 ・・・ 時間 DFT シフト長 フーリエ変換長(窓長) 時間的に変化する スペクトルを表現 3

4.

BSSにおける混合・分離モデルの仮定 • 混合・分離モデル 推定音源 観測信号 元の音源信号 A 混合モデル 分離モデル 4

5.

BSSにおける混合・分離モデルの仮定 • 混合・分離モデル 推定音源 観測信号 A 混合モデル 分離モデル 5

6.

IVAとILRMAの概要 • 音源モデルの仮定 – 時間周波数構造の パワースペクトログラムとして扱う • IVA – 各音源は全周波数成分の 強弱が同期すると仮定 • ILRMA – 各音源は時間周波数構造が 低ランクな構造を持つと仮定 6

7.

IVAの性能向上の条件 • フレーム単位排他的直交性(flame-level W-disjoint orthogonality:F-WDO)[J. Gu+, 2023] – 各信号源が時間フレーム単位で排他的 – 同時に発音している時間フレームが存在しない 混合音源がF-WDOに近いほどIVAの分離性能は向上 7

8.

8 IVAの性能向上の条件 • F-WDOに近い音源の方が分離精度が高いことを証明 – 先行研究では2つの音声信号の時間的位置をずらして実験 高 分離精度 低

9.

実験の目的 • 「F-WDOに近いほど音源分離の性能が高い」という 性質の検証 • IVA: 先行研究への追試 – 異なる実験条件で調査 • ILRMA: IVAと同様の結果が現れるか調査 – IVAとILRMAは根本的な音源モデルの原理が同じ • 原理1: 各音源が統計的に独立している • 原理2: 個々の音源は非ガウス分布とである ILRMAもIVAと同様の結果が得られると予想 9

10.

混合信号におけるF-WDOへの近さ • 単一話者発話区間率 (active ratio of single speaker: ARSS) – 混合信号の全体長に対する単一話者発話区間の占める割合 観測信号 時間長 単一話者発話区間 単一話者発話区間 単一話者発話区間 ARSS [%] = + 単一話者発話区間 時間長 ARSS100%の場合,F-WDOと同義 10

11.

11 実験条件[1/2] • 音源データの構成 – データサンプル: JVS corpus parallel 100 [Takamichi+,2019] – 「女性・女性ペア」,「男性・男性ペア」 • 「女性・男性ペア」は分離難易度が同性ペアと比べて低いため除外 – 性別に対し5種類のペア – ペアに対し10~90%のARSS – ARSSに対し25パターンの音声 Female pairs ・・・ Pair 5 ・・・ ・・・ Male pairs ARSS 10% Pair 1 ARSS 90% 25 patterns

12.

実験条件[2/2] 12 • 録音環境 – E2Aを用いる – 2音源のインパルス応答による畳み込みシミュレーションを行う • 残響時間 T60=300ms • 到来角度 50° • マイク間隔 5.66cm – 2つの音源の到来方向, 距離がそれぞれ等しい – 観測した混合信号は IVA,ILRMAで分離し 精度を比較

13.

13 実験結果[1/2] • IVA 分離精度とARSSには 正の相関があるがある程度の ARSSで飽和している F-WDO: 遠 F-WDO: 近

14.

14 実験結果[2/2] • ILRMA 精度がある程度の ARSSまで横ばい F-WDO: 遠 F-WDO: 近

15.

考察 • 「F-WDOに近いほど音源分離性能が高い」特徴の検証 – IVAは先行研究と同様の結果が得られた • 一部予想に反した結果 – ILRMAではIVAと同様の結果が得られなかった • 予想に反した結果 • 疑問点 – 1.IVAの精度が飽和している原因 – 2.ILRMAにおいてIVAと同様の結果が得られなかった原因 数値計算の不安定性が原因であると予想 15

16.

16 考察 • IVAの数値計算不安定性 – F-WDOに近いほど顕著にあらわれる IVA内部の更新式 2.この行列が ほぼランク1となる 1.F-WDOだと ある一か所の値が かなり0に近くなる 3.ランクがほぼ1なので 逆行列をとると おかしな値が出力される

17.

17 考察 • ILRMAの数値計算不安定性 – F-WDOに近いほど顕著にあらわれる – IVAよりも不安定性が大きい 1.F-WDOだと ある一か所の値が かなり0に近くなる ILRMA内部の更新式 2.この行列がほぼ ランク1となる 3.ランクがほぼ1なので 逆行列をとると おかしな値が出力される

18.

18 まとめ • 「F-WDOに近いほど音源分離性能が高い」特徴の検証 – IVA: 先行研究と同様の結果が得られた – ILRMA: IVAと同様の結果が得られなかった • 原因として数値計算不安定性が予想される (現時点で詳細は不明) • 数値計算不安定性が小さければ 右肩上がりのグラフが 得られたのではないか 不安定性: 小 不安定性: 大 • 今後の課題 – 1.予想に反した結果の原因が 数値計算不安定性であるかの検証 – 2.F-WDOを用いたIVAにおける改善案の開発