高調波間の位相差に基づく発話区間検出

116 Views

February 22, 23

スライド概要

2022年 日本音響学会 第148回秋季研究発表会

profile-image

所属:豊橋技術科学大学 IT活用教育センター 助教 専門:信号処理 研究分野:音声信号処理 / 農業情報

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

日本音響学会第148回(2022年秋季)研究発表会 高調波間の位相差に基づく発話区間検出 豊橋技術科学大学 IT活用教育センター 細田 侑也

2.

2 概要 背景 目的 手法 結果 位相情報を無視して 振幅情報のみを参考に発話区間を検出 位相情報が発話区間検出に有効であるか検証 高調波間の位相差の理論値 と 観測値 とのズレを算出 位相情報だけでも 発話区間を検出可能であることを確認

3.

発話区間検出は ピッチ推定で必要 発話障がい ピッチ推定 声の高さを表すピッチ (基本周波数)を推定する技術 周波数 言葉が出にくくなる症状 症例として 抑揚のない声 ピッチ推定(処理前) 時間 発話区間検出 発話 非発話 時間 ピッチ推定(処理後) 声帯が振動している区間 (発話区間)を検出する技術 周波数 発話区間検出 時間 3

4.

4 振幅情報を用いた発話区間検出 閾値以上で発話区間判定 振幅情報 学習器 確率 時間 周波数 音声 周波数 周波数解析 位相情報 時間 破棄 今回の研究対象 振幅情報は 本来の音声がもつはずの情報が損失

5.

位相情報 と 振幅情報 は互いに作用 振幅情報 スペクトログラム 位相情報 音声区間 4 4 作用 0 時間 [s] 2.5 発話区間検出 (先行研究) 周波数 [kHz] 周波数 [kHz] 音声区間 0 位相差 0 0 時間 [s] 2.5 発話区間検出 (今回の内容) 位相情報も活用できれば 失われた情報を補足可能 5

6.

6 位相情報 の 課題 雑音あり 雑音なし ① 変動しやすさ 高SNRである高調波に注目 ② 位相ラッピング 周波数 雑音付加で 位相が変動 周波数 位相 時間 時間 Im ∠𝐵 = ∠𝐴 [0, 2𝜋)で 位相はラッピング Re 複数の位相差の関係性を評価 識別困難

7.

7 高調波間の位相差 に注目 高調波の位相差 [Krawczyk, 2014] Φ𝑙ℎ = ℎ 𝜙𝑙+1 − 𝜙𝑙ℎ 𝜙ℎ𝑙 | 位相 f0𝑙 | ピッチ (ℎ + 1)次 𝛷𝑙ℎ ℎ次 ℎ 𝜙𝑙−1 𝜙𝑙ℎ ℎ 𝜙𝑙+1 𝑀 | シフト幅 𝐹s | サンプリング周波数 (ℎ − 1)次 𝑙 フレーム 高調波間の位相差 (提案法) (ℎ + 1)次 𝜙𝑙ℎ+1 ℎ+1 𝜙𝑙+1 Ωℎ𝑙 Ωℎ𝑙 = Φ𝑙ℎ+1 − Φ𝑙ℎ ℎ次 次数によらず一定 (ℎ − 1)次 𝜙𝑙ℎ ℎ 𝜙𝑙+1

8.

8 理論値 と 観測値 のズレを評価 一致度 ズレ Im ෢ℎ 観測値 Ω 𝑙 = 発話区間 1 音声 (ピッチ200Hz) -1 50 1 Re 白色雑音 一致度 調波構造 が存在 理論値 ෢ℎ | 高調波間の位相差(実測) Ω 𝑙 一致度 𝐻 | 高調波の数 Ωℎ𝑙 周波数 [Hz] -1 50 400 周波数 [Hz] 400

9.

9 提案法の流れ 一致度 𝑙 − 2 フレーム ピッチ推定で ピッチを仮定 周波数 閾値 一致度 一致度 𝑙 − 1 フレーム 周波数 ピッチ(仮) 周波数 一致度 𝑙 フレーム 周波数 閾値以上で 発話区間判定 連続するフレーム間の平滑化で 外れ値を除外

10.

シミュレーション実験 10 音声 PTDB-TUG 英語音声 4718本 (男性10名/女性10名) サンプリング周波数 16kHz 雑音 NOISEX-92 白色雑音 / 会話雑音 サンプリング周波数 16kHz 手法 フレーム長40msであるハン窓を 10msシフトで周波数解析 ピッチ推定はPEFAC[Gonzalez, 2014]で 𝐻 = 5で位相差を計算 比較 音声のパワー(振幅情報)に基づく発話区間検出

11.

11 検出結果例 橙|正解ラベル(0が非発話区間 / 1が発話区間) 1 振 幅 音声+白色雑音(20dB) 0 -1 1 振幅情報 確 率 0 一 致 度 1 位相情報 0 0 時間 [s] 3

12.

12 発話区間の検出精度を評価 Area Under the Curve (AUC) 閾値を媒介変数として 識別性能を総合的に評価 1 真 陽 性 率 0 AUC 0 1に近づく ほど良い 偽陽性率 1 SNR 20dB 白色雑音 会話雑音 SNR 0dB 白色雑音 会話雑音 振幅情報 0.969 0.956 振幅情報 0.916 0.760 位相情報 0.926 0.917 位相情報 0.822 0.757

13.

まとめ と 今後の展望 目的 手法 結果 今後 位相情報が発話区間検出に有効であるか検証 高調波間の位相差の理論値に対する 観測値のズレを評価 位相情報だけでも 発話区間を検出可能であることを確認 他の位相特徴量 や 振幅情報 と組み合わせた手法を検討 13