【Pythonで学ぶ音声認識】第3章：音声処理の基礎と特徴量抽出（3.6・3.7節）

ケプストラムのモチベーション音声認識では，「声道がどうなっているか(どんなフィルタがかけられているか)」が分かればOK →音声信号から声道の情報だけ抽出したい声道の周波数特性のピークとなる周波数をフォルマントと呼ぶ F1 F2 F3 F1とF2で母音がほぼ決定する画像引用: https://smartsoundlab.com/2019/01/000047.html 4

https://smartsoundlab.com/2019/01/000047.html

ケプストラムフィルタリング処理は以下の式で表される※ (𝑘 は周波数) 𝑋 𝑘 =𝐻 𝑘 𝑆 𝑘 ただし， 𝑋 𝑘 …音声信号のフーリエ変換 𝐻 𝑘 …声道のインパルス応答のフーリエ変換 (フィルタ関数) 𝑆 𝑘 …声帯振動のフーリエ変換パワースペクトル 𝑃 𝑘 の対数を取り，和の形に log 𝑃 𝑘 = log 𝑋 𝑘 2 = 2 log 𝐻 𝑘 + 2 log 𝑆 𝑘 ※フィルタリングは時間領域では畳み込み積分，周波数領域では積の形で表せる 5

ケプストラム声帯振動 𝑆 𝑘 はクシ形，フィルタの周波数特性 𝐻 𝑘 は緩やか → log 𝑃 𝑘 の高周波成分が 𝑆 𝑘 ，低周波成分が 𝐻 𝑘 → log 𝑃 𝑘 をフーリエ変換し，低域だけを抜き出せば 𝐻 𝑘 が得られるはず 6

ケプストラムまとめると，音声信号 →離散フーリエ変換 →パワースペクトラム・対数 →離散フーリエ変換 (離散逆フーリエ変換※) →ケプストラム →低域だけを抜き出す ※フーリエ変換でも逆フーリエ変換でもOK 詳細は後述 7

用語ケプストラムの横軸をケフレンシー(quefrency)，低域だけを抜き出す操作をリフタリング(liftering) と呼ぶ時間領域→周波数領域→ケフレンシー領域と変換される 8

10.

パワースペクトラムのフーリエ変換/逆フーリエ変換パワースペクトラムは 𝑘 = 𝑁/2 (ナイキスト周波数)で左右対称 (𝑋 k と 𝑋 𝑁 − 𝑘 は複素共役なので，二乗すると同じになる) 𝑁/2 𝑁/2 で左右対称な信号に対しては，離散フーリエ変換しても離散逆フーリエ変換しても定数倍を除いて同じ結果が得られる 9

11.

離散コサイン変換実装上はパワースペクトラムの離散フーリエ変換に離散コサイン変換が使われる場合が多い離散コサイン変換(DCT)はJPEGにも使われる変換手法 10

12.

離散コサイン変換系列長 𝑁 の信号 𝑥 𝑛 に対する離散コサイン変換(DCT-Ⅱ) 𝑁−1 𝜋𝑘 𝑋 𝑘 = ෍ 𝑥 𝑛 cos 𝑛 + 0.5 𝑁 𝑛=0 これは何を表しているか？ 11

13.

離散コサイン変換 𝑥 𝑛 = 𝑥 2𝑁 − 1 − 𝑛 となるような系列長 2𝑁 の信号 𝑥 𝑛 を考える (𝑛 = 𝑁 − 0.5 で対称) これを離散フーリエ変換すると， 2𝑁−1 𝑗2𝜋𝑛𝑘 𝑋 𝑘 = ෍ 𝑥 𝑛 exp − 2𝑁 𝑛=0 𝑗𝜋𝑘 = 2 exp 2𝑁 𝑁−1 𝜋𝑘 ෍ 𝑥 𝑛 cos 𝑛 + 0.5 𝑁 𝑛=0 12

14.

離散コサイン変換離散コサイン変換のイメージ →信号を左右反転させて繋げた信号を離散フーリエ変換している DFT 13

15.

離散コサイン変換離散コサイン変換の特徴 ⚫ ⚫ 出力は実数窓関数が必要ない DFT 信号の端点が繋がらない (窓関数で修正) DCT 信号の端点が必ず繋がる 14

16.

離散コサイン変換パワースペクトラムは左右対称なので，全体を離散フーリエ変換する代わりに半分を離散コサイン変換すれば計算量が半分で済む DFT DCT 15

17.

リフタリングケプストラムから低ケフレンシー成分を抜き出すために，以下の関数で重みづけする 𝑄 𝜋𝑑 𝐿 𝑑 = 1.0 + sin 2 𝑄 𝑄 はリフタリング係数で，𝑄 = 22 が良い 16

18.

MFCC メルフィルタバンクに対してケプストラムを計算したものを MFCCと呼ぶ 17

19.

MFCC 実際にMFCCをプロットしてみるフィルタバンク数=20 リフタリングされたMFCCのうち，最初の13次元を表示 (ただしMFCCの1次元目は描画の関係上除外) データはJVSを使用 18

20.

MFCC 話者は jvs001 と jvs002 発話内容は VOICEACTRESS100_006 と VOICEACTRESS100_033 →話者よりは発話内容に相関がある 19

21.

3.7 特徴量の平均と標準偏差を計算してみよう 20

22.

平均と標準偏差ある発話 𝑢 のあるフレーム 𝑛 の特徴量 𝒙𝑢 𝑛 ∈ ℝ𝐷 (𝑢 = 0, ⋯ , 𝑈 − 1, 𝑛 = 0, ⋯ , 𝑁 𝑢 − 1) また， 𝒙𝑢 𝑛 の各要素を 𝑥𝑑𝑢 𝑛 で表す (発話とフレーム数に対する，特徴量のある次元の)平均 𝜇𝑑 = 1 𝑢 σ𝑈−1 𝑁 𝑢=0 𝑈−1 𝑁𝑢 −1 ෍ ෍ 𝑥𝑑𝑢 𝑛 𝑢=0 𝑛=0 21

23.

標準偏差 (発話とフレーム数に対する，特徴量のある次元の)標準偏差 𝜎𝑑 = = 𝑈−1 𝑁𝑢 −1 1 𝑢 σ𝑈−1 𝑁 𝑢=0 ෍ ෍ 𝑥𝑑𝑢 𝑛 − 𝜇𝑑 2 𝑢=0 𝑛=0 1 𝑢 σ𝑈−1 𝑁 𝑢=0 𝑈−1 𝑁𝑢 −1 ෍ ෍ 𝑥𝑑𝑢 𝑛 2 − 𝜇𝑑2 𝑢=0 𝑛=0 22

24.

まとめまとめ１まとめ２まとめ３フーリエ変換したものをフーリエ変換したのがケプストラムケプストラムの低ケフレンシー領域は声道情報に対応するメルフィルタバンクを適用したケプストラムの低ケフレンシー領域の特徴量(MFCC) を用いるとよい 23

25.

【Pythonで学ぶ音声認識】第3章：音声処理の基礎と特徴量抽出（3.6・3.7節）

京都大学人工知能研究会KaiRA

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

各ページのテキスト