フリーソフトでつくる音声認識システム(第2版) 第10章～第15章

0.9K Views

August 14, 23

#音声認識 #音声対話 #音響モデル #言語モデル #動的計画法

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 5.1K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.3K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4.1K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 3.1K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.8K

各ページのテキスト

10-15. 実践編ー音声認識・音声対話ー前処理部特徴抽出部識別部⼊⼒（⾳声）⾳響モデル出⼒（単語列）⾔語モデル 10 声をモデル化してみよう 11 HTKを使って単語を認識してみよう 12 文法規則を書いてみよう 13 統計的言語モデルを作ろう 14 連則音声認識に挑戦しよう 15 会話のできるコンピュータを目指して荒木雅弘: 『フリーソフトでつくる音声認識システム（第2版）』（森北出版，2017年）スライドとJupyter notebook サポートページ

10. 声をモデル化してみよう 10.1 連続音声の認識入力系列 x のもとで事後確率を最大にする単語列 w ^ を認識結果とする ^ = arg max P (w∣x) = arg max p(x∣w)P (w) w w w p(x∣w) : 音響モデル、P (w) : 言語モデル前処理部特徴抽出部識別部⼊⼒（⾳声）⾳響モデル⾔語モデル出⼒（単語列）

10.1 連続音声の認識 p(x∣w): 音響モデル音素 m を発声したときに特徴ベクトル系列 x が観測される確率を p(x∣m) とする音素系列 m1 , … , mi と単語 w との対応は単語辞書を用いる最大の確率を与える単語系列 w はビタビアルゴリズムによって求めることができる p(w): 言語モデルドメインやタスクが狭く限定されたものであれば、文法規則を用いることができる特に入力文が限定されなければ、大規模なコーパスから統計的言語モデルを作成する探索すべての可能な単語列に対して音響モデルと言語モデルのスコアを求めることは現実的ではないので、探索によって最適な単語列を求める

10.2 音響モデルの作り方 p(x∣m): 音素毎の音響モデル音素の前半・中盤・後半で特徴ベクトルがかなり異なる母音の過渡現象（例：/a/-/o/-/i/ の /o/ の音の入り-定常-出）子音の構成（例：/n/ の先行母音からの入り-鼻音-後続母音への出）話者や話速の違いで、1音素当たりの特徴ベクトル数がかなり異なる自己遷移を持ち、各状態で混合分布によって特徴ベクトルを出力するleft-to-right型オートマトンで各音素をモデル化どの特徴ベクトルが、どの状態から出力されたかが隠れているので隠れマルコフモデル (HMM; Hidden Markov Model)とよぶ S E

10.3 音響モデルの使い方 (1/3) p(x∣m) の計算 HMMの状態数をN 、特徴ベクトルの系列長をT とすると、すべての可能な系列に対する確率の計算量は O(N T ) 状態のマルコフ性を仮定し、動的計画法を用いると、計算量は O(N 2 T ) 正確な確率値は排反事象の和となるが、それを最も高い確率値となる系列を求める問題に置き換える（→ ビタビアルゴリズム）このことによって、音素HMMを並列に連結したHMMにおいて、最尤の音素系列を高速に求めることができる

10.3 音響モデルの使い方 (2/3) 動的計画法の計算に用いる状態空間表現（＝トレリス）ビタビアルゴリズム : ある時刻のある状態でのスコアを求める際に、最大値を与える経路の情報だけを利用する S

10.3 音響モデルの使い方 (3/3) トレリス上のビタビアルゴリズムによる確率計算と最尤経路の決定 for t = 1 to N: 時刻 t-1 から遷移可能なすべての状態について前状態のスコアと遷移確率の和が最大のものに対して、その状態での特徴ベクトルの出現確率を足し、その状態のスコアとする確率値は対数を取り、かけ算を足し算に置き換えておく最大のスコアを与えたパスを記録最終状態から最大のスコアを与えたパスを逆向きにたどったものが最尤経路動的計画法のポイント問題全体を部分問題に分割一度行なった部分問題の計算結果を保存することによる計算の効率化

10.4 音響モデルの鍛え方 Baum-Welch アルゴリズム HMMの状態遷移確率や出力確率をEMアルゴリズムで求める 1. HMMのパラメータ（状態遷移確率と出力確率）をランダムで初期化 2. Eステップ現在のパラメータを使用して、各状態における観測データの期待値を計算 3. Mステップ Eステップで計算された期待値を使用して、HMMのパラメータを最尤推定 4. 収束判定パラメータの変化が十分小さくなった、または最初に設定した繰り返し回数に達した場合、アルゴリズムを終了 5. ステップ2から4を繰り返す

10.5 実際の音響モデルディープニューラルネットワークを用いた音響モデル (DNN-HMM) 混合分布の代わりに、DNNの出力に基づいて S p(x∣Si ) を計算 E を出⼒ディープニューラルネットワーク低レベルな⾳声特徴系列

10.

11. HTKを使って単語を認識してみよう HTK : 音声認識の研究・開発のためのツールキット注) HTK の最終リリースは2016年⾳声データ (.wav) HCopy ラベル (.lab) 学習データ (.mfc) テストデータ (.mfc) WaveSurfer HMM 構成情報⽂法評価 HParse HInit 初期 HMM HRest 学習後 HMM ⽂法 HMMリスト HResult 認識結果 (.mlf) HVite 単語辞書

http://htk.eng.cam.ac.uk/

11.

12. 文法規則を書いてみよう言語モデルとしての文法単語から文を構成する規則を文法として記述大規模語彙の音声認識精度向上に伴い、現在では文法による方法はあまり使われない文法の書き方記号の集合非終端記号は文・句・単語集合、終端記号は単語規則の書き方左辺は非終端記号 1つ、右辺は非終端記号または終端記号の列文法の種類文脈自由文法 : 右辺に任意の記号列（大半の場合、処理効率のよい正規文法に変換可能）正規文法 : 右辺が終端記号 + 非終端記号、または終端記号

12.

13. 統計的言語モデルを作ろう (1/2) P (w): 言語モデル単語列 w の生成確率 P (w) = P (w1 , … , wn ) = P (w1 )P (w2 ∣w1 )P (w3 ∣w1 , w2 ) … P (wn ∣w1 , … , wn−1 ) N − 1 単語にのみ依存すると仮定 N-gram近似 : 単語の生起確率は直前の N = 3 のとき n P (w1 , … , wn ) = P (w1 )P (w2 ∣w1 ) ∏ P (wi ∣wi−2 , wi−1 ) i=3 N-gram確率はコーパス（文例集）での出現頻度から推定 P (wi ∣wi−2 , wi−1 ) = Count(wi−2 , wi−1 , wi ) Count(wi−2 , wi−1 )

13.

13. 統計的言語モデルを作ろう (2/2) リカレントニューラルネットワークによる言語モデル ∣V ∣ 次元の one-hot ベクトル出力層 : 語彙数 ∣V ∣ 次元ベクトルで、各次元が対応する単語の生起確率を表す入力層 : 語彙数学習 : コーパス中の次単語を正解として学習出⼒層隠れ層射影層（埋め込み層）⼊⼒層

14.

14. 連続音声認識に挑戦しよう 14.1 基本的な探索手法 (1/5) 単語ラティスの作成 1. 単語と音素列の対応を記した単語辞書からプレフィックスを共有するトライ木を作成 2. トライ木のエッジを HMM に置き換えた単語連接 HMM を作成各単語の最終状態から全単語の初期状態へ、入力なしで遷移可能な ϵ-遷移を加える 3. 単語連接 HMM 上のトレリス探索で上位単語⾳素列朝 asa 明⽇ asu 秋 aki 北 kita 昨⽇ kinoo ... ... 単語辞書 k 番目までの単語系列から単語ラティスを作成 /a/ as /s/ a /a/ ε asa /u/ ε asu /k/ ak /i/ ε aki /k/ ε k ki kin トライ⽊ ε ... トライ⽊単語連接HMM

15.

14.1 基本的な探索手法 (2/5) 単語ラティス : 連続音声認識における状態空間表現探索の目標状態空間中で入力音声区間全体をカバーするスコア最大の単語系列を求める天気明⽇のの明⽇明後⽇明⽇は朝明後⽇気温明⽇の気温明⽇は明⽇朝今⽇今⽇明⽇の天気の今⽇のと今⽇と⼊⼒⾳声区間

16.

14.1 基本的な探索手法 (3/5) 縦型探索（深さ優先探索）ノードの展開時に最もスコアの高い枝を選んで進む目標状態でない、もしくは目標状態に到達できないことがわかったら、直近の分岐に戻り次の候補を探す天気明⽇のの明⽇明後⽇明⽇は朝明後⽇今⽇今⽇明⽇の天気気温明⽇の気温明⽇は明⽇朝

17.

14.1 基本的な探索手法 (4/5) 横型探索（幅優先探索）ノードの展開時にすべての枝について解かどうかを調べる目標状態が含まれないことがわかったら、一段だけ枝を伸ばす明⽇のの明⽇明後⽇明⽇は朝明後⽇朝の今⽇今⽇のと明⽇は明⽇朝明後⽇朝明後⽇の今⽇の今⽇と

18.

14.1 基本的な探索手法 (5/5) 縦型探索のアルゴリズム 1. 初期状態をオープンリストに入れる。クローズドリストを空に初期化する。 2. while オープンリスト != []: オープンリストから先頭要素 s を取り出し、クローズドリストに s を追加 if s == 目標状態: s を解として探索終了 else: s を展開し接続先のノードをオープンリストの先頭に追加（スタック構造）横型探索のアルゴリズム上記アルゴリズム最終行の操作を「末尾に追加（キュー構造）」に変更いずれのアルゴリズムでも見つかった解が最適解であることは保証されない

19.

14.2 ヒューリスティック探索 (1/3) ヒューリスティック探索手法これまでの経路のスコアやこれからのスコアの見積を活用して効率的に準最適解を探索関数説明 g(s) 初期状態からノード s までの経路のスコア h(s) ノード s から目標状態までの経路のスコア f (s) ノード s を経由したときの最適経路のスコア f (s) = g(s) + h(s) スコアを活用した探索見積値（関数記号にハット(^)記号を付けたもの）の高速な計算を導入する探索仮説をスコア上位のものに限定するビームサーチを用いる

20.

14.2 ヒューリスティック探索 (2/3) さまざまなヒューリスティック探索最適探索縦型探索の方法でオープンリストにノードを追加した後、g ^ の値の順にソートする最良優先探索最適探索のアルゴリズムに対して用いる関数を ^ とする h A∗ 探索 f^ とするオープンリストとクローズドリストについて、同一の状態 s に対してリスト内の f^(s) よりもスコア最適探索のアルゴリズムに対して用いる関数をの高いものが探索中に出現したら、その値と置き換える A∗ 探索の特徴 ^ (s) > h(s) （すなわち楽観的な予測）なら、最適解が見つかることが保証されている常に h ^ をどうやって見積るかが問題音声認識での探索においては、h

21.

14.2 ヒューリスティック探索 (3/3) 音声認識エンジン Julius での解法 : 2パス探索 1パス目：単純な音響モデルと2-gram言語モデルで高速なトレリス計算 2パス目：入力と逆方向に詳細なモデルで A∗ 探索⾳声区間の明⽇明後⽇今⽇朝天気天気との第1パス注) Julius の最終リリースは 2020年天気気温気温ははれ気温と第2パス

https://julius.osdn.jp/

22.

14.3 WFSTによる探索手法 WFST (weighted finite state transducer) による探索音響モデル・単語辞書・言語モデルを WFST に変換し、それらを合成・最適化した上で探索特徴ベクトル系列を入力とし、文としてもっともらしい単語列が出力される

23.

15. 会話のできるコンピュータを目指して 15.1 音声対話システムの構成 (1/2) 逐次的処理ひとまとまりの音声入出力を仮定モジュールの逐次結合で構成⾳声認識発話理解対話管理⾳声合成応答⽣成バックエンドアプリケーション

24.

15.1 音声対話システムの構成 (2/2) 漸進的処理相槌など短い音声入出力にも対応可能非同期メッセージの交換で動作発話理解⾳声認識メッセージハブ⾳声合成応答⽣成対話管理バックエンドアプリケーション

25.

15.2 対話管理の方法有限状態トランスデューサ（FST）による対話のモデル化入力：ユーザ発話 or イベント出力：システム発話／行為 s0 ⼊⼒︓＠否定／出⼒︓「やり直します」⼊⼒︓ε／出⼒︓「出発駅はどこですか」 s5 ⼊⼒︓＠肯定／出⼒︓「終了します」 s1 ⼊⼒︓＠出発駅／出⼒︓「到着駅はどこですか」 s2 ⼊⼒︓＠到着駅／出⼒︓「席種はどうしますか」 s3 ⼊⼒︓＠席種／出⼒︓「何枚ですか」 s4 ⼊⼒︓＠枚数／出⼒︓「確認します...」 s6

26.

15.3 音声対話エージェント MMDAgent-EX 音声認識、音声合成、対話管理などを統合した音声対話エージェント対話シナリオは FST で記述入力：イベント音声認識結果合成音声出力終了タイマー出力：コマンド合成音声、動作、画像の出力、webページの表示注) MMDAgent-EX の最終リリースは 2021年

https://mmdagent-ex.dev/ja/

27.

まとめ音声認識の定式化音響モデル : 隠れマルコフモデルで構成言語モデル : 文法または統計的言語モデルで構成探索 : ビームサーチ、A∗ 探索、WFST による探索音声対話システム逐次的処理と漸進的処理の2種類の構成簡単なタスク指向対話のモデル化にはFSTが用いられる