イラストで学ぶ音声認識 7章

>100 Views

August 26, 23

スライド概要

profile-image

機械学習や音声認識に関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習 • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ

2.

7.1 実際の音響モデル • 混合分布の学習 • 各音素の特徴ベクトルは、一つの正規分布で近似できるほど単純ではない 例)男女差、方言、... • 複雑な確率密度関数を複数の正規分布の重み付き和で表現 → 混合分布 Φi : i 番目の正規分布 wi : i 番目の正規分布の重み N : 混合数 • 重みはEMアルゴリズムで学習

3.

7.1 実際の音響モデル • 話者適応 • 不特定話者用音響モデルのパラメータを、少数の特定話者データを 用いて調整 • MLLR (Maximum Likelihood Linear Regression) 法 • 学習済みHMMにおいて、平均ベクトルを以下の式で変換 • 特定話者データの尤度が最大となるような行列 A と定数項 b を推定

4.

7.2 識別的学習 • 学習データの尤度計算 • 生成モデル:P(X|W) が大きくなるようにパラメータを求めた • 識別モデルの考え方:ΣW P(X|W)P(W) を小さくすればよい → 正解以外の単語列に対して P(X|W) が小さくなるように学習 • 相互情報量最大化基準 : 対立仮説 r : 学習データのインデックス

5.

7.3 深層学習 • DNN-HMM法 • HMMの各状態で特徴ベクトルを出力する確率 bi(x) を p(x|si) と書き 換え • ベイズの定理 DNNで計算 学習データ から最尤推定 定数 • x はMFCCではなく、メルフィルタバンクの出力(またはもとの音声 信号)で特徴抽出もDNNで学習

6.

7.3 深層学習