イラストで学ぶ音声認識 7章

>100 Views

August 26, 23

音声認識

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習や音声認識に関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 507.3kB)

関連スライド

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習 • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

2.

7.1 実際の音響モデル • 混合分布の学習 • 各音素の特徴ベクトルは、一つの正規分布で近似できるほど単純ではない例）男女差、方言、... • 複雑な確率密度関数を複数の正規分布の重み付き和で表現 → 混合分布 Φi : i 番目の正規分布 wi : i 番目の正規分布の重み N : 混合数 • 重みはEMアルゴリズムで学習

3.

7.1 実際の音響モデル • 話者適応 • 不特定話者用音響モデルのパラメータを、少数の特定話者データを用いて調整 • MLLR (Maximum Likelihood Linear Regression) 法 • 学習済みHMMにおいて、平均ベクトルを以下の式で変換 • 特定話者データの尤度が最大となるような行列 A と定数項 b を推定

4.

7.2 識別的学習 • 学習データの尤度計算 • 生成モデル：P(X|W) が大きくなるようにパラメータを求めた • 識別モデルの考え方：ΣW P(X|W)P(W) を小さくすればよい → 正解以外の単語列に対して P(X|W) が小さくなるように学習 • 相互情報量最大化基準 : 対立仮説 r : 学習データのインデックス

5.

7.3 深層学習 • DNN-HMM法 • HMMの各状態で特徴ベクトルを出力する確率 bi(x) を p(x|si) と書き換え • ベイズの定理 DNNで計算学習データから最尤推定定数 • x はMFCCではなく、メルフィルタバンクの出力（またはもとの音声信号）で特徴抽出もDNNで学習

6.

7.3 深層学習

イラストで学ぶ音声認識 7章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

フリーソフトではじめる機械学習入門 (第2版) 第7章

フリーソフトではじめる機械学習入門 (第2版) 第8章

フリーソフトではじめる機械学習入門 (第2版) 第2章

各ページのテキスト

荒木雅弘