イラストで学ぶ音声認識 8章

>100 Views

August 26, 23

スライド概要

profile-image

機械学習や音声認識に関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

8. 音声の認識:言語モデル • 8.1 文法記述による言語モデル • 8.2 統計的言語モデルの考え方 • 8.3 統計的言語モデルの作り方 • ニューラルネットワーク言語モデル • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ

2.

8.1 文法記述による言語モデル • 文法記述を言語モデルとみなす • 規則に従う単語列であれば P(W) > 0 、そうでなければ P(W) = 0 として、 認識対象の単語列を限定 • 文法記述の例

3.

8.1 文法記述による言語モデル • 文法の種類 • 文脈自由文法 • 文法規則の左辺は非終端記号一つ • 右辺は「終端記号または非終端記号」の列 • おおよそ自然言語の文法が記述可能 • 正規文法 • 文法規則の左辺は非終端記号一つ • 右辺は「終端記号」、「終端記号+非終端記号」、「空文字列」のいずれか • おおよそ文節レベルの文法が記述可能 • 典型的な音声対話システムの文法は、正規文法の範囲内で記述可能

4.

8.2 統計的言語モデルの考え方 • 統計的言語モデル • P(W) = P(w1,...,wn) の値を言語統計から求める • 条件付き確率への展開 • N-グラム言語モデル • 長い履歴を持つ条件付き確率の値の推定は難しい • 履歴を過去N-1単語で近似

5.

8.2 統計的言語モデルの考え方

6.

8.3 統計的言語モデルの作り方 1. コーパスを準備する 大量の電子化された文章(新聞記事、webページなど)を集める 2. コーパスを単語に区切る 形態素解析処理 3. 条件付き確率を求める 確率の推定値が0にならないよう工夫したうえで P(wk | wk-N+1,...,wk-1) を求める

7.

8.3 統計的言語モデルの作り方 • N-グラムを最尤推定するときの問題点 • 例)2-グラムの単純な最尤推定 C(W): Wの出現回数 • コーパス中に wi-1 wi が1度も出現しなければ、この値は0 • 単語列中に値0の2-グラムが1つでもあれば、全体の確率が0 • バックオフスムージング • 最尤推定したN-グラムのうち、確率0でないものから少しずつ値を削り、 確率0のものに分配する

8.

ニューラルネットワーク言語モデル • フィードフォワード型 • 過去N単語から次単語の確率分布を求める

9.

ニューラルネットワーク言語モデル • リカレント型 • フィードバックで仮想的にすべての履歴を表現