イラストで学ぶ音声認識 11章

162 Views

August 26, 23

スライド概要

荒木雅弘

スライド一覧

機械学習や音声認識に関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

<script async class="docswell-embed" src="https://bcdn.docswell.com/assets/libs/docswell-embed/docswell-embed.min.js" data-src="https://www.docswell.com/slide/5DEMWR/embed" data-aspect="0.5625"></script><div class="docswell-link"><a href="https://www.docswell.com/s/MasahiroAraki/5DEMWR-2023-08-26-091802">イラストで学ぶ音声認識 11章 by @MasahiroAraki</a></div>

ダウンロード

ダウンロード(pdf - 732.75kB)

関連スライド

slide-thumbnail

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

荒木雅弘 3.1K

slide-thumbnail

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 3.1K

slide-thumbnail

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

荒木雅弘 2.1K

slide-thumbnail

フリーソフトではじめる機械学習入門 (第2版) 第7章

荒木雅弘 1.1K

slide-thumbnail

フリーソフトではじめる機械学習入門 (第2版) 第8章

機械学習ニューラルネットワーク

荒木雅弘 1K

slide-thumbnail

フリーソフトではじめる機械学習入門 (第2版) 第2章

機械学習 scikit-learn

荒木雅弘 1K

各ページのテキスト

11. 音声の認識：WFST による音声認識 11.1 11.2 11.3 11.4 11.5 WFSTによる音声認識の概要音響モデルをWFST に変換する発音辞書をWFST に変換する言語モデルをWFST に変換する WFST の探索 • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

11.1 WFSTによる音声認識の概要

11.2 音響モデルをWFST に変換する • HMMをWFSTに変換 HMMは入力を持たない • すべての特徴ベクトルを現す記号 x を入力として導入 b(x|Si) の値が認識時までわからないので、事前に合成ができない

11.2 音響モデルをWFST に変換する • WFSTの分離認識前に重みが得られる（＝合成可能）認識時に重みを計算し、合成後のWFSTの重みと組み合わせる

11.3 発音辞書をWFST に変換する • 発音辞書 • 単語表記と発音の関係は、単純に列挙すれば良いので、正規表現で記述可能 • 実際は、音素列と単語列との対応の曖昧性を除去するために、各単語の最後にユニークな識別記号を付ける

11.4 言語モデルをWFST に変換する • 言語モデルとして文法を用いた場合 • 通常は正規言語なので、そのままWFSTで表現可能 • N-グラムの場合 • N-1個の単語列を状態とし、N-グラム確率を重みとすることでWFSTで表現可能

11.4 言語モデルをWFST に変換する • バックオフへの対応 • バックオフ状態を設ける

11.5 WFST の探索 • 合成・最適化後のWFSTをビタビアルゴリズムでビームサーチ