【Pythonで学ぶ音声認識】第7章：End-to-Endモデルによる連続音声認識（7.1～7.3節）

2.2K Views

December 28, 23

#音声認識 #Connectionist Temporal Classification #Recurrent Neural Network #LSTM #GRU

スライド概要

Pythonで学ぶ音声認識の輪読会第9回の発表スライドです。
2023年12月14日(木) 18:30～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.3K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

京都大学人工知能研究会KaiRA 12.4K

各ページのテキスト

音声認識 7章 1~3節 Connectionist Temporal Classification 京都大学工学部電気電子工学科4回生三宅大貴 0

フルニューラルネットモデルへ DNN-HMMのように多段的な学習を行うのではなく、一度にすべてのモデルの学習を行いたい(End-to-End) Connectionist Temporal Classification (CTC) ⚫ Attention encoder-decoder モデルを扱う ⚫ 1

Recurrent neural network (RNN) (unidirectional) RNNの計算式 2

RNNの弱点 𝑡 = 0~𝑇 まで計算した後に誤差逆伝播を行う (BPTT; Back Propagation Through Time) →勾配爆発や勾配消失が起きる勾配消失の結果、初期の入力は学習にほぼ寄与しない(遠い過去の情報を見れない) 3

Long short-term memory (LSTM) LSTMの計算式入力、出力、隠れ状態をそれぞれどれだけ保持するかを動的に決定 Residual構造により勾配消失を防ぐ 4

Gated recurrent unit (GRU) GRUの計算式 GRUよりも省パラメータ 5

Gradient Clipping LSTMやGRUで勾配消失は防げても勾配爆発は防げない →Gradient Clipping 6

Connectionist temporal classification (CTC) フレームごとのラベル付けを諦める CTCでは各時刻(フレーム)ごとに各トークンの事後確率を予測するトークンのラベル数は音素(や仮名、単語)にブランク(空)トークンを加えた数だけ用意する予測されたトークン列に以下の操作 𝓑 を加えて認識結果とする ⚫ 連続するトークンを1トークンとする ⚫ ブランクトークンを除去する例えば 𝓑 [o, −, −, o, i, i, i, −] = [o, o, i]となる 7

CTCの学習トークン列の予測結果 𝑙 の事後確率は以下で計算できる損失関数はトークン列の事後確率に対するクロスエントロピーとする 8

10.

損失関数の微分各出力に対する勾配は以下のように求まる 𝑃 𝒍, 𝜋𝑡 = 𝑘 𝒙 は時刻 𝑡 に(𝑠 番目の)トークン 𝑘 と予測される前向き確率 𝛼𝑠𝑡 と後ろ向き確率 𝛽𝑠𝑡 から計算される(次ページ) 9

11.

前向き確率と後ろ向き確率 10

12.

パスの遷移方法 11

13.

前向き確率の計算方法 𝑡 = 0 の時はブランク or 𝒍 の1文字目のみを考える(最終的に 𝒍 になるパスのみを考えているため) 𝒍′ は拡張トークン列 𝒍′2𝑖 = blank 𝒍′2𝑖+1 = 𝒍𝑖 それ以降は前ページの遷移にそって更新 12

14.

後ろ向き確率の計算方法 𝑡 = 𝑇 − 1 の時はブランク or 𝒍 の最後の文字で終わると考えるそれ以降は前向き確率と同様に更新 13

15.

まとめまとめ１ Recurrentな構造のモデルを使うことでEnd-to-Endで学習できるまとめ２ CTCではブランクトークンを導入しフレームごとにトークンを予測するまとめ３前向き確率と後ろ向き確率によってトークン列の事後確率が計算できる 14

16.