【Pythonで学ぶ音声認識】第1章：音声認識とは？

5.2K Views

September 30, 23

#音声認識 #京都大学 #松田拓己 #音声信号 #End-to-Endモデル

スライド概要

Pythonで学ぶ音声認識の輪読会第1回の発表スライドです。
2023年10月5日(木) 18:30～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.1K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.3K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.6K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 14.2K

各ページのテキスト

2023年度後期輪読会#1 1. 音声認識とは？京都大学理学部地球物理学分野松田拓巳 0

1. 音声認識とは？目次 1. 音声認識とは？どんなことに使える？ 2. 音声を認識するとは？－音声認識のしくみ－ 3. 本書の目的と構成 1

1.1. 音声認識とは？どんなことに使える？音声認識の位置づけ ⚫ 音声認識とは、音声信号から発話内容を認識する技術のこと ⚫ 音源分離や音声認識で誤りが混入すると、以降の処理にも悪影響図1-1はテキストから引用 2

1. 音声認識とは？目次 1. 音声認識とは？どんなことに使える？ 2. 音声を認識するとは？－音声認識のしくみ－ 3. 本書の目的と構成 3

1.2. 音声を認識するとは？－音声認識のしくみ－耳の構造 ⚫ ⚫ 鼓膜の振動が耳小骨で増幅される基底膜上で振動が起こる位置は、音の高さによって異なる → 音を各周波数成分に分解低い音高い音共鳴共鳴図1-2はテキストから引用 4

1.2. 音声を認識するとは？－音声認識のしくみ－機械に音声を認識させる前に ⚫ 音の振動信号を直接モデルに入力するわけではない • 特徴量抽出を行う必要がある • 例：フーリエ変換（周波数成分に分解）図1-3はテキストから引用 5

1.2. 音声を認識するとは？－音声認識のしくみ－認識フェーズ ⚫ 音響モデル • • • ⚫ 発音辞書 • ⚫ 音声特徴量 → 音素列隠れマルコフモデルと混合正規分布の組み合わせニューラルネットワーク音素列 → 単語の候補言語モデル • • • 単語の候補 → 1単語 N-gramモデル RNN, Transformer? 図1-3,図1-4はテキストから引用 6

1.2. 音声を認識するとは？－音声認識のしくみ－最近は End-to-End モデル！ ⚫ 「音響モデル」「発音辞書」「言語モデル」を1つのNNで表現 • これを作ることが本の目標 7

1. 音声認識とは？目次 1. 音声認識とは？どんなことに使える？ 2. 音声を認識するとは？－音声認識のしくみ－ 3. 本書の目的と構成 8

10.

1.3. 本書の目的と構成この本の目標 3つに分ける手法 ⚫ End-to-Endな手法実装が複雑なので実装はしない ⚫ 実装は比較的簡単なのでこれを作る特にデコーダ(3つをうまく統合して認識結果を出力する部分)がムズい ⚫ ⚫ 従来手法の問題点やお気持ちを理解することは重要なので解説詳細は↓の２冊を参照 https://shop.ohmsha.co.jp/shopdetail/000000004726/ https://www.coronasha.co.jp/np/isbn/9784339011395/ 9

11.

1.3. 本書の目的と構成各章の内容基礎 11ページ 1人 ⚫ 特徴抽出古典的手法 DeepLearning 以前の手法現在主流の手法 End-to-End 61ページ 17ページ 93ページ 67ページ 72ページ 3人 1人 3人 3人 4人 1人あたりだいたい10～20ページ程度 ※実装部分はコードが書いてあるのでページ数が多い場合もある ⚫ 余裕のある人は、自分で調べて補足してくれるとGood！ 10

12.

1.3. 本書の目的と構成 2章：音声認識の基礎知識基礎 ⚫ ⚫ 特徴抽出古典的手法 DeepLearning 以前の手法現在主流の手法 End-to-End 音声認識を数式で理解する章数式といっても、簡単な確率の計算キーワード：条件付き確率・ベイズの定理・周辺化 11

13.

1.3. 本書の目的と構成 3章：音声処理の基礎と特徴量抽出基礎 ⚫ 特徴抽出古典的手法 DeepLearning 以前の手法現在主流の手法 End-to-End 音声データ → ファイルの読み込み、ファイルの中身、サンプリング周波数など ⚫ ⚫ ⚫ ⚫ フーリエ変換スペクトログラム対数メルフィルタバンク特徴量メル周波数ケプストラム特徴量 ※ は、１人分の発表範囲を表す。 12

14.

1.3. 本書の目的と構成 4章：音声認識の初歩 ― DPマッチング基礎 ⚫ ⚫ 特徴抽出古典的手法 DeepLearning 以前の手法現在主流の手法 End-to-End DP＝Dynamic Programming＝動的計画法アライメントを推定しながら距離を計算する方法あきあーきこの２つの音声の間の距離(類似度)を測りたい → 長さが一致しないのでこのままでは測れない →２音声間の対応関係（アライメント）を推定する必要 13

15.

1.3. 本書の目的と構成 5章：GMM-HMMによる音声認識基礎 ⚫ ⚫ ⚫ ⚫ ⚫ 特徴抽出古典的手法 DeepLearning 以前の手法現在主流の手法 End-to-End GMM＝Gaussian Mixture Model マッチングではなく、確率で考える HMM＝Hidden Marcov Model アライメントを推定しながら確率を考える GMM-HMMの実装 14

16.

1.3. 本書の目的と構成 6章：DNN-HMMによる音声認識基礎 ⚫ ⚫ ⚫ ⚫ ⚫ 特徴抽出古典的手法 DeepLearning 以前の手法現在主流の手法 End-to-End DNN＝Deep Neural Network GMMよりも表現力が高いモデル DNNをHMMに組み込むには？ GMM-HMMやDNN-HMMで大語彙連続音声認識（補足） DNN-HMMの実装 15

17.

1.3. 本書の目的と構成 7章：End-to-Endモデルによる連続音声認識基礎 ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ 特徴抽出古典的手法 DeepLearning 以前の手法現在主流の手法 End-to-End RNN：時系列を扱うニューラルネットワーク CTC：HMMを使わずにDNNのみでモデルを作る CTCの実装 Attention encoder-decoderモデルその他のテクニックやモデルの紹介 Attentionモデルの実装 16

18.