【Pythonで学ぶ音声認識】第4章:音声認識の初歩―DPマッチング―

1.1K Views

November 08, 23

スライド概要

Pythonで学ぶ音声認識の輪読会第4回の発表スライドです。
2023年10月26日(木) 18:30~

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

音声認識の初歩 DPマッチング 京都大学工学部 大前俊輔 0

2.

目次 1. テンプレートマッチング 2. DPマッチング 3. バックトラック 4. DPマッチングによる音声認識 5. まとめ 1

3.

テンプレートマッチング テンプレートマッチング クラスのテンプレートを用意しておき、入力との類似度を測って最 も近いテンプレートのクラスを出力する手法。   音声認識の場合、類似度にはMFCC特徴量のユークリッド距離を 使用する。 2

4.

テンプレートマッチングの問題点 同じ内容を発話した二つのスペクトログラム   MFCCは1フレーム同士の距離しか測れない。 同じ内容の音声でも「時間的ゆらぎ」で フレーム同士が対応しない フレームの対応関係 「アライメント」を知る必要がある。 3

5.

DPマッチング   DPマッチングを使用してアライメントを推定する。 アライメントを解く問題は、フレーム同士の距離をコストとして、 最短経路問題を解くことに相当する。 DP(動的計画法) 解きたい問題を部分問題に分割し、 その答えを使って最適解を得る手法  4

6.

DPマッチングで最短経路問題を解く 右、下、斜め右下の三種類の遷移 最短経路を更新しながら累積コストを記録する 左からしか来れない 上から遷移する方が コストが小さい すべてのマスを埋めていく 1 0 1 1 1 1 2 3 1 1 2 3 1 1 0 0 2 1 0 0 2 2 0 0 1 1 0 0 3 1 0 0 3 1 0 0 1 1 1 1 4 1 1 1 4 1 1 1 上からしか来れない 5

7.

DPマッチングの遷移 1 , 2 3 , , , , , 最後に正規化してDTW距離を求める 3 1 , 6

8.

バックトラック DPで求めた最短経路を確認するために「バックトラック」という 方法を使う  遷移の時にどこから来たかをメモしておく (0: 上から, 1: 斜め左上から, 2: 左から)  2 2 2 0 2 2 2 0 0 1 2 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7

9.

DPマッチングによる音声認識 Step 1 MFCC特徴量の計算 認識対象とテンプレートの特徴量の計算 Step 2 DPマッチング DPマッチングで各テンプレートとのDTW距離を計算する。 Step 3 K近傍法 コストが小さいほうからK個抽出し、投票で最終出力を決定する。 8

10.

まとめ まとめ1 まとめ2 まとめ3 DPマッチングで二つのフレームの類似度を計算した。 バックトラックでフレームの対応関係「アライメント」を求めた。 DPマッチングで計算したDTW距離をもとにK近傍法で音声認識を行った。 9