ヤフー音声認識のご紹介#yjdsw1

>100 Views

December 21, 15

スライド概要

http://yahoo-ds-event.connpass.com/event/21903/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

データサイエンスワークショップ ヤフー⾳音声認識識のご紹介 ヤフー株式会社   D&Sサイエンス本部サイエンス3部   三宅宅  純平 1

2.

⾃自⼰己紹介 • 経歴   2009年年4⽉月 新卒⼊入社。⾃自然⾔言語処理理技術の開発。 (読み獲得、レコメンド、クエリセグメンテーション、Hadoop) 2011年年1⽉月~∼現在 ・⾳音声認識識PJの発⾜足と共にチーム異異動し、⾳音声認識識の開発 ・Yahoo!  JAPAN研究所とサイエンス本部の共同開発PJ • 専⾨門技術領領域 ⾳音声認識識アルゴリズム,  ⾔言語モデル,  単語分割,  C/C++,  Python,  Perl サーバ開発(C/C++),  最近だとやはり深層学習 Yahoo!JAPAN  Confidential 2

3.

ヤフー⽇日本語⾳音声認識識 YJVOICE iOS Andorid 「Yahoo!  JAPAN」アプリなど18のアプリ・ウィジェットに導⼊入(5/19現在)

4.

ヤフー⽇日本語⾳音声認識識  YJVOICEについて 最近のヤフー⾳音声認識識のリリース • DNNベースの音声認識に切替(5/19) 音声区間検出と音響モデルの2箇所にDNNを実装 雑音環境下において大幅精度改善 大規模な音声データで大規模なNNを学習 出典:GTC Japan 2015 ヤフー研究員 磯氏の講演より • 音声検索アプリにKeyword Spotting機能の追加(9/25) 所謂「OK,Google」「Hey,Siri」の機能 クライアント側で常時、音声認識が起動 おんせー けんさく!

5.

DNN導⼊入前後で何が変わったか?ー⾳音響モデルー 5

6.

DNN導⼊入前後で何が変わったか?ー⾳音響モデルー ⾳音声認識識の全体概要 ka 1 / 0 to 2 6

7.

⾳音響モデルとは (Hz) 3000 ⼤大量量の⾳音声データから   ⾳音素の周波数パターンを   モデル化(確率率率化) ⼊入⼒力力⾳音声 F2 ⾳音素(  y-‐‑‒a+f  ) イメージ例例 /e/ /i/ /a/ 2000 1000 0 s1 成⼈人⼥女女性 成⼈人男性 P(x|s1) P(x|s2) s2 s3 P(x|s3) x /u/ x x 実際には各音素毎に3状態HMMで表現。 /o/ 500 F1 1000(Hz) ⾳音響モデル 各状態における出力確率がGMMからDNNに変更 どの⾳音素に尤も近いか ka ⼊入⼒力力⾳音声(の分析量量)と   ⾳音響モデルを照合 ↑学習 ↓分類 to 7

8.

⾳音声の特徴量量について 量子化(Bit Rate) I 0   標本化(Sampling Rate) 音声信号 ディジタル化 m1 ・ mj ・ mp 8   周 MEL メル帯域化 高域強調 FFT GMM-HMMの特徴量:38次元 ケプストラム領域化 対数化 離散コサイン 変換(DCT) MFCC 正規化 (CMS) ・スペクトル形状 MFCC(12次元) ΔMFCC(12次元) DNN-HMMの特徴量:440次元 ・メルフィルタバンク(メル帯域スペクトル) 現在1フレーム(40次元) 前5フレーム(40次元x5) 後ろ5フレーム(40次元x5) ΔΔMFCC(12次元) ・音声信号の強さ Δパワー(1次元) ΔΔパワー(1次元)

9.

GMMからDNNへ 出力層:約5000状態の音素 約5000状態の事後確率率率を   DNNモデル構築 中間層 1024unit, 5layers x どれが尤もらしいか… 特徴量(MFCC)から音素(HMM状態数)の 出力確率を混合正規分布で表現 ⼊入⼒力力層:特徴量量(メルフィルタバンク) 9

10.

最後に 認識識アルゴリズム、クライアントSDK、サーバと多岐に渡る   開発をしているので、興味がある⽅方はお声がけください! 全体概要 Client(iOS/Android) App(表⽰示) 通信制御部(ASRプロトコル) Server ⾳音声データ   (圧縮⾳音声) 通信制御部(ASRプロトコル)   ⾳音声圧縮処理理   (Speex,Flac) クライアント ⾳音声取り込み   (OS/ドライバ)   ⾳音響モデル ⾔言語モデル 認識識エンジン部   (⾳音声検出/デコード) 認識識結果 ⾳音声検出をサーバで Yahoo!JAPAN  Confidential デコーダ:   ⇒WFSTデコーダによるデコード 10