ヤフー音声認識のご紹介#yjdsw1

142 Views

December 21, 15

#yjdsw1 #音声認識 #DNN #YJVOICE #機械学習 #深層学習

スライド概要

http://yahoo-ds-event.connpass.com/event/21903/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.5K

各ページのテキスト

データサイエンスワークショップヤフー⾳音声認識識のご紹介ヤフー株式会社 D＆Sサイエンス本部サイエンス３部三宅宅純平 1

⾃自⼰己紹介 • 経歴 2009年年4⽉月新卒⼊入社。⾃自然⾔言語処理理技術の開発。 (読み獲得、レコメンド、クエリセグメンテーション、Hadoop) 2011年年1⽉月~∼現在・⾳音声認識識PJの発⾜足と共にチーム異異動し、⾳音声認識識の開発・Yahoo! JAPAN研究所とサイエンス本部の共同開発PJ • 専⾨門技術領領域⾳音声認識識アルゴリズム, ⾔言語モデル, 単語分割, C/C++, Python, Perl サーバ開発(C/C++), 最近だとやはり深層学習 Yahoo！JAPAN Confidential 2

ヤフー⽇日本語⾳音声認識識 YJVOICE iOS Andorid 「Yahoo! JAPAN」アプリなど18のアプリ・ウィジェットに導⼊入(5/19現在)

ヤフー⽇日本語⾳音声認識識 YJVOICEについて最近のヤフー⾳音声認識識のリリース • DNNベースの音声認識に切替(5/19) 音声区間検出と音響モデルの２箇所にDNNを実装雑音環境下において大幅精度改善大規模な音声データで大規模なNNを学習出典：GTC Japan 2015 ヤフー研究員磯氏の講演より • 音声検索アプリにKeyword Spotting機能の追加(9/25) 所謂「OK,Google」「Hey,Siri」の機能クライアント側で常時、音声認識が起動おんせーけんさく！

DNN導⼊入前後で何が変わったか？ー⾳音響モデルー 5

DNN導⼊入前後で何が変わったか？ー⾳音響モデルー⾳音声認識識の全体概要 ka 1 / 0 to 2 6

⾳音響モデルとは (Hz) 3000 ⼤大量量の⾳音声データから⾳音素の周波数パターンをモデル化(確率率率化) ⼊入⼒力力⾳音声 F2 ⾳音素（ y-‐‑‒a+f ）イメージ例例 /e/ /i/ /a/ 2000 1000 0 s1 成⼈人⼥女女性成⼈人男性 P(x|s1) P(x|s2) s2 s3 P(x|s3) x /u/ x x 実際には各音素毎に3状態HMMで表現。 /o/ 500 F1 1000(Hz) ⾳音響モデル各状態における出力確率がGMMからDNNに変更どの⾳音素に尤も近いか ka ⼊入⼒力力⾳音声(の分析量量)と⾳音響モデルを照合 ↑学習 ↓分類 to 7

⾳音声の特徴量量について量子化(Bit Rate) I 0 標本化(Sampling Rate) 音声信号ディジタル化 m1 ・ mj ・ mp 8 周 MEL メル帯域化高域強調 FFT GMM-HMMの特徴量：38次元ケプストラム領域化対数化離散コサイン変換(DCT) MFCC 正規化 (CMS) ・スペクトル形状 MFCC(12次元) ΔMFCC(12次元) DNN-HMMの特徴量：440次元・メルフィルタバンク(メル帯域スペクトル) 現在1フレーム(40次元) 前5フレーム(40次元x5) 後ろ5フレーム(40次元x5) ΔΔMFCC(12次元) ・音声信号の強さ Δパワー(1次元) ΔΔパワー(1次元)

GMMからDNNへ出力層：約5000状態の音素約5000状態の事後確率率率を DNNモデル構築中間層 1024unit, 5layers x どれが尤もらしいか… 特徴量(MFCC)から音素(HMM状態数)の出力確率を混合正規分布で表現⼊入⼒力力層：特徴量量(メルフィルタバンク) 9

10.

最後に認識識アルゴリズム、クライアントSDK、サーバと多岐に渡る開発をしているので、興味がある⽅方はお声がけください！全体概要 Client(iOS/Android) App(表⽰示) 通信制御部(ASRプロトコル) Server ⾳音声データ (圧縮⾳音声) 通信制御部(ASRプロトコル) ⾳音声圧縮処理理（Speex,Flac）クライアント⾳音声取り込み (OS/ドライバ) ⾳音響モデル⾔言語モデル認識識エンジン部 (⾳音声検出/デコード) 認識識結果⾳音声検出をサーバで Yahoo！JAPAN Confidential デコーダ： ⇒WFSTデコーダによるデコード 10