ヤフー音声認識YJVOICEにおけるディープラーニングの実用化

465 Views

August 01, 17

スライド概要

https://idcf.doorkeeper.jp/events/63057

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

ヤフー音声認識YJVOICEにおけるディープラーニングの実用化株式会社IDCフロンティア主催セミナー 2017/07/31 2017年8月1日データ＆サイエンスソリューション統括本部サイエンス本部三宅純平

目次 • • • • • 2 ヤフー音声認識のご紹介音声認識の要素技術の概要ディープラーニングを用いた音響モデル音声認識サービスでのDNN実用についてまとめと今後の展開

ヤフー音声認識 YJVOICEについて • • • • 3 2011年3月から音声認識サービス開始 100万語彙以上の連続単語認識約15弱のヤフーアプリに導入 2015年5月よりDNN音響モデルを利用 Yahoo!音声検索アプリ (※)Ken-ichi Iso et al., "Improvements in Japanese Voice Search", Interspeech 2012

YJVOICE音声認識システムの概要 • • 分散型音声認識システム iOS/Android SDKを社内配布してアプリ導入 Client (iOS/Android) 音響モデル言語モデル App(表示) WakeUp用音声認識 (音声検出/デコード) Server (Apache Module) 音声データ (圧縮音声) 通信制制御部 (ASRプロトコル) 4 通信制御部(ASRプロトコル) 言語モデル認識エンジン部 (音声検出/デコード) 音声圧縮処理（Speex,Flac）音声取り込み (OS/ドライバ) 音響モデル認識結果音声検出をサーバで音声認識デコーダ： ⇒WFSTベース

ヤフー日本語音声認識 YJVOICEについて音声認識の基本構成単語と単語の繋がり易さを表現する知識晴れ「あ」等の音を表現する知識 ka 明日 to 晴ディープラーニングの実装範囲音響モデルます荒れれ言語モデル音声波形特徴量抽出 5 音声区間検出認識デコーダ認識結果

音声認識のモデル学習からプロダクト導入まで音声波形音声認識結果大規模音声ログの収集 (数億発話) 実機での性能検証 on CPU • • • • 6 音声認識の精度リアルタイム性 CPU/メモリ消費率アルゴリズム検証音声書き起こし(学習データ) （約300万発話,約2000時間）音声認識のモデル学習 on GPU • 音響モデルや音声区間検出モデル等のニューラルネットワークの学習 • 学習時間は数日から１週間以上まで色々

ディープラーニングを用いた音響モデル

音響モデル＝音声信号(時系列データ)のモデル化周波数軸(Hz) 今日 8 きょーはは京都きょーにとに 30ms 類似した音声スペクトルパターンのモデル化遊びにあそびに 60ms 時間軸伸縮のモデル化行きますいきます

音声系列のパターン認識の代表的な手法について • Left-to-Right Hidden Markov Model(HMM) • • 1980sから広く用いられている手法各音素の時間軸伸縮の違いを有限オートマトンの一種で制御 • 初期状態確率、状態遷移確率、シンボル出力確率で表現 a 【例】10msec毎に音素「a」の始端、中間、終端等の状態遷移 a1 • a3 i4 i5 i6 Connectionist Temporal Classification(*1) • • 9 a2 i リカレントニューラルネットワークを用いて、各音素と何も出力しない空文字(blank) ”_” を出力ラベルとして系列を違いを吸収できるようにした大規模な学習データを用いた時に有効 “aaa____i_i__uuuu__”  “aiiu” (*1)Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." ICML2006

10.

DNN-HMM hybrid 音響モデルやふーおんせーにんしき y-a+f 1フレーム(10ミリ秒)毎に音声特徴量ベクトル40次元を抽出 sil-a+sh:0.01 ... ... ... ... ... ... ... ... y-a+f ニューラルネットワークの構造:DNN ... 時間軸伸縮のある音素系列を効率的にモデル化 ⇒ 1音素毎に3状態HMMで表現 ... ... .. . s2 ... ... s1 y-a+f(s1):0.9 ... 音素状態 s3 DNNでモデル化 p(x|s1) 10 p(x|s2) p(x|s3) 各状態における出力確率状態の事前確率入力層 (440) 中間層 (2048x5層) 特徴量ベクトル40次元を11フレーム (認識対象1+前後5フレーム) 出力層 (約4000) :事後確率

11.

DNN音響モデルの学習データ学習データサイズ • 約2000時間の音声データ • データ規模感 • 1000時間=590GB(360Mサンプル) • 1サンプル(10ミリ秒)=440次元特徴量 • 440次元*(float32)=1.7KB • 自動車走行音などの雑音データによる重畳音声のデータ拡張あり学習プログラム • TensorFlowツールの利用 • 学習アルゴリズム：Minibatch SGD, 開発セット認識率でearly stopping • 音声は1バッチ当たり学習が数msecで終わるので、 CPU-GPU間のデータ転送の工夫が必要 • 学習時間 11 (※) 詳細は磯健一, “ヤフー音声認識サービス「YJVOICE」におけるディープラーニング活用事例” , GTC Japan 2015 • 例:1000時間, 2048x5層, 15epoch • Tesla M2090で約1ヶ月 • TITAN Xで約2週間

12.

DNNによる性能の向上 Good 既存手法から誤り率が30〜40%改善 • 音声検索1万発話による文正解率 • 約3%(1/32)の学習データ量でも DNNの方が精度が高い文正解率(%) • ※ GMM : Gaussian Mixture Models • これまでのデファクト音響モデル • GMMの学習データ量を1として DNNの学習データ量を1〜1/32の場合での比較 12 GMM (※) 1/32 1/16 1/8 1/4 1/2 1 (DNN=2048x5)

13.

ミニバッチサイズとマルチGPUによる速度変化 Xeon E5-2697v3 2.60GHz TITAN X 40 1024x5層 1sampleあたりの処理時間(usec) 37.0 ミニバッチサイズ変更 30 2.56倍 usec 20 14.3 マルチGPU 2.75倍 10 5.2 1GPU 1GPU 4GPU 256 16384 16384 0 ミニバッチサイズ • ミニバッチサイズ変更：サイズに合わせて適切な学習率を調整 • マルチGPU：各GPUから修正量を集めてCPU上で重み更新して各GPUへ配布 13 (※)CPU-GPUのデータ転送タイミングなどまだ調査中で改善余地あり。

14.

音声認識サービスでのDNNの実用について

15.

改めて ... 音声波形音声認識結果大規模音声ログの収集 (数億発話) 実機での性能検証 on CPU • • • • 15 音声認識の精度リアルタイム性 CPU/メモリ消費率アルゴリズム検証音声書き起こし（約300万発話,約2000時間）音声認識の学習 on GPU • 音響モデルや音声区間検出モデル等のニューラルネットワークの学習 • 学習時間は数日から１週間以上まで色々

16.

CPU上でのDNN演算速度改善 • 音声認識サービスはintel CPUサーバを使用 • • • リアルタイム処理を実現 • • 16 大規模なモデルに用いることで精度向上が期待できるがリアルタイム性も重視する必要がある実時間比(Real Time Factor;RTF)が1以下になるように調整 RTF = デコード処理時間 / 音声の長さ (10ミリ秒の音声断片を10ミリ秒以内に処理) DNNのforward演算のみを高速化 Intel MKLライブラリ(数値演算ライブラリ) • CPUのSIMD演算のAVX拡張機能(32bit 8並列) • マルチスレッドを利用

17.

Intel C++ Compiler & Math Kernel Library の導入 Intelコンパイラ+MKL(2スレッド)利用で CPUのまま約50%の高速化, 速度劣化なくDNN版をリリース 1フレームあたりの平均処理時間 [ミリ秒] (コンパイラ/利用スレッド数) icpc-w/MKL-4th icpc-w/MKL-2th 17 Intelコンパイラ +MKL2スレッド利用 4.66473 約50%改善 5.6293 icpc-w/MKL-1th 7.45025 icpc-15.0 7.5991 g++-4.4 Intelコンパイラ利用約32% 11.3187

18.

まとめと今後の展開 • ヤフー音声認識のDNNを用いた音響モデル学習 • 約2000時間の学習データ • モデル学習時間は約2週間 • 音声認識サービスにおけるDNNの実用 • 音声認識サービスはintel CPUサーバを使用 • Intel MKLライブラリの導入 • 今後の展望 • マルチGPU,マルチノード学習によるモデル学習の大規模化(kukaiに期待) • 音声は1サンプルあたり学習がすぐに終わるので、 CPU-GPU間のデータ転送やパラメータ更新の同期処理がボトルネック Microsoft: CNTK 1bit SGD Data-Parallel Distribute Training Amazon :Strom Nikko, "Scalable distributed dnn training using commodity gpu cloud computing." Interspeech 2015. 18 • 音声認識処理の高速化 • RNNにより認識処理を行なうフレーム単位を下げても精度劣化がほとんどない G. Pundak and T. N. Sainath, “Lower Frame Rate NeuralNetwork Acoustic Models,” in Proc. Interspeech2016

19.

音声認識の学習からプロダクト導入まで音声波形音声認識結果大規模音声ログの収集 (数億発話) 実機での性能検証 on CPU • • • • 音声認識の精度リアルタイム性(デコード時間/音声長) CPU/メモリ消費率アルゴリズム検証 • スパコンkukaiを用いた学習 ⇒ kukai に期待！ 19 音声書き起こし（約300万発話,約2000時間）音声認識の学習 on GPU • 音響モデルや音声区間検出モデル等のニューラルネットワークの学習 • 学習時間は数日から１週間以上まで色々

ヤフー音声認識YJVOICEにおけるディープラーニングの実用化

Yahoo!デベロッパーネットワーク

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

ゼロから始める転移学習

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

各ページのテキスト