大規模発話ログデータを活用した音声対話処理

201 Views

July 26, 17

#音声対話 #自然言語処理 #機械学習 #大規模データ #ユーザーエンゲージメント

スライド概要

第232回自然言語処理研究会(https://nl-ipsj.or.jp/2017/07/03/nl232_program)の招待講演の発表資料です。

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.5K

各ページのテキスト

音声対話型インタフェースの時代あらゆるデバイスに人工知能が搭載されるIoT時代の到来ヒトとモノが音声対話でコミュニケーションできる世界が目前に http://i.gzn.jp/img/2016/05/10/viv/s01.jpg http://images.techhive.com/images/article/2017/01/echodothome-100704745-large.3x2.jpg 2 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

https://www.amazon.co.jp/gp/product/B00OIWNED6

世の中の動向に反して学会で音声対話は盛り上がっていない？ dialog and interactive systems （第９位） ACL2017におけるエリアごとの論文投稿の状況 https://chairs-blog.acl2017.org/2017/02/15/statistics-on-submissions-and-status-update 4 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

https://chairs-blog.acl2017.org/2017/02/15/statistics-on-submissions-and-status-update

発話のバリエーションと頻度が一目瞭然：スマホの音量を上げる場合 8 頻度発話頻度発話 8791 聞こえない 760 音量を大きく 7334 音大きく 707 音量大きくして 3323 音量上げて 684 音量最大 1910 もっと大きく 641 音量大きく 1756 音量を上げて 546 音量を上げる 1745 声が小さい 514 音量アップ 1736 音を大きく 491 ボリュームアップ 1040 音が小さい 407 ボリュームを上げて 893 声を大きく 394 音量を大きくして 843 音大きくして … Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. …

10.

将来的ユーザエンゲージメントの予測 Shumpei Sano, Nobuhiro Kaji, and Manabu Sassano. Prediction of Prospective User Engagement with Intelligent Assistants. In Proc. of ACL16. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

11.

12.

13.

Yahoo! 音声アシストの対話例 • マルチドメインなタスク型対話、雑談やゲームなども行う 13 今日は朝から授業東京から新大阪まで今日も勉強頑張って下さい！東京11時10分発の新幹線があります… 今日の天気は？何時に到着？今日の東京の天気は晴れでしょう… 13時40分到着です Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

14.

発話ログデータ User ID A B 時刻システム応答応答型（ドメイン） 3/1 23:50 明日8時に起こしてアラームを8時にセットしましたアラーム 3/2 08:10 おはようおはようございます雑談 3/2 08:13 今日の天気調べて今日の東京の天気は晴れでしょう天気 3/1 08:00 東京駅から京都駅まで 9時30分発の新幹線があります路線案内 3/1 08:01 着くのは何時？京都には11時50分に到着し路線案内ます 3/5 19:10 しりとりしよういいですよ “りんご” * 14 発話しりとり表はイメージです。実際のログとは一部異なっている場合があります。 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

15.

２つのタスクを提案：離脱予測とエンゲージメント度予測 • 16週間分のログから348,295のユーザを無作為抽出 • 対象ユーザの全7,472,915発話とそれに対する応答を抽出ユーザごとに予測 …… …… 発話があるかないかを予測？ …… …… …… …… …… …… 観測期間の発話ログ（最初8週間） 15 離脱予測エンゲージメント度予測予測期間の発話ログ（最後8週間） Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. セッション数を予測（4値に離散化）

16.

特徴量の設計（一部のみ抜粋）種類具体例観測期間の最後n週間における発話数（n=1, 2,…, 8）発話数観測期間の最後n週間におけるセッション数（n=1, 2,…, 8） k番目のクラスタに属する発話数（k=1, 2, …100）ある応答型tの応答が返された回数(tは検索、アラームなど66種) 応答数長い（50文字以上の）応答が返された回数エラーメッセージが返された回数発話間隔時間（日数）の最大値発話間隔発話間隔時間（日数）の最小値発話間隔時間（日数）の平均値ユーザ属性ニックネームの登録の有無年齢（20代未満, 20代、30代、40代、50代、60代以上） 16 *実数値素性は自然対数で正規化 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

17.

実験結果 • 学習アルゴリズムは SVM と SVR を使用 • ユーザを訓練、開発、評価に分割して実験 • セッション数素性のみを用いたベースラインを大きく改善離脱予測 17 エンゲージメント度予測分類精度 F値 MSE ρ ベースライン 0.568 0.482 0.784 0.595 提案法 0.776 0.623 0.578 0.727 発話数素性 0.702 0.578 0.632 0.693 応答数素性 0.548 0.489 0.798 0.584 発話間隔素性 0.746 0.617 0.645 0.692 ユーザ属性素性 0.399 0.406 1.231 0.146 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

18.

19.

(Sano, Kaji, and Sassano, ACL16) のまとめ • “将来的エンゲージメント”というエンゲージメントに対する新しい視点を提案 • 大量の発話ログを活用することによって、将来のユーザ行動（≒ 満足度）をある程度予測できることを示した • 大規模なサービスを運用することによって、初めて見えてくる/取り組むことのできる研究課題 19 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

20.

修正発話の原因判定 Shumpei Sano, Nobuhiro Kaji, and Manabu Sassano. Predicting Causes of Reformulation in Intelligent Assistants. In Proc. of SIGDIAL17. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

21.

22.

23.

24.

ログから類似発話の繰り返しを抽出しエラー原因をアノテーションエラー無し（387発話）今日の天気は？今日の転勤今日の東京の天気は晴れ… 申し訳ありませんよく分かりません… じゃあ明日の天気今日の天気は？言語理解エラー（173発話） 24 音声認識エラー（317発話）言語生成エラー（51発話）アラームあなたの名前はなんていうの？ “アラーム”のウェブ検索結果は… 私の年齢は… アラームを起動あなたの名前は？ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

25.

様々な特徴量を設計発話時間間隔編集距離 ASRの確信度修正タイプ（ADD, OMIT等） … アラーム “アラームの”ウェブ検索結果はこちらです… ASR Conf.: 0.7 Domain: ウェブ検索 Intent: SEARCH(アラーム) アラームを起動して ASR Conf.: 0.9 はい。アラームを起動します。 Domain: アラーム Intent: START domain、intent（slot値など）などの一致 25 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

26.

原因判定実験の結果 • SVM を用いて10分割交差検定 • 発話の表層情報だけでなくエラー原因ごとに作りこまれた素性を使うことでF1値が向上エラー無し音声認識言語理解言語生成エラーエラーエラーベースライン 26 0.58 0.59 0.36 0.03 ＋音声認識素性 0.66†† 0.67†† 0.35 0.16 ＋言語理解素性 0.71†† 0.65 0.43 0.25† ＋言語生成素性 0.55 0.57 0.32 0.08 提案法（＋全素性） 0.75†† 0.72†† 0.49† 0.33†† Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

27.

28.

(Sano, Kaji, and Sassano, SIGDIAL17) のまとめ • ユーザとの対話の中で、システムが自立的に学習を行うことのできる枠組みの実現は、対話研究における大目標の一つ • 修正発話は、ユーザからの暗黙的フィードバックであり、これを学習に活用することは非常に重要な課題 • 修正発話が行われたエラー原因を自動判定するという新しい研究課題に取り組んだ • エラーの自動訂正などが今後の課題 28 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

29.

30.

31.

近年、アシスタント型システムの出現によりタスク型と雑談型の区別は曖昧にタスク型雑談型 SHRDLU (Winograd 72) Eliza (Weizenbaum 66) ATIS (Price 90) Let’s GO (Raux+ 05) A.L.I.C.E. (Wallace 09) アシスタント型しゃべってコンンシェル（吉村 12） Yahoo! 音声アシスト (磯+ 13) Siri (Bellegarda 14) Cortana (Sarikaya 17) 31 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

32.

33.

教師データを構築して分類器を学習 • 15160発話をクラウドソーシングを利用してラベル付与 • 各発話ごと7名の多数決（雑談/非雑談: 4833/10327） • SVM と CNN の２つの分類器を学習、比較ラベル雑談非雑談 33 発話得票数お話ししよう趣味はなんですか？ 5 7 今月は休みがありません富士山の写真みせて 5 6 近くのおいしいレストラン 9時10分に起こして 7 7 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

34.

一工夫する：ツイートとウェブ検索ログを活用 • リプライのついたツイート≒雑談発話 USER1 @xxx USER3 @xxx やっと仕事終わったよー！おはようございます〜 USER2 @xxx USER4 @xxx @USER1 お疲れ様！ @USER3 おはよ！ • ウェブ検索ログ≒タスク要求発話東京の天気君の名は。オムライスの作り方ヤフー知恵袋それぞれGRU言語モデルを学習し対数尤度を特徴量に 34 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

35.

実験結果 • ベースライン（ツイートLM、内製）の精度を大きく改善 • 言語モデル（LM）素性の有効性を確認手法ツイート LM 内製の意図判定システム SVM SVM + ツイート/クエリ LM CNN CNN + ツイート/クエリ LM 35 分類精度 72.07 適合率 54.54 再現率 74.48 F値 62.94 78.31 91.35 92.15 62.57 87.62 88.61 79.51 84.88 86.50 70.03 86.21 87.53 90.84 91.48 87.03 87.78 83.80 85.18 85.36 86.56 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

36.

37.

(Akasaki and Kaji, ACL17) のまとめ • タスク型と雑談型という音声対話システムの分類は過去のものになりつつあり、二つのシステムは融合し始めている • タスク型と雑談型の切り替えが新しい技術課題になる • 雑談をドメインの一つと捉えているという見方も • ツイート等の外部資源の活用は、単純な教師有り学習からの脱却に向けた有望なアプローチの一つ 37 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

38.

Take Home Messages 38 • IoTの時代は必ずやって来る。音声対話はそのときに基盤を担う可能性の高いNLP技術 • 大規模なサービスを運用することは、音声対話研究のためのデータ収集に極めて有効な手段 • リアルな発話ログデータは面白いし、それを分析することによって新しい研究課題がどんどん見えてくる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

39.

We’re Hiring! • ヤフー株式会社ではデータサイエンティスト（a.k.a., 機械学習エンジニア）を新卒、経験者ともに通年募集中 • もちろんリサーチャー、エンジニア、デザイナーも • 詳細は公式採用ページをご覧ください http://hr.yahoo.co.jp 39 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

http://hr.yahoo.co.jp

40.

41.

参考文献 • Price. 1990. Evaluation of spoken language systems: the ATIS Domain. • Raux et al. 2005. Let's Go Public! Taking a spoken dialog system to the real world. In Proc. InterSpeech. Weizenbaum. 1966. Eliza–a computer program for the study of natural language communication between man and machine. Communications of • In Proc. DARPA Speech & Natural Language Workshop. the ACM. • • • • • 41 Winograd. 1972. Understanding Natural Language. Academic Press. Wu et al. 2016. りんな: 女子高生人工知能. Proc. of NLP. 磯 et al. 2013. 「音声アシスト」の音声認識と自然言語処理の開発. 音声言語情報処理研究会. 鹿野 et al. 2012. 音声情報案内システム「たけまるくん」の運用. 情報処理学会全国大会吉村. 2012. しゃべってコンシェルと言語処理. 音声言語情報処理研究会. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

42.

参考文献 • Akasaki and Kaji. 2017. Chat Detection in an Intelligent Assistant, • Ballegarda. 2014. Spoken Language Understanding for Natural Interaction: The Siri Experience. Natural Interaction with Robots, Proc. of ACL. Knowbots and Smartphones. • • • • 42 Sano et al. 2016. Prediction of Prospective User Engagement with Intelligent Assistants. Proc. of ACL. Sano et al. 2017. Predicting Causes of Reformulation in Intelligent Assistants. Proc. of SIGDIAL. Sarikaya. 2017. The Technology Behind Personal Digital Assistants. IEEE Signal Processing Magazine. Wallace. 2009. The Anatomy of A.L.I.C.E. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.