ボイスボット勉強会資料

15.7K Views

May 23, 24

#generative ai #ai #machine learning #deep learning #artificial intelligence #生成AI #ボイスボット #LangCore #低レイテンシー #RAG

スライド概要

Kunihiro Sugiyama

@KunihiroSugiyama

スライド一覧

Generative Ai Study Group Master

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

公開用のLangCore会社紹介資料

Kunihiro Sugiyama 25K

Generative AI Study Group_2ndSesssion_20230620

ai generative ai artificial intelligence machine learning deep learning

Kunihiro Sugiyama 18.1K

Generative AI Study Group_11thSesssion_20231114

ai generative ai machine learning deep learning artificial intelligence

Kunihiro Sugiyama 17.1K

Generative AI Study Group_FirstSesssion_20230606

ai generative ai artificial intelligence machine learning deep learning

Kunihiro Sugiyama 16.9K

Generative AI Study Group_振り返り会

ai generative ai machine learning deep learning artificial intelligence

Kunihiro Sugiyama 16.5K

Generative AI Study Group_3rdSesssion_20230704

ai generative ai machine learning deep learning

Kunihiro Sugiyama 16.3K

各ページのテキスト

生成AIボイスボットコールセンターからAIキャラまで生成AIの社会実装に向けたレポート 2024年4月 | 株式会社LangCore

会社概要会社名株式会社LangCore 本社所在地〒135-0061 東京都江東区豊洲3-4-2-N2214 代表氏名北原麦郎 / 高木陽介事業内容システム受託開発, 生成AI活用・技術コンサルティング従業員数 30名(業務委託含む)

事業紹介伴走型システム開発活用・技術コンサルティング Big4や大手コンサルファーム出身のコンサ元CTO経験者、大手企業テックリード、ルタントが、自社の業界での国内外の活用 AI領域のR&D経験者などフルスタックエ事例が知りたい、生成AIについてスポットンジニアが新規プロダクトの開発に伴走で技術的な相談をしたい、生成AIを使ってし、チームの一員のような動きで開発を業務効率化をしたい等のニーズをお持ちのリードします。クライアント様に対して課題解決に伴奏します。

経営陣紹介北原麦郎 Co-CEO/ CTO 年東京大学大学院工学系研究科を卒業後、フリーランスとして複数のスタートアップでエンジニアとして開発を担当。2020年2月デロイトトーマツコンサルティングにてDXを推進する部隊にてシニアソフトウェアエンジニアとして従事。その後株式会社LangCoreを創業。 2019 高木陽介 Co-CEO/ COO 同志社大学理工学部を卒業後新卒で楽天に入社し、楽天モバイル部門RFエンジニアとして無線基地局エンジニアリング部隊の立ち上げに従事。その後、 HRBrainにソフトウェアエンジニアとして移籍。インフルエンサーエージェンシー事業の合同会社EverLiveを創業し、2022年5 月にM&Aでイグジット。2023年に株式会社LangCoreを共同創業。

目次 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善

目次: はじめに ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善

OpenAIからGPT-4oが発表高性能なボイスボットが発表され、リアルタイム翻訳や感情的な表現、カメラを見ながら操作をアシスタントするデモが公開されましたリアルタイムで自然な会話高速かつ中断可能な対話感情認識ユーザの感情を認識感情出力喋り方に感情があるゆっくり喋ったり、歌うこともできる映像認識映像と音声を同時に認識

1から10の数字をかぞえる。スピードも変えられる「もっとゆっくり数えて」

面接の練習。感情豊かに笑い出す面接に帽子を被ったらどうかとジョークを言うと、AIが笑い出す

10.

リアルタイム翻訳二人が外国語を喋っていても、AIがリアルタイムに翻訳をする

11.

生成AIを使ったボイスボットが注目されている理由生成AIを活用したボイスボットが様々な業界で課題解決ができる可能性を秘めており、注目されています。活用シーン例サポートセンターエンターテイメント自動予約受付 AIを自動応対に用いるメリット自然な会話体験: 生成AIを活用することで、ユーザーとより自然で人間らしい会話が可能になります。これにより、ユーザーの満足度が向上し、エンゲージメントが高まります。幅広い質問への対応: 生成AIは、事前に定義された回答だけでなく、文脈を理解して適切な応答を生成できます。これにより、ユーザーからの多様な質問にも柔軟に対応できます。

12.

実用的な生成AIボイスボットの構築が難しい理由生成AIを活用したボイスボットの構築、および実導入には様々なハードルがあり、これらを解決するハードルが高いのが現状です。高いレイテンシー: ドメイン固有の知識の欠如: ユーザーとのリアルタイムな会話に遅延が生じ、会特定のドメインや企業固有の情報に対応するた話に待ちが発生することでユーザーエクスペリエンめには、DBとの接続や追加のトレーニングやデスが損なわれます。ータ統合が必要です。技術選定の難易度が高い: ボイスボットを構築するにはLLMだけでなく複数の技術を組み合わせる必要があります。全ての構成要素をリサーチ・比較検討するコストが高いことも一つの要因です。ボイスボットに要求される即時性と正確性の両立: リアルタイムな応答と高い正確性を両立することは技術的に難しく、応答速度と情報の正確さのトレードオフが課題となります。

13.

本書の概要本書では、生成AIを用いたボイスボット構築におけるアーキテクチャの解説を行っています。ボイスボットの構築は、目的と機能の明確化(要件定義)→各テクノロジーの選定→音声エンジンの構築→RAGを用いた回答生成方法の検討→エージェントの構築→動作テスト・改善の流れで実装を進めていきます。本書では特に、生成AIを活用した応答の高速化手法に焦点を当てています。生成AIを用いた応答文生成では、ユーザー発話の意図理解結果をプロンプトとして生成AIに入力し、文脈に即した自然な応答文を生成しますが、処理時間が長くなる課題があります。これを推論処理の並列化などのアプローチで初期応答までの時間を短縮した、LangCoreが独自に開発した手法を紹介します。これらの手法を適用することで、生成AIを用いたボイスボットの応答速度を実用レベルまで高速化することが可能になります。本書が、企業の皆様のボイスボット開発の一助となれば幸いです。

14.

目次: 目的と機能の明確化 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善

15.

目的と機能の明確化ボイスボットは様々なシーンで導入が可能ですが、何を目的にしているのかによって重要視するポイントや目標、必要機能が変わります。目的(例) 目標基本機能顧客サポート(CS) 応答時間の短縮、顧客満足度の向上 FAQの自動回答、問題のトラブルシューティング、サポートチケットの作成予約・予定の受付予約手続きの簡素化、利用者の時間管理のサポート予約の受付と管理、予約変更とキャンセル、リマインダーの設定エンターテインメントユーザーエンゲージメントの強化、コンテンツへのアクセス促進楽しい会話、ゲーム、コンテンツへの案内知識の提供、学習体験の向上言語学習、一般知識のクイズ、学習コンテンツへの案内個人の生活や業務の効率化スケジュール管理、リマインダー設定、天気予報、ニュースの提供教育・学習パーソナルアシスタント

16.

目次: テクノロジー選定 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善 ⑧ 活用事例

17.

テクノロジー選定ボイスボット構築の検討段階で以下の各技術要素を検討・決定していきます ① 音声認識(Speech To Text) ② 合成音声(Text To Speech) ③ 対話エンジン(LLM) ④ クラウドサービス ⑤ インターフェイス(IVR, Web, アプリ, ロボット) ※ 本書では合成音声の技術調査を表にまとめて記載しております。

18.

テクノロジー選定合成音声(LangCore調査) 料金 Coefont 問い合わせ話者 (日本語) 多数品質外国語対応辞書機 AP 導入コ能 I スト感情音声パラメータ調整 X 速度. ピッチ, イントネーショ O ン, ポーズ O 低中上 O X X O 低備考カスタム音声機能有り(few-show model)APIを利用すると数百万レベルの課金Few-shot modelの場合音質は微妙。Response速度が遅い Coestation 77000円/10万req/月 13話者から2話者選択中中米、英、独、仏、西、米西、加仏、北京、広東、韓1話者追 X 加毎に55000円 ReadSpeaker 問い合わせ 30~?話者中中 44ヵ国語対応 X 速度. ピッチ. ボリューム X? O 低 Voicepeak 30000円 (買い切り) 6話者高中 X 幸せ、悲しみ、怒り、楽しみ速度, ピッチ, ポーズ. 音量 ◯ X 高 AI.Voice biz 60000円/5万req/月 21話者低上 X 怒り、悲しみ、喜び (連続値) 速度, ピッチ, イントネーショ ◯ ン O 低 openai $0.015 / 1K characters 6話者中下 O X X X O 低 multilingual fundation modelを利用している可能性があり、日本語の声質(アクセント、イントネーション)が悪い Voicebox 無料 40話者中中 X O (キャラによって異なる) 速度, ピッチ, イントネーショ O ン O 中 Package配布のためサービング環境を構築/運用する必要あり無料で商用利用できるのは大きい CLOVA voice 90000ウォン(1,00万文字以下) 12話者中上韓国語、英語、中国語、台湾語、スペイン語 X 速度, ピッチ, イントネーショ X ン O 低 openAIと比較すると5倍くらいの値段、高い音質はそこそこ良い Google Text-tospeech Wavenet: 毎月100万文字無料その wavenet: 4話者Neural2: 他(Neural2, Basic): 毎月400万文中上 3話者Basic: 4話者字無料 40言語以上 X 速度, ピッチ, ボリューム, SSML対応 X O 低 grpcAPI提供されているNeural2モデルの音質そこそこいい Azure AI speech 毎月500万文字まで無料(東日本 region) 7話者上下 40言語以上 △ 話者による SSML対応 O O 低 Amazon Polly 毎月500万文字まで無料 5話者上下 40言語以上 △ 話者による SSML対応 O O 低 ElevenLabs 毎月1万文字まで無料(5$で3万文 28話者字,22$で10万文字) 上下 29言語 X X X O 低 IBM watson 毎月1万文字まで無料(以後1000 文字あたり0.02ドル) 1話者中中日本語他9言語 X X X O 低 Web Speech API Speech Synthesis 無料 1話者下中 10言語~? X 速度, ピッチ, ボリューム X O 低 API提供無しCLI clientが提供されているのでAPI作成/運用する必要あり商用利用可能 multilingual modelを使っているため、音質良くてもところどころ日本語アクセントなどがきになる。カスタムTTSあり HMM音声合成なので品質はかなり悪い。 Client sideで動くため高速/軽量であるが自由度もかなり低い

19.

目次: 低レイテンシーの音声エンジンの構築 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善

20.

低レイテンシーの音声エンジンの構築並列に処理を走らせることで応答速度を向上し、自然な会話スピードを実現します。よくある遅いボイスボット = 直線的に処理を行っているユーザの発話音声認識 RAG + LLM TTS 3秒 8秒 3秒ストレスのない速度のボイスボット = 複層的に処理を行っているユーザの発話 LLM 8秒音声認識 TTS 3秒関連知識検索 1秒 0.3秒返答返答

21.

RAG+ボイスボットのソフトウェアアーキテクチャ無音になったことを通知して処理を開始 VAD処理 or ベクトル化常時取得関連知識音声認識処理発話 → 回答音声 ← 音声再生 LLM処理検索処理(RAG) 音の有無の認識関連知識の取得 T T 音声認識結果 text text 音声→文字への変換会話エンジン ↙︎ 回答作成 ← 音声作成合成音声処理 T→ text 文字→音声への変換

22.

低レイテンシーの音声エンジンの構築低レイテンシーの音声エンジンを構築するためには、下記の評価指標に着目し改善する必要があります。技術要素 Key Performance Indicator (KPI) 説明音声認識発話完了から最終結果までの時間 VADで発話完了を検出してから、最終の音声認識結果が返ってくるまでの時間リアルタイム性途中結果と最終結果の類似度（高いほど良い）検索の速さ音声認識が完了するまでに検索が完了しているかどうか最初のチャンクの生成速度 LLMへのリクエストを送信してから、発声可能な最初のチャンクが返ってくるまでの時間音声合成の速さテキストを音声合成エンジンに送信してから、合成音声が返ってくるまでの時間（ネットワーク遅延を含む）Initial Latency + RTF 検索(RAG) LLM 合成音声

23.

音声認識の検証方法おはようございます VAD(音の有無を測定) から結果が返ってくるまでの時間を測定する発話 → 発話終了(VAD判定) start → 音声認識結果 end 開始と終了で何秒だったかを測定発話発話終了 VAD判定音声認識処理音声認識結果おはようございます音の有無の判定 Speaking or Silence 時間を計測

24.

合成音声の検証方法合成音声処理音声ファイル 10文字程度の文章時間を計測一般的に「RTF」でモデルの速度指標を利用することが多いが、実利用では「ネットワークレイテンシー」や「モデルの起動時間」も重要であるため、再生するための音声ファイルが作成されるまでの時間を測定 ※ RTF = 1秒の音声を生成するのにかかる時間

25.

検索(RAG)の検証方法テキストを送ってから結果が返ってくるまでの時間を測定しますテキストのベクトル化ベクトル検索 LLMへテキスト送付結果返却この時間を計測

26.

LLMの検証方法こんにちは、よろしくお願いしますテキスト送付こんにちは、こちらこそお願いします LLM処理会話エンジン最初の文字が何秒で返ってくるかを計測最終的に「こんにちは、こちらこそお願いします」という文章が返ってくる時に「こんにちは」を先に発話させます。よって「こんにちは」という最初のフレーズが来るまでの時間が重要です。 ※ 「最初のフレーズ」を測定対象とするとLLMの確率的な振る舞いから毎回フレーズが変わるため測定が難しいため「最初の1文字目」を測定します。

27.

LLMの検証方法(補足) 各LLMモデルごとの最初のチャンクが返ってくるまでの時間は比較できるサイトがあるので、こちらを参考にモデルを選択します。 https://artificialanalysis.ai/models

https://artificialanalysis.ai/models

28.

低レンテンシーの音声エンジンの構築 💡ボイスボットの動作を高速化する要点 ① 高速かつ日本語に特化したTTSモデルの採用 ② TTSで生成した音声ファイルのネットワークレイテンシの最小化 ③ 対話システムの最適化 ④ LLM APIとの間にキャッシュ層を追加

29.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) 音声認識から合成音声の出力まで、低遅延かつ自然な会話が実行されるよう、各技術要素を最適化します。音声認識 Speech To Text リアルタイムの音声認識会話エンジン LLM フィラー作成返答文章作成タスク分類合成音声 Text To Speech ストリーミング音声合成

30.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話御社のサービスに登録をしたいのですが、どうすればいいですか？フィラー選定第一声返答作成メイン返答作成音声取得音声作成ありがとうございます時間音声作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

31.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。 Point1 リアルタイムでの音声認識を実施御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話御社のサービスに登録をしたいのですが、どうすればいいですか？フィラー選定第一声返答作成メイン返答作成音声取得音声作成ありがとうございます時間音声作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

32.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 Point2 発話の初期段階でフィラー(相槌)を選定御社のサービスに登録をしたいのですが、どうすればいいですか？フィラー選定第一声返答作成メイン返答作成音声取得音声作成ありがとうございます時間音声作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

33.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話御社のサービスに登録をしたいのですが、どうすればいいですか？フィラー選定 Point3 録音済みのフィラーを取得し、ユーザの発話が終わり次第即座に返答第一声返答作成メイン返答作成音声取得音声作成ありがとうございます時間音声作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

34.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 Point4 句読点が発生したら途中段階で返答文章を御社のサービスに登録をしたいのですが、どうすればいいですか？作成する。フィラー選定第一声返答作成メイン返答作成音声取得音声作成ありがとうございます時間音声作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

35.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話御社のサービスに登録をしたいのですが、どうすればいいですか？フィラー選定 Point5 フィラーや相手の発話中に返答文の音声を作成するメイン返答作成第一声返答作成音声取得音声作成ありがとうございます時間音声作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

36.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話 Point6 相手の発話が終わってからメインの返答文章を構築する御社のサービスに登録をしたいのですが、どうすればいいですか？フィラー選定第一声返答作成メイン返答作成音声取得音声作成ありがとうございます時間音声作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

37.

低レンテンシーの音声エンジンの構築 (対話システムの最適化) ユーザの対話とボイスボットを構成する各システムの挙動のイメージになります。御社のサービスに登録をしたいのですが、どうすればいいですか？音声認識 Speech To Text 会話エンジン LLM 合成音声 Text To Speech ボイスボットの発話御社のサービスに登録をしたいのですが、どうすればいいですか？フィラー選定第一声返答作成メイン返答作成音声取得音声作成ありがとうございます時間音声作成 Point7 ストリーミングから音声を作成音声作成登録についてのお問い合わせですね。音声作成登録方法については、

38.

システム開発時のアーキテクチャ(例) クラウド上にシステムを構築することで、スケールするシステムを構築します IP Azure Inbound Media Stream websocket Realtime STT Cache Gateway Server VectorDB User Outbound Media Stream websocket TTS Server on GPU

39.

目次: RAGによる独自データ対応と回答精度の改善 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応と回答精度の改善 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善

40.

RAGによる独自データ対応と回答精度の改善生成AIで作られた回答は自社データを持っていませんが、RAGにより自社DBと LLMを接続し、独自データを持った回答を生成させます。

41.

RAGによる独自データ対応と回答精度の改善 RAGの各要素を多角的に改善することで、ユーザーの期待に応える高品質な回答を生成できるようにします。チャンク作成 OCR データ加工クレンジングメタデータ分割方法ナレッジグラフチャンク評価自動生成全文検索ベクトル検索ハイブリッド SQL検索ワード生成 HyDE 同時検索検索手段の自動切替英語での指示ハルシネーション対策 Few Shot フォローアップ回答選択 LLM比較メタデータ参照 Fine-tune Hit Rate MRR Recall LLM評価 ragas Prompt Flow ログ収集フィードバック検索回答生成性能評価

42.

目次: マルチファンクションのエージェント構築 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レンテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善

43.

マルチファンクションのエージェント構築ユーザのリクエストに対する対応を高速に行うために、処理をエージェントによって振り分け、並列に処理します。タスクを分類し適切な分岐を行う役割エージェントデータ登録登録 Q&A回答取得オペレータへ転送

44.

目次: テストと改善 ① はじめに ② 目的と機能の明確化 ③ テクノロジー選定 ④ 低レイテンシーの音声エンジンの構築 ⑤ RAGによる独自データ対応 ⑥ マルチファンクションのエージェント構築 ⑦ テストと改善

45.

テストと改善ユーザ体験を向上させるためPDCAを回してシステムを改善させます。具体的には、下記のような施策を行います。会話ログの分析ユーザ評価に基づく自動学習ハルシネーション対策プロンプトのリグレッションテストキャッシュによる高速化対話フローの最適化

46.

最後に株式会社LangCoreでは生成AIの導入支援、技術コンサルティング、および開発支援を提供しております。ボイスボットの構築やその他導入支援・技術支援についてはお問い合わせください。 AI 活用の前準備 AI 活用の戦略・中期目標策定環境の構築設計現状分析、課題発見社内アンケート調査設計過去のプロジェクトの知見の共有 AI Azure OpenAI KPI 活用支援生成AI活用研修の実施プロンプト作成国内外の活用事例リサーチ社内用チャットボットの構築 AI導入後の業務フローの設計実証実験の実施開発・技術支援プロダクトのアーキテクチャ設計技術アドバイザリーシステム開発業務改善・DXコンサル上記を月額20万円からご支援しております

47.

URL: https://corp.langcore.org MAIL: [email protected]

https://corp.langcore.org/