音声対話モデル2025-26

文献報告音声対話モデル 2026/01/19 対話班 M1 阿部雄斗

音声対話 API が2025年出現＆進化 Realtime API Grok Voice Agent API Gemini 2.5 Flash Live API Amazon Nova 2 Sonic(英語のみ)

音声対話をメインに扱うSaaSの会社も増加 IVRy amptalk PKSHA Omakase ai 3

音声対話モデルの研究 • カスケード型：音声→ASR→テキスト→LLM→テキスト→TTS→音声 • GPT-Realtimeをはじめ，多くが社会実装され，かなり実用的． • 特徴：音声はテキスト化されたのち，処理されている． • 応用研究寄り：対話戦略を柔軟に組み込める ➡ そこに工夫の余地がある． • フルデュプレックス型：音声→ALLM→音声 • 音声を完全にテキストにすることなく，中間状態でLLMに理解させるという取り組み． • 例：dGSLM，Moshi，SyncLLM，SALMON-omni，OmniFlatten，SALM-Duplex… • メリット • 音声をテキストに変えることによる情報消失を防げる． • 完全なテキスト化は行わないので，レイテンシが低い． • デメリット • 音声とテキストのアライメント問題を解決しているものはあまりなく， LLMの忘却が大きい． • 基礎研究寄り：LLMの忘却をどう抑えるか．& どう制御するか． 4

5.

目次 1. フルデュプレックスモデルの基本構造 • WavChat ：サーベイ論文 • 音学シンポジウム2025の小松さんの資料 2. フルデュプレックスモデルの具体例 • OmniFlatten • SALM-Duplex ：10分：10分 3. フルデュプレックスモデルの評価はどうあるべきか：10分 • FD-Bench • Full-Duplex-Bench-v2 • (Full-Duplex-Bench, GPT-Realtime を測る指標) 4. 最新動向：10分 • Sakana AIの Speech-to-Speech モデル(KAME)：Fast-and-Slow の考えを体現 5

6.

WavChat : A Survey of Spoken Dialogue Models Shengpeng Ji¹ Yifu Chen¹ Minghui Fang¹ Jialong Zoo¹ Jingyu Lu¹ Hanting Wang¹ Ziyue Jiang¹ Long Zhou² Shujie Liu² Xize Cheng¹ Xiaoda Yang¹ Zehan Wang¹ Qian Yang¹ Jian Li⁴ Yidi Jiang³ Jingzhen He² Yunfei Chu² Jin Xu² Zhou Zhao¹ ¹ Zhejiang University ² Microsoft ³ Alibaba Group ⁴ Tencent YouYu Lab 2024/11 6

https://arxiv.org/abs/2411.13577

7.

WavChat : A Survey of Spoken Dialogue Models 出典：https://arxiv.org/pdf/2411.13577 7

8.

WavChat : A Survey of Spoken Dialogue Models (a) LTU-AS Qwen-Audio1,2 SALMON ParalinGPT (b) Speech-GPT EMOVA GLM-4-Voice (c) SpiritLM USDM (d) PSLM Llama-Omni Moshi Mini-Omni (e) SyncLLM IntrinsicVoice Align-SLM Twist 出典：https://arxiv.org/pdf/2411.13577 8

9.

WavChat : A Survey of Spoken Dialogue Models Moshi のように，テキストと音声を時間方向上に並行に並べる場合に，音声トークンとテキストトークンをどうアライメントをとるかという話．：TASLA(2025/10) 出典：https://arxiv.org/pdf/2411.13577 9

10.

WavChat : A Survey of Spoken Dialogue Models 出典：https://arxiv.org/pdf/2411.13577 10

11.

WavChat : A Survey of Spoken Dialogue Models 強化学習が有効という話．：Omni-R1(2025/06) 出典：https://arxiv.org/pdf/2411.13577 11

12.

出典：https://github.com/ryota-komatsu/slp2025/blob/main/slp2025-tutorial.pdf 2025/6/13 12

https://github.com/ryota-komatsu/slp2025/blob/main/slp2025-tutorial.pdf

13.

出典：https://github.com/ryota-komatsu/slp2025/blob/main/slp2025-tutorial.pdf 13

https://github.com/ryota-komatsu/slp2025/blob/main/slp2025-tutorial.pdf

14.

出典：https://github.com/ryota-komatsu/slp2025/blob/main/slp2025-tutorial.pdf 14

https://github.com/ryota-komatsu/slp2025/blob/main/slp2025-tutorial.pdf

15.

目次 1. フルデュプレックスモデルの基本構造 • WavChat ：サーベイ論文 • 音学シンポジウム2025の小松さんの資料 2. フルデュプレックスモデルの具体例 • OmniFlatten • SALM-Duplex ：10分：10分 3. フルデュプレックスモデルの評価はどうあるべきか：10分 • FD-Bench • Full-Duplex-Bench-v2 • (Full-Duplex-Bench, GPT-Realtime を測る指標) 4. 最新動向：10分 • Sakana AIの Speech-to-Speech モデル(KAME)：Fast-and-Slow の考えを体現 15

16.

https://omniflatten.github.io/ OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation Qinglin Zhang, Luyao Cheng, Chong Deng, Qian Chen, Wen Wang, Siqi Zheng, Jiaqing Liu, Hai Yu, Chaohong Tan Tongyi Lab ACL 2025 16

17.

概要 • • • • • • Qwen2-0.5B をFine-tuning Moshiより英語で優位． LLaMA-Omniより中国語で優位．平均応答時間：OmniFlaten 193ms vs Moshi 553ms SyncLLMより音声品質・同時生成能力で優位． 3 段階のカリキュラム学習（ASR/TTS➡ターン型➡フルデュプレックス型）限界 • モデル規模・データ量が小さく，チャット能力や応答速度に改善余地あり． 17

18.

音声トークナイザ： CosyVoice 40ms/token 全体アーキテクチャ 18

19.

3 段階のカリキュラム学習 ①ターンベースの学習 ● ● ● ユーザーの音声/テキストと，アシスタントの音声/テキストの， 4 ストリームをフラット化． ASR→テキスト応答→TTSの順で学習． 100k hours(3割オープンデータ) ②フルデュプレックスベースの学習 ● ● ● ユーザーテキストストリームを除去し，ユーザ音声と，アシスタントテキスト/音声の3ストリームで学習．チャンク単位で交互にフラット化し，リアルタイムストリーミングを実現． 390k 対話➡2000時間 19

20.

3 段階のカリキュラム学習 ③フルデュプレックスベースの学習 ● アシスタントのテキストストリームも除去し，音声-音声の2ストリームで学習． ● 純粋な音声間生成能力を強化． ● ②と同じデータである，2000時間 20

21.

音声対話データ合成 21

22.

音声対話データ合成対話テキストの生成 & TTS ユーザはランダム話者，システムは固定話者．ユーザー音声にノイズを加え， 2ch 音声データを生成シングルターン WAVを連結し，割り込みや沈黙などの動態をシミュレート． 22

23.

ASRとTTSについての評価 ASR TTS Librispeech/WenetspeechでのWER/CER を評価． LibriTTS/AIShell-3でのWER/CERを評価． Whisperモデルよりは劣るが，VITAより優れるケースも存在． ChatTTSより良好．OriginalやCosyVoiceには及ばず． UTMOSスコアも高く，自然な音声品質．モダリティアライメントで音声理解能力を獲得． 23

24.

多段階学習の効果・チャット能力についての評価 LLM-AJ：多段階学習でチャット能力が向上．2ストリームのみだと性能低下． Moshi より応答時間が大幅短縮，ターン交代精度も向上． 24

25.

https://anonymous598e.github.io/INTERSPEECH2025-DEMO/ Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model Ke Hu∗1 , Ehsan Hosseini-Asl∗1 , Chen Chen∗1 , Edresson Casanova1 , Subhankar Ghosh1 , Piotr Zelasko ˙ 1 , Zhehuai Chen1 , Jason Li1 , Jagadeesh Balam1 , Boris Ginsburg1 1NVIDIA, USA Interspeech 2025 25

26.

アーキテクチャ事前学習済みのエンコーダ(CTCベース)を使うことで，音声-テキストの事前学習を不要にした． TinyLlama-1.1B-chatが初期LLMモデル． 26

27.

アーキテクチャ事前学習済みのエンコーダ(CTCベース)を使うことで，音声-テキストの事前学習を不要にした． TinyLlama-1.1B-chatが初期LLMモデル． Moshi との違い LLM は(相槌を含め) 「何を言うか」は決めるが，「どう音声として振る舞うか」は決めていない． 27

28.

独自のコーデック(Personalized NanoCodec)を採用 NanoCodecを特定の話者でfine-tuningすることで，低ビットレートながら，最も良い評価．余談：2026/01/16に公開した https://github.com/NVIDIA/personaplex にもその傾向が見られる． 28

https://github.com/NVIDIA/personaplex

29.

学習データ • 音声-テキストの事前学習をスキップしているため，データ量は少なくて済む． • ASR-QA (20k hours): 公開データおよび自社データのASRラベル付き音声から， LLMを使用して生成された合成質疑応答データ． • マルチターン対話 (3 k hours): テキストベースの対話データ（Internal SFT）をTTSで音声化． • 日常会話 (3.3 k hours): UltraChatやTopicデータセットを基に， Llama-3.1などのモデルを用いて生成された4ターンの会話データ 29

30.

デュプレックス対話の作成する工夫 • 割り込み（Barge-in）の再現: エージェントが話している途中でユーザーが話し始めた場合に，エージェントの音声を途中でカットし，その後の遅延を考慮した無音を挿入することで，自然な割り込み挙動を学習． • • ターン間の制御: ユーザーが話し終えてからエージェントが話し始めるまでの間に 0.64秒の無音を挿入し，誤った割り込みを防ぎつつ低遅延な応答を両立． 30

31.

評価 Impatient はユーザが頻繁に割り込む状況を想定したデータセット 31

32.

目次 1. フルデュプレックスモデルの基本構造 • WavChat ：サーベイ論文 • 音学シンポジウム2025の小松さんの資料 2. フルデュプレックスモデルの具体例 • OmniFlatten • SALM-Duplex ：10分：10分 3. フルデュプレックスモデルの評価はどうあるべきか：10分 • Full-Duplex-Bench-v2 • FD-Bench • (Full-Duplex-Bench, GPT-Realtime を測る指標) 4. 最新動向：10分 • Sakana AIの Speech-to-Speech モデル(KAME)：Fast-and-Slow の考えを体現 32

33.

Full-Duplex-Bench-v2: A Multi-Turn Evaluation Framework for Duplex Dialogue Systems with an Automated Examiner Guan-Ting Lin¹ Shih-Yun Shan Kuan¹ Jiatong Shi² Kai-Wei Chang³ Siddhant Arora² Shinji Watanabe² Hung-yi Lee¹ ¹ National Taiwan University ² Carnegie Mellon University ³ Massachusetts Institute of Technology 2025/10 33

https://arxiv.org/abs/2510.07838

34.

概要 • フルデュプレックスモデルの発展により，対話音声を1モデルが合成できるようになった． ➡ 対話音声をどう評価するか，という問題． • フルデュプレックスモデルの評価を目的としたシステムの提案． • 人間が評価するように，モデルのマルチターン対話を評価する． • GPT-Realtime, Moshi, Freeze-Omni，の3モデルを評価 • Examiner と Evaluatee に分かれて評価する． • ※ただの音声QAではないベンチマークがよい． 34

35.

Full-Duplex-Bench-v2：概要 https://github.com/DanielLin94144/Full-Duplex-Bench 試験官役のAI(GPT-Realtime)が，レストラン予約などの複数ステップからなるタスクをテスト対象のAIとリアルタイムでストリーミングマルチターン会話を行う． ①Turn-Taking，②Instruction-Following，③Task-Specific Goal の観点で評価． 1.日常 2.訂正 3.Entity追跡 4.安全性

https://github.com/DanielLin94144/Full-Duplex-Bench

36.

Full-Duplex-Bench-v2：評価① TTはどのモデルも時間がたつとスコアが下がる．IFはタスクによる．

37.

Full-Duplex-Bench-v2：評価② GPTでも満点ではない．記憶力が必要なタスクのEntityでは，Moshiはガクっと下がっている．

38.

Full-Duplex-Bench-v2：まとめ ● ● ● ● ● AIが苦手なことは， ○ ①話が途中で変わる「訂正」と ○ ②話の流れを覚えておく「Entity追跡」である．会話のペースをゆっくりにすると，考える余裕ができて，スコアが上がる．時間がたつと（=マルチターンを経ると），スコアが下がる．参考にできる点： ○ 「訂正」と「Entity追跡」をする会話をGPT-Realtimeを行わせて評価する． ○ 本論文にはないが，「話題転換」についてこれるか，の指標も有れば良さそう． ○ ➡Moshi-ServerとGPT-RealtimeをWebRTCで接続するフレームワークを実装する必要．

39.

FD-Bench: A Full-Duplex Benchmarking Pipeline Designed for Full Duplex Spoken Dialogue Systems Yizhou Peng, Yi-Wen Chao, Dianwen Ng, Yukun Ma, Chongjia Ni, Bin Ma, Eng Siong Chng 1Alibaba-NTU Global e-Sustainability CorpLab, Nanyang Technological University, Singapore 2College of Computing and Data Science, Nanyang Technological University, Singapore 3Alibaba, Alibaba Inc., Singapore ACL 2025 39

https://www.isca-archive.org/interspeech_2025/peng25b_interspeech.pdf

40.

LLM・TTS・ASRを統合し，より自然で人間らしい対話能力を測定主観評価 (LLM-AJ, PPL) 対話テキストの生成 TTS・ MUSANから多様な話者や騒音環境を再現 Whisperで ASR・SileroVAD でタイムスタンプ取得客観評価 40

41.

ユーザの割り込みに対する堅牢性 • 割り込みの難易度で，E, M, H．(SRR 下がっていく．) • MoshiがSRR（正常応答率）やSIR（割り込み成功率）で優位：割り込みを学習しているため． • Moshiは割り込み遅延（IRD）が低い一方，全体的な応答の速さ（FSED）ではFreeze-omniの方が速い． 41

42.

ノイズ環境に対する堅牢性 • • • • 背景ノイズがシステムに与える影響を評価 Gap noise（発話間のノイズ）: ユーザーの発話がない区間に挿入されるノイズ（ID: 6） Background noise（背景ノイズ）: 会話全体に重畳されるノイズ（ID: 7） SNR（信号対雑音比）: 0dB(ノイズ大)，10dB，20dB(クリア)の異なるレベル 42

43.

ノイズ（背景雑音や発話間の突発的なノイズ）環境に対する堅牢性 • 発話間のノイズ（Gap noise）への反応: MoshiとVITA-1.5はノイズをユーザーの入力と誤認して反応する率（NIR）が上昇するが，Freeze-omniは高いVADしきい値により比較的安定． • 背景ノイズの影響: 背景ノイズが強くなる（SNRが低くなる）とすべてのシステムで主観的スコア（Score）が著しく低下．➡ ノイズが音声のフィルタリングや内容の理解を困難にすることを示唆． • Moshiの特性: 背景ノイズ下では，Moshiはノイズをユーザー入力と誤認しやすくなり，応答のタイミング（FSED）が早まる傾向が見られる． 43

44.

指標とまとめ SRR / SIR / SRIR: ユーザーの発話や割り込みに対して、システムがどれだけ正しく反応・中断・再開できたかの割合． IRD / FSED / ERT / EIT: 応答の遅延や早すぎる応答のタイミングをミリ秒単位で測定したもの． Score: GPT-4oによる「関連性」「創造性」など6項目に基づいた10段階の主観評価スコア C-PPL: Llama3を用いて，応答が文脈にどの程度適合しているかを測定した言語的指標 ➡頻繁な割り込みや騒がしい環境下では依然として大きな課題を抱えている． 44

45.

GPT-Realtimeの評価 OpenAI 2024/10 APIのドキュメント：https://platform.openai.com/docs/guides/realtime 45

46.

評価 • Big Bench Audio • 音声入力をサポートする言語モデルの推論機能を評価する評価データセット • 高度な推論を厳密にテストするために選ばれた Big Bench Hard からの質問を音声ドメインに適合 • MultiChallenge の音声ベンチマーク • 指示への追従の精度を測定する • FunctionCalling • 呼び出される関数の妥当性、呼び出しの適時性、さらに適切な引数による呼び出し（精度の向上を可能にする）の3本の軸 46

47.

目次 1. フルデュプレックスモデルの基本構造 • WavChat ：サーベイ論文 • 音学シンポジウム2025の小松さんの資料 2. フルデュプレックスモデルの具体例 • OmniFlatten • SALM-Duplex ：10分：10分 3. フルデュプレックスモデルの評価はどうあるべきか：10分 • Full-Duplex-Bench-v2 • FD-Bench • (Full-Duplex-Bench, GPT-Realtime を測る指標) 4. 最新動向：10分 • Sakana AIの Speech-to-Speech モデル(KAME)：Fast-and-Slow の考えを体現 47

48.

KAME: TANDEM ARCHITECTURE FOR ENHANCING KNOWLEDGE IN REAL-TIME SPEECH-TO-SPEECH CONVERSATIONAL AI So Kuroki, Yotaro Kubo, Takua Akiba, Yujin Tang Sakana AI, Tokyo, Japan 2025/10 48

http://arxiv.org/abs/2510.02327

49.

概要 • Sakana AI が出した，Speech-to-Speech 対話モデル． • Fast-and-Slow の考えが体現されている． • Unmuteに匹敵するスコアを出しながら，レイテンシもMoshiと同等にすることを達成． 49

50.

提案されたアーキテクチャ 50

51.

参考：Moshi のトークンの扱い方 51

52.

学習時の対話データ例広告規制機関は、広告が危険な行為を助長してはならないと勧告している一般論詳細．同意ああ、そうだ。安全でない慣行のことか … 反応 52

53.

模擬オラクルの生成 • 2者間対話データセット（ユーザーの入力と正解の応答が含まれるもの）を，リアルタイムLLMの挙動を模倣するように変換． • 段階的な洗練（Progressive Refinement）: ユーザーの発話が進むにつれて，オラクルテキストが徐々に正確になり，最終的に正解の応答に収束するようにシミュレート． • ヒントレベル（Hint Levels）の設定: ユーザーの入力の完成度（聞いた単語の割合）に基づきシュミュレーターLLMに対して0から5までのヒントレベルを設定してプロンプトを与える． • レベル0: 入力が半分未満の時，ヒントなしでもっともらしい文を生成させる． • レベル1-4:入力が進むにつれ，履歴と正解応答を「ヒント」として与え，徐々に正解に近い内容を生成させる． • レベル5: 入力完了時，正解応答をそのままオラクルとして使用．入力量 53

54.

模擬オラクルの生成 2者間対話データセット（ユーザーの入力と正解の応答が含まれるもの）を，リアルタイムLLMの挙動を模倣するように変換． • 段階的な洗練（Progressive Refinement）: ユーザーの発話が進むにつれて，オラクル・テキストが徐々に正確になり，最終的に正解の応答に収束するようにシミュレート． • ヒントレベル（Hint Levels）の設定: ユーザーの入力の完成度（聞いた単語の割合）に基づき，シュミュレーターLLMに対して0から5までのヒントレベルを設定してプロンプトを与える． ◦ レベル0: 入力が半分未満の時，ヒントなしでもっともらしい文を生成させる． ◦ レベル1-4: 入力が進むにつれ，履歴と正解応答を「ヒント」として与え，徐々に正解に近い内容を生成させる． ◦ レベル5: 入力完了時，正解応答をそのままオラクルとして使用． 54

55.

フロントエンドS2Sモデルの学習 • 生成した模擬オラクルを使用． • インナーモノローグとバックエンドLLMの出力（オラクル）を整合させる． 1. トークン化: オラクル文はモデル内部の「インナーモノローグ」と同じトークナイザーで処理． 2. 境界トークン: 連続して到着するオラクル文を区別するため，各文の先頭に専用の特殊トークンを付加． 3. ジッターの追加: 実際のシステムで発生する遅延や変動を模倣するため，トレーニング中にオラクル・トークンの到着タイミングにランダムなジッター（揺らぎ）を加える． 4. 損失関数: テキストと音声の混合損失関数を使用し，音声損失に1.5倍の重みを置いて最適化． 55

56.

学習データセット多様なトピックをカバーするために，以下のデータセットを会話形式に変換して使用． • MMLU-Pro: 複雑な多肢選択問題。 • GSM8K: 数学の文章題。 • HSSBench: 人文・社会科学のベンチマーク。 56

57.

評価 MT-Bench のスコア 57

58.

再掲：目次 1. フルデュプレックスモデルの基本構造 • WavChat ：サーベイ論文 • 音学シンポジウム2025の小松さんの資料 2. フルデュプレックスモデルの具体例 • OmniFlatten • SALM-Duplex ：10分：10分 3. フルデュプレックスモデルの評価はどうあるべきか：10分 • FD-Bench • Full-Duplex-Bench-v2 • (Full-Duplex-Bench, GPT-Realtime を測る指標) 4. 最新動向：10分 • Sakana AIの Speech-to-Speech モデル(KAME)：Fast-and-Slow の考えを体現 58

音声対話モデル2025-26

阿部雄斗

関連スライド

SyncLLM

FreezeOmni

学振特別研究員になるために～2025年度申請版

ZAZA株式会社_会社紹介

StampFlyで学ぶマルチコプタ制御

研究に使える便利なフリーソフト ImageJ

各ページのテキスト