【DL輪読会】Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?

585 Views

April 09, 26

#マルチエージェントLLM #意思決定 #多数決 #エージェント間通信 #理論的分析

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 70.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 53.8K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.9K

各ページのテキスト

Debate or Vote? Multi-Agent LLM の意思決定で本当に効いているのは何か？第486回輪読会 / 2026-04-09 Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? Choi et al., NeurIPS 2025 Spotlight. 東京大学松尾・岩澤研究室特任研究員坂本航太郎 1

今日の問い MAD の性能向上は，本当に「議論」由来なのか？それとも，単に複数サンプルを集約した効果なのか？この論文の主張 Multi-Agent Debate (MAD) を majority voting と interagent debate に分解する実験的にはmajority voting が MAD の利得の大半を説明する理論的にはDCM + Bayesian update のもとで debate は martingale になり，平均的には正答率に正の drift を与えないしたがって，communication が効くには corrective drift が必要重要なのは，「multi-agent は無意味」ではないことより正確には，vanilla な text debate の marginal value が小さいという診断である 2

研究の大きな流れ 2023–2024 more talk 3 2025 does communication 複数 agent に議論させれば really help? 強くなるのでは，という期待代表例: Du et al., Liang et al. 2025–2026 better communication gain の源泉を分解する段階 design Debate or Vote Why Do Multi-Agent LLM Systems Fail? 何を / いつ / どう通信させる Thought Communication CIPHER Evolving Orchestration Communication theory 本論文は，multi-agent 楽観論への反論というより，「communication が効くための必要条件は何か」を与えた論文として読むのがよい Du et al., 2023; Liang et al., 2024; Choi et al., 2025; Cemri et al., 2025; Rizvi-Martel et al., 2026.

1. どんなもの？ — MAD を因子分解する比較したいもの 1. Single agent 2. Majority voting 各 agent の初期回答を集約するだけ議論なし，つまり 3. MAD decentralized / sparse / centralized rounds 実験設定 5 agents Qwen2.5-7B-Instruct Llama3.1-8B-Instruct 7 benchmark Choi et al., 2025, Sec. 3. 論文の発想多くの先行研究は「MAD 全体」を評価していたしかし MAD には multi-agent ensembling inter-agent communication が混ざっているこの論文は，vote を正しい control group として置くことで， communication の限界効用を見に行く見方 vote が強いなら：改善の主因は ensembling debate がさらに上積みするなら： communication に固有の価値がある 4

2. 先行研究と比べてどこがすごい？先行研究の主張 Improving Factuality and Reasoning through Multiagent Debate 複数の LLM が議論すると reasoning / factuality が改善 Encouraging Divergent Thinking through MAD self-reflection には DoT 問題があり， multi-agent debate がそれを回避する暗黙の前提「talking to each other」が効いているはず Du et al., 2023; Liang et al., 2024; Choi et al., 2025. この論文の新規性 MAD を vote + debate に分解単なる benchmark 勝ち負けでなく，なぜそうなるかを理論化しかも最後に intervention まで出しており， negative result で終わらない位置付けこれは「MAD が弱い論文」ではなく， multi-agent LLM の causal diagnosis の論文である 5

3. どうやって有効だと検証した？ — 主結果平均精度の要点 Qwen2.5-7B - single-agent: 0.7205 - best MAD: 0.7377 - majority voting: 0.7691 Llama3.1-8B - single-agent: 0.6203 - best MAD: 0.6990 - majority voting: 0.7242 読み方 MAD は single-agent よりは良いしかし majority voting を安定して超えないよって MAD の利得のかなりの部分は， communication ではなく ensembling で説明できる Choi et al., 2025, Table 1 / Figure 2. 6

4. どうやって有効だと検証した？ — 拡張実験 larger model でも傾向は維持 open-ended summarization Qwen2.5-32B CNN/DailyMail subset GSM8K: majority voting 0.9433 vs best best single-agent: Rouge-1 0.2760, MAD 0.9400 Rouge-L 0.1871 HellaSwag: majority voting 0.8667 で MAD MAD (T=3): Rouge-1 0.2825, Rouge-L と同等以上 0.1852 heterogeneous persona round を増やしても大きくは動かない多くは vote 優勢ここから言えることただし Professional Medicine では MAD 「小さい open model だけの話」ではないが局所的に上回るセルもあるただし open-ended については，つまり，task-specific persona diversity vote baseline が定義しにくいので証拠力はの余地は残る closed-ended より弱い Choi et al., 2025, Tables 3–5. 7

5. 技術や手法のキモ — DCM モデル化 agent の内部不確実性をどう数理化したか各 agent は，有限個の候補に対する belief vector を持つ：解釈 Dirichlet: model 内部の belief / uncertainty Categorical sampling: temperature sampling 下の出力揺らぎつまり LLM の「同じ問いに何通りか答える」を粗視化しているなぜこのモデルがよいか majority vote と debate update の両方を，同じ確率過程の上で議論できるその結果，vote は margin amplifier, debate は martingale というきれいな対比が出る Choi et al., 2025, Sec. 4. 8

6. 技術や手法のキモ — なぜ vote は効くのか Theorem 1 の直感正答ラベルを 1 とし，平均確率のギャップをとすると，agent 数 (N) を増やすと majority voting の成功確率は増幅される：何が言いたいか各 agent がほんの少しだけ正解寄りであればよい vote はその小さな margin を集団レベルで増幅するしたがって，MAD の gain のかなりの部分が，実は multi-sample aggregation だけで説明できても不思議ではない数理的に美しい点 self-consistency 的な intuition を，曖昧な経験則ではなく下界で言っている Choi et al., 2025, Thm. 1. 9

10.

7. 技術や手法のキモ — なぜ debate は効きにくいのか 10 Theorem 2 agent の correct belief をとする．もしならばすなわちは martingale になる． debate は belief を更新する平均的には正しい方向にも，間違った方向にも drift しないよって vanilla debate だけでは，期待正答率の改善は保証されないこれは「communication 無用論」ではないむしろ communication が効くためには martingale を壊す何かが必要この論文ではそれを corrective drift と読める Choi et al., 2025, Thm. 2; related to Pólya-urn-style intuition.

11.

8. 理論が設計にどう返るか — drift を注入する theory-informed intervention MAD-Conformist 前ラウンド多数派と一致していた agent はその答えを保持 MAD-Follower 一定確率で多数派に従う MAD-oracle 正答側へ bias された理想上限例: Decentralized MAD, vanilla: 0.7084 Conformist: 0.7524 Follower: 0.7577 Oracle: 0.8259 takeaway debate 自体が無意味なのではない正しい方向への非対称な update を入れると改善するしたがって設計問題は「どう話させるか」より「どう更新させるか」に近い！ 11

12.

9. 議論はあるか？高く評価したい点 vote を正しい対照群に置いた empirical result を理論で支えた negative result を design principle に変えた特に強調したい批評 12 留保したい点理論は homogeneous / simultaneoustalk 寄り open-ended task では比較がまだ弱い intervention は「debate の改善」というより repeated ensembling の埋め込みとも読めるこの論文が示したのは single-agent suffices ではない示したのは，追加の multi-round communication cost に見合う上積みが小さいということしたがって今後の論点は， communication channel / topology / update rule の再設計に移る Choi et al., 2025; heterogeneous collective-belief discussion in Appx. D/E.

13.

10. 次に読むべき論文は？ (1) Why Do Multi-Agent LLM Systems Fail? 150+ tasks, 14 failure modes, 3 categories 「communication が効かない」を組織論・設計論として整理 Benefits and Limitations of Communication in Multi-Agent Reasoning agent 数 / bandwidth / speedup の tradeoff を理論化「いつ communication が provably beneficial か」を問う Thought Communication in Multiagent Collaboration sparsity-regularized autoencoder + prefix adaptation： shared/private latent thoughts を扱う Let Models Speak Ciphers token ではなく embedding expectation で通信 Latent Collaboration in Multi-Agent Systems training-free な latent working memory transfer Multi-Agent Collaboration via Evolving Orchestration static debate ではなく dynamic orchestration を RL で学ぶ Cemri et al., 2025; Rizvi-Martel et al., 2026; Zheng et al., 2025; Pham et al., 2024; Zou et al., 2025; Dang et al., 2025. 13

14.

11. 次に読む論文は？ (2) が問うたのは「自然言語 debate の限界効用は小さいのでは？」という点 Debate or Vote そもそも何を communication すべきか？自然言語ではなく latent thoughts を共有対象にする sparsity-regularized autoencoder で latent thoughts を抽出 prefix adaptation で各 agent に注入 Qwen-3-1.7B の MATH では 93.0% を報告ただし LLaMA 3-8B の GSM8K では Multiagent Finetuning 69.2 > THOUGHTCOMM 68.4 で，一様勝ちではない位置づけ definitive answer というより，「communication design を作り直す」研究アジェンダを明確にした論文 Zheng et al., 2025, OpenReview. Not uniformly dominant across all table cells. 14

15.

12. take-home messages 1. MAD の利得は，かなりの部分が majority voting で説明できる 2. vanilla debate は martingale 的で，平均的には正答率に正の drift を与えない 3. したがって今後の焦点は， more talk ではなく better communication design である multi-agent LLM 研究の焦点は，「もっと話させる」から「何を・どのチャネルで・どの規則で共有するか」へ移っている。議論したい問いどのような update rule なら martingale を破って正の drift を作れるか？ natural language は communication medium として本質的に lossy なのか？ vote / debate / latent communication / orchestration をどう統一的に比較するか？ Main references: Choi et al., 2025; Cemri et al., 2025; Rizvi-Martel et al., 2026; Zheng et al., 2025; Dang et al., 2025. 15

16.

参考文献 16 Hyeong Kyu Choi, Jerry Zhu, Sharon Li. Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? OpenReview / NeurIPS 2025. Yilun Du et al. Improving Factuality and Reasoning in Language Models through Multiagent Debate. ICML 2024. Tian Liang et al. Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate. EMNLP 2024. Mert Cemri et al. Why Do Multi-Agent LLM Systems Fail? arXiv 2025. Michael Rizvi-Martel et al. Benefits and Limitations of Communication in Multi-Agent Reasoning. ICLR 2026. Yujia Zheng et al. Thought Communication in Multiagent Collaboration. OpenReview 2025. Chau Pham et al. Let Models Speak Ciphers: Multiagent Debate through Embeddings. ICLR 2024. Yufan Dang et al. Multi-Agent Collaboration via Evolving Orchestration. NeurIPS 2025. Jiaru Zou et al. Latent Collaboration in Multi-Agent Systems. arXiv 2025.