【DL輪読会】Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?

-- Views

April 09, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Debate or Vote? Multi-Agent LLM の意思決定で本当に効いているのは何か? 第486回輪読会 / 2026-04-09 Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? Choi et al., NeurIPS 2025 Spotlight. 東京大学 松尾・岩澤研究室 特任研究員 坂本航太郎 1

2.

今日の問い MAD の性能向上は,本当に「議論」由来なのか? それとも,単に 複数サンプルを集約した効果 なのか? この論文の主張 Multi-Agent Debate (MAD) を majority voting と interagent debate に分解する 実験的にはmajority voting が MAD の利得の大半を説明する 理論的にはDCM + Bayesian update のもとで debate は martingale になり,平均的には正答率に正の drift を与えない したがって,communication が効くには corrective drift が 必要 重要なのは,「multi-agent は無意味」ではないこと より正確には,vanilla な text debate の marginal value が小 さいという診断である 2

3.

研究の大きな流れ 2023–2024 more talk 3 2025 does communication 複数 agent に議論させれば really help? 強くなるのでは,という期 待 代表例: Du et al., Liang et al. 2025–2026 better communication gain の源泉を分解する段階 design Debate or Vote Why Do Multi-Agent LLM Systems Fail? 何を / いつ / どう通信させ る Thought Communication CIPHER Evolving Orchestration Communication theory 本論文は,multi-agent 楽観論への反論というより, 「communication が効くための必要条件は何か」 を与えた論文として読むのがよい Du et al., 2023; Liang et al., 2024; Choi et al., 2025; Cemri et al., 2025; Rizvi-Martel et al., 2026.

4.

1. どんなもの? — MAD を因子分解する 比較したいもの 1. Single agent 2. Majority voting 各 agent の初期回答を集約するだけ 議論なし,つまり 3. MAD decentralized / sparse / centralized rounds 実験設定 5 agents Qwen2.5-7B-Instruct Llama3.1-8B-Instruct 7 benchmark Choi et al., 2025, Sec. 3. 論文の発想 多くの先行研究は「MAD 全体」を評価してい た しかし MAD には multi-agent ensembling inter-agent communication が混ざっている この論文は,vote を正しい control group と して置くことで, communication の限界効用 を見に行く 見方 vote が強いなら:改善の主因は ensembling debate がさらに上積みするなら: communication に固有の価値がある 4

5.

2. 先行研究と比べてどこがすごい? 先行研究の主張 Improving Factuality and Reasoning through Multiagent Debate 複数の LLM が議論すると reasoning / factuality が改善 Encouraging Divergent Thinking through MAD self-reflection には DoT 問題があり, multi-agent debate がそれを回避する 暗黙の前提 「talking to each other」が効いているはず Du et al., 2023; Liang et al., 2024; Choi et al., 2025. この論文の新規性 MAD を vote + debate に分解 単なる benchmark 勝ち負けでなく, なぜそうなるか を理論化 しかも最後に intervention まで出しており, negative result で終わらない 位置付け これは「MAD が弱い論文」ではなく, multi-agent LLM の causal diagnosis の 論文である 5

6.

3. どうやって有効だと検証した? — 主結果 平均精度の要点 Qwen2.5-7B - single-agent: 0.7205 - best MAD: 0.7377 - majority voting: 0.7691 Llama3.1-8B - single-agent: 0.6203 - best MAD: 0.6990 - majority voting: 0.7242 読み方 MAD は single-agent よりは良い しかし majority voting を安定して超えない よって MAD の利得のかなりの部分は, communication ではなく ensembling で説 明できる Choi et al., 2025, Table 1 / Figure 2. 6

7.

4. どうやって有効だと検証した? — 拡張実験 larger model でも傾向は維持 open-ended summarization Qwen2.5-32B CNN/DailyMail subset GSM8K: majority voting 0.9433 vs best best single-agent: Rouge-1 0.2760, MAD 0.9400 Rouge-L 0.1871 HellaSwag: majority voting 0.8667 で MAD MAD (T=3): Rouge-1 0.2825, Rouge-L と同等以上 0.1852 heterogeneous persona round を増やしても大きくは動かない 多くは vote 優勢 ここから言えること ただし Professional Medicine では MAD 「小さい open model だけの話」ではない が局所的に上回るセルもある ただし open-ended については, つまり,task-specific persona diversity vote baseline が定義しにくいので証拠力は の余地は残る closed-ended より弱い Choi et al., 2025, Tables 3–5. 7

8.

5. 技術や手法のキモ — DCM モデル化 agent の内部不確実性をどう数理化したか 各 agent は,有限個の候補 に対する belief vector を持つ: 解釈 Dirichlet: model 内部の belief / uncertainty Categorical sampling: temperature sampling 下の出力揺らぎ つまり LLM の「同じ問いに何通りか答える」を粗視化している なぜこのモデルがよいか majority vote と debate update の両方を,同じ確率過程の上で議論できる その結果,vote は margin amplifier, debate は martingale というきれいな対比が出る Choi et al., 2025, Sec. 4. 8

9.

6. 技術や手法のキモ — なぜ vote は効くのか Theorem 1 の直感 正答ラベルを 1 とし,平均確率のギャップを とすると,agent 数 (N) を増やすと majority voting の成功確率は増幅される: 何が言いたいか 各 agent が ほんの少しだけ 正解寄りであればよい vote はその小さな margin を 集団レベルで増幅する したがって,MAD の gain のかなりの部分が, 実は multi-sample aggregation だけで説明できても不思議ではない 数理的に美しい点 self-consistency 的な intuition を,曖昧な経験則ではなく下界で言っている Choi et al., 2025, Thm. 1. 9

10.

7. 技術や手法のキモ — なぜ debate は効きにくいのか 10 Theorem 2 agent の correct belief を とする.もし ならば すなわち は martingale になる. debate は belief を更新する 平均的には 正しい方向にも,間違った方向にも drift しない よって vanilla debate だけでは,期待正答率の改善は保証されない これは「communication 無用論」ではない むしろ communication が効くためには martingale を壊す何かが必要 この論文ではそれを corrective drift と読める Choi et al., 2025, Thm. 2; related to Pólya-urn-style intuition.

11.

8. 理論が設計にどう返るか — drift を注入する theory-informed intervention MAD-Conformist 前ラウンド多数派と一致し ていた agent はその答えを保持 MAD-Follower 一定確率で多数派に従う MAD-oracle 正答側へ bias された理想上限 例: Decentralized MAD, vanilla: 0.7084 Conformist: 0.7524 Follower: 0.7577 Oracle: 0.8259 takeaway debate 自体が無意味なのではない 正しい方向への非対称な update を入れると改 善する したがって設計問題は 「どう話させるか」より 「どう更新させるか」 に近い! 11

12.

9. 議論はあるか? 高く評価したい点 vote を正しい対照群に置いた empirical result を理論で支えた negative result を design principle に変え た 特に強調したい批評 12 留保したい点 理論は homogeneous / simultaneoustalk 寄り open-ended task では比較がまだ弱い intervention は「debate の改善」というよ り repeated ensembling の埋め込み とも読 める この論文が示したのは single-agent suffices ではない 示したのは,追加の multi-round communication cost に見合う上積みが小さいということ したがって今後の論点は, communication channel / topology / update rule の再設計 に移る Choi et al., 2025; heterogeneous collective-belief discussion in Appx. D/E.

13.

10. 次に読むべき論文は? (1) Why Do Multi-Agent LLM Systems Fail? 150+ tasks, 14 failure modes, 3 categories 「communication が効かない」を組織論・設計論として整理 Benefits and Limitations of Communication in Multi-Agent Reasoning agent 数 / bandwidth / speedup の tradeoff を理論化 「いつ communication が provably beneficial か」を問う Thought Communication in Multiagent Collaboration sparsity-regularized autoencoder + prefix adaptation: shared/private latent thoughts を扱う Let Models Speak Ciphers token ではなく embedding expectation で通信 Latent Collaboration in Multi-Agent Systems training-free な latent working memory transfer Multi-Agent Collaboration via Evolving Orchestration static debate ではなく dynamic orchestration を RL で学ぶ Cemri et al., 2025; Rizvi-Martel et al., 2026; Zheng et al., 2025; Pham et al., 2024; Zou et al., 2025; Dang et al., 2025. 13

14.

11. 次に読む論文は? (2) が問うたのは 「自然言語 debate の限界効用は小さいのでは?」 という点 Debate or Vote そもそも何を communication すべきか? 自然言語ではなく latent thoughts を共有対象にする sparsity-regularized autoencoder で latent thoughts を抽出 prefix adaptation で各 agent に注入 Qwen-3-1.7B の MATH では 93.0% を報告 ただし LLaMA 3-8B の GSM8K では Multiagent Finetuning 69.2 > THOUGHTCOMM 68.4 で,一様勝ちではない 位置づけ definitive answer というより, 「communication design を作り直す」研究アジェンダ を明確にした論文 Zheng et al., 2025, OpenReview. Not uniformly dominant across all table cells. 14

15.

12. take-home messages 1. MAD の利得は,かなりの部分が majority voting で説明できる 2. vanilla debate は martingale 的で,平均的には正答率に正の drift を与えない 3. したがって今後の焦点は, more talk ではなく better communication design である multi-agent LLM 研究の焦点は, 「もっと話させる」から「何を・どのチャネルで・どの規則で共有するか」へ移っている。 議論したい問い どのような update rule なら martingale を破って正の drift を作れるか? natural language は communication medium として本質的に lossy なのか? vote / debate / latent communication / orchestration をどう統一的に比較するか? Main references: Choi et al., 2025; Cemri et al., 2025; Rizvi-Martel et al., 2026; Zheng et al., 2025; Dang et al., 2025. 15

16.

参考文献 16 Hyeong Kyu Choi, Jerry Zhu, Sharon Li. Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? OpenReview / NeurIPS 2025. Yilun Du et al. Improving Factuality and Reasoning in Language Models through Multiagent Debate. ICML 2024. Tian Liang et al. Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate. EMNLP 2024. Mert Cemri et al. Why Do Multi-Agent LLM Systems Fail? arXiv 2025. Michael Rizvi-Martel et al. Benefits and Limitations of Communication in Multi-Agent Reasoning. ICLR 2026. Yujia Zheng et al. Thought Communication in Multiagent Collaboration. OpenReview 2025. Chau Pham et al. Let Models Speak Ciphers: Multiagent Debate through Embeddings. ICLR 2024. Yufan Dang et al. Multi-Agent Collaboration via Evolving Orchestration. NeurIPS 2025. Jiaru Zou et al. Latent Collaboration in Multi-Agent Systems. arXiv 2025.