---
title: 【DL輪読会】Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/V7PK4LK2J8.jpg?width=480
description: 【DL輪読会】Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? by Deep Learning JP
published: April 09, 26
canonical: https://www.docswell.com/s/DeepLearning2023/54NV1G-2026-04-15-103818
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/V7PK4LK2J8.jpg)

Debate or Vote?
Multi-Agent LLM の意思決定で本当に効いているのは何か？
第486回輪読会 / 2026-04-09
Debate or Vote: Which Yields Better Decisions in
Multi-Agent Large Language Models?
Choi et al., NeurIPS 2025 Spotlight.
東京大学 松尾・岩澤研究室
特任研究員 坂本航太郎
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/2JVVXQVXJQ.jpg)

今日の問い
MAD の性能向上は，本当に「議論」由来なのか？
それとも，単に 複数サンプルを集約した効果 なのか？
この論文の主張
Multi-Agent Debate (MAD) を majority voting と interagent debate に分解する
実験的にはmajority voting が MAD の利得の大半を説明する
理論的にはDCM + Bayesian update のもとで debate は
martingale になり，平均的には正答率に正の drift を与えない
したがって，communication が効くには corrective drift が
必要
重要なのは，「multi-agent は無意味」ではないこと
より正確には，vanilla な text debate の marginal value が小
さいという診断である
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/5EGLVWLRJL.jpg)

研究の大きな流れ
2023–2024
more talk
3
2025
does communication
複数 agent に議論させれば really help?
強くなるのでは，という期
待
代表例: Du et al., Liang et
al.
2025–2026
better
communication
gain の源泉を分解する段階 design
Debate or Vote
Why Do Multi-Agent
LLM Systems Fail?
何を / いつ / どう通信させ
る
Thought Communication
CIPHER
Evolving Orchestration
Communication theory
本論文は，multi-agent 楽観論への反論というより，
「communication が効くための必要条件は何か」 を与えた論文として読むのがよい
Du et al., 2023; Liang et al., 2024; Choi et al., 2025; Cemri et al., 2025; Rizvi-Martel et al., 2026.


# Page. 4

![Page Image](https://bcdn.docswell.com/page/4JQY63YY7P.jpg)

1. どんなもの？ — MAD を因子分解する
比較したいもの
1. Single agent
2. Majority voting
各 agent の初期回答を集約するだけ
議論なし，つまり
3. MAD
decentralized / sparse / centralized
rounds
実験設定
5 agents
Qwen2.5-7B-Instruct
Llama3.1-8B-Instruct
7 benchmark
Choi et al., 2025, Sec. 3.
論文の発想
多くの先行研究は「MAD 全体」を評価してい
た
しかし MAD には
multi-agent ensembling
inter-agent communication
が混ざっている
この論文は，vote を正しい control group と
して置くことで，
communication の限界効用 を見に行く
見方
vote が強いなら：改善の主因は ensembling
debate がさらに上積みするなら：
communication に固有の価値がある
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/K74W41WZE1.jpg)

2. 先行研究と比べてどこがすごい？
先行研究の主張
Improving Factuality and Reasoning
through Multiagent Debate
複数の LLM が議論すると reasoning /
factuality が改善
Encouraging Divergent Thinking
through MAD
self-reflection には DoT 問題があり，
multi-agent debate がそれを回避する
暗黙の前提
「talking to each other」が効いているはず
Du et al., 2023; Liang et al., 2024; Choi et al., 2025.
この論文の新規性
MAD を vote + debate に分解
単なる benchmark 勝ち負けでなく，
なぜそうなるか を理論化
しかも最後に intervention まで出しており，
negative result で終わらない
位置付け
これは「MAD が弱い論文」ではなく，
multi-agent LLM の causal diagnosis の
論文である
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/LJ1Y4GYDEG.jpg)

3. どうやって有効だと検証した？ — 主結果
平均精度の要点
Qwen2.5-7B - single-agent: 0.7205 - best
MAD: 0.7377 - majority voting: 0.7691
Llama3.1-8B - single-agent: 0.6203 - best
MAD: 0.6990 - majority voting: 0.7242
読み方
MAD は single-agent よりは良い
しかし majority voting を安定して超えない
よって MAD の利得のかなりの部分は，
communication ではなく ensembling で説
明できる
Choi et al., 2025, Table 1 / Figure 2.
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/GJWGXKG872.jpg)

4. どうやって有効だと検証した？ — 拡張実験
larger model でも傾向は維持
open-ended summarization
Qwen2.5-32B
CNN/DailyMail subset
GSM8K: majority voting 0.9433 vs best
best single-agent: Rouge-1 0.2760,
MAD 0.9400
Rouge-L 0.1871
HellaSwag: majority voting 0.8667 で MAD MAD (T=3): Rouge-1 0.2825, Rouge-L
と同等以上
0.1852
heterogeneous persona
round を増やしても大きくは動かない
多くは vote 優勢
ここから言えること
ただし Professional Medicine では MAD
「小さい open model だけの話」ではない
が局所的に上回るセルもある
ただし open-ended については，
つまり，task-specific persona diversity vote baseline が定義しにくいので証拠力は
の余地は残る
closed-ended より弱い
Choi et al., 2025, Tables 3–5.
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/4EZL6ZL973.jpg)

5. 技術や手法のキモ — DCM モデル化
agent の内部不確実性をどう数理化したか
各 agent は，有限個の候補 に対する belief vector
を持つ：
解釈
Dirichlet: model 内部の belief / uncertainty
Categorical sampling: temperature sampling 下の出力揺らぎ
つまり LLM の「同じ問いに何通りか答える」を粗視化している
なぜこのモデルがよいか
majority vote と debate update の両方を，同じ確率過程の上で議論できる
その結果，vote は margin amplifier, debate は martingale というきれいな対比が出る
Choi et al., 2025, Sec. 4.
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/Y76W2ZWD7V.jpg)

6. 技術や手法のキモ — なぜ vote は効くのか
Theorem 1 の直感
正答ラベルを 1 とし，平均確率のギャップを
とすると，agent 数 (N) を増やすと majority voting の成功確率は増幅される：
何が言いたいか
各 agent が ほんの少しだけ 正解寄りであればよい
vote はその小さな margin を 集団レベルで増幅する
したがって，MAD の gain のかなりの部分が，
実は multi-sample aggregation だけで説明できても不思議ではない
数理的に美しい点
self-consistency 的な intuition を，曖昧な経験則ではなく下界で言っている
Choi et al., 2025, Thm. 1.
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/G75M2WM874.jpg)

7. 技術や手法のキモ — なぜ debate は効きにくいのか 10
Theorem 2
agent の correct belief を
とする．もし
ならば
すなわち
は martingale になる．
debate は belief を更新する
平均的には 正しい方向にも，間違った方向にも drift しない
よって vanilla debate だけでは，期待正答率の改善は保証されない
これは「communication 無用論」ではない
むしろ communication が効くためには martingale を壊す何かが必要
この論文ではそれを corrective drift と読める
Choi et al., 2025, Thm. 2; related to Pólya-urn-style intuition.


# Page. 11

![Page Image](https://bcdn.docswell.com/page/9J294Q9VER.jpg)

8. 理論が設計にどう返るか — drift を注入する
theory-informed intervention
MAD-Conformist 前ラウンド多数派と一致し
ていた agent はその答えを保持
MAD-Follower 一定確率で多数派に従う
MAD-oracle 正答側へ bias された理想上限
例: Decentralized MAD,
vanilla: 0.7084
Conformist: 0.7524
Follower: 0.7577
Oracle: 0.8259
takeaway
debate 自体が無意味なのではない
正しい方向への非対称な update を入れると改
善する
したがって設計問題は 「どう話させるか」より
「どう更新させるか」 に近い！
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/DEY4MW4QJM.jpg)

9. 議論はあるか？
高く評価したい点
vote を正しい対照群に置いた
empirical result を理論で支えた
negative result を design principle に変え
た
特に強調したい批評
12
留保したい点
理論は homogeneous / simultaneoustalk 寄り
open-ended task では比較がまだ弱い
intervention は「debate の改善」というよ
り
repeated ensembling の埋め込み とも読
める
この論文が示したのは single-agent suffices ではない
示したのは，追加の multi-round communication cost に見合う上積みが小さいということ
したがって今後の論点は，
communication channel / topology / update rule の再設計 に移る
Choi et al., 2025; heterogeneous collective-belief discussion in Appx. D/E.


# Page. 13

![Page Image](https://bcdn.docswell.com/page/VJNYW9Y278.jpg)

10. 次に読むべき論文は？ (1)
Why Do Multi-Agent LLM Systems Fail?
150+ tasks, 14 failure modes, 3 categories
「communication が効かない」を組織論・設計論として整理
Benefits and Limitations of Communication in Multi-Agent Reasoning
agent 数 / bandwidth / speedup の tradeoff を理論化
「いつ communication が provably beneficial か」を問う
Thought Communication in Multiagent Collaboration
sparsity-regularized autoencoder + prefix adaptation： shared/private latent thoughts
を扱う
Let Models Speak Ciphers
token ではなく embedding expectation で通信
Latent Collaboration in Multi-Agent Systems
training-free な latent working memory transfer
Multi-Agent Collaboration via Evolving Orchestration
static debate ではなく dynamic orchestration を RL で学ぶ
Cemri et al., 2025; Rizvi-Martel et al., 2026; Zheng et al., 2025; Pham et al., 2024; Zou et al., 2025; Dang et al., 2025.
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/YE9PX2PDJ3.jpg)

11. 次に読む論文は？ (2)
が問うたのは
「自然言語 debate の限界効用は小さいのでは？」 という点
Debate or Vote
そもそも何を communication すべきか？
自然言語ではなく latent thoughts を共有対象にする
sparsity-regularized autoencoder で latent thoughts を抽出
prefix adaptation で各 agent に注入
Qwen-3-1.7B の MATH では 93.0% を報告
ただし LLaMA 3-8B の GSM8K では
Multiagent Finetuning 69.2 &gt; THOUGHTCOMM 68.4 で，一様勝ちではない
位置づけ
definitive answer というより，
「communication design を作り直す」研究アジェンダ を明確にした論文
Zheng et al., 2025, OpenReview. Not uniformly dominant across all table cells.
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GE8D25D5ED.jpg)

12. take-home messages
1. MAD の利得は，かなりの部分が majority voting で説明できる
2. vanilla debate は martingale 的で，平均的には正答率に正の drift を与えない
3. したがって今後の焦点は，
more talk ではなく better communication design である
multi-agent LLM 研究の焦点は，
「もっと話させる」から「何を・どのチャネルで・どの規則で共有するか」へ移っている。
議論したい問い
どのような update rule なら martingale を破って正の drift を作れるか？
natural language は communication medium として本質的に lossy なのか？
vote / debate / latent communication / orchestration をどう統一的に比較するか？
Main references: Choi et al., 2025; Cemri et al., 2025; Rizvi-Martel et al., 2026; Zheng et al., 2025; Dang et al., 2025.
15


# Page. 16

![Page Image](https://bcdn.docswell.com/page/LELM2YM37R.jpg)

参考文献
16
Hyeong Kyu Choi, Jerry Zhu, Sharon Li. Debate or Vote: Which Yields Better Decisions
in Multi-Agent Large Language Models? OpenReview / NeurIPS 2025.
Yilun Du et al. Improving Factuality and Reasoning in Language Models through
Multiagent Debate. ICML 2024.
Tian Liang et al. Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate. EMNLP 2024.
Mert Cemri et al. Why Do Multi-Agent LLM Systems Fail? arXiv 2025.
Michael Rizvi-Martel et al. Benefits and Limitations of Communication in Multi-Agent
Reasoning. ICLR 2026.
Yujia Zheng et al. Thought Communication in Multiagent Collaboration. OpenReview
2025.
Chau Pham et al. Let Models Speak Ciphers: Multiagent Debate through
Embeddings. ICLR 2024.
Yufan Dang et al. Multi-Agent Collaboration via Evolving Orchestration. NeurIPS 2025.
Jiaru Zou et al. Latent Collaboration in Multi-Agent Systems. arXiv 2025.


