---
title: 【DL輪読会】WEBROUTER: QUERY-SPECIFIC ROUTER VIA VARIATIONAL INFORMATION BOTTLENECK FOR COST-SENSITIVE WEB AGENT
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/YE9PPM8ZJ3.jpg?width=480
description: 【DL輪読会】WEBROUTER: QUERY-SPECIFIC ROUTER VIA VARIATIONAL INFORMATION BOTTLENECK FOR COST-SENSITIVE WEB AGENT by Deep Learning JP
published: May 07, 26
canonical: https://www.docswell.com/s/DeepLearning2023/56N76W-2026-05-11-084836
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/YE9PPM8ZJ3.jpg)

“WebRouter: Query-specific Router via Variational Information
DEEP LEARNING JP
DEEP
[DLLEARNING
Papers] JP Bottleneck for Cost-sensitive Web Agent”
[DL Papers]
Presenter: Sayaka Yamashita, Matsuo Lab M2
http://deeplearning.jp/


# Page. 2

![Page Image](https://bcdn.docswell.com/page/GE8DDLZYED.jpg)

論文情報
論文誌
“WebRouter: Query-specific Router via Variational Information Bottleneck
for Cost-sensitive Web Agent”
ICASSP 2026 Under Review
著者
Tao Li, Jinlong Hu, Yang Wang, Junfeng Liu, Xuejun Liu
Link
https://arxiv.org/abs/2510.11221 (2025年10月)
キーワード GUI Agent, LLM Ensemble, Information Bottleneck
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/LELMMLD97R.jpg)

論文を選んだきっかけ
• 研究との直接的な関連性
– 自身の研究テーマ「Webエージェントにおけるプロンプト脆弱性とMeta-Agent
Router」と最も近い先行研究
– Webエージェント環境でのLLMルーティングという同一の問題設定を扱っている
• 情報理論的アプローチの新規性
– 従来のルーティング手法（RouteLLM等）は嗜好データや単純な分類器を使用
– WebRouterはVIBでプロンプトの冗長性に対する理論的解を提案
• 技術的な興味
– WebRouterはWeb特化ルーティングの初の研究であり、今後のWebエージェント研
究の基盤になる可能性が高い
– 情報ボトルネック（VIB）という情報理論的手法をエージェントに応用した点が技
術的に興味深い
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/4JMYYMPVJW.jpg)

論文の概要
背景
LLM-brained Web Agent はWebタスクを自動化するが、コスト-性能のトレードオフが深刻
・ GPT-4oで全タスク処理 → $0.98/task と高額
・ 単一の &quot;best model&quot; は非現実的
提案手法: WebRouter
各Webクエリを最もコスト効率の良いLLMに動的に振り分ける
情報理論的観点 (VIB) で訓練されたquery-specific router
貢献
① Web Agent ルーティングを情報理論的観点から定式化した最初の研究
VIBを用いて、Web Agent特有のノイズの多い・冗長なプロンプトを処理
② 事前定義されたコスト関数を統合した cost-aware VIB 損失を提案
精度とコストの間に理論的なトレードオフを構築
③ 5つの実在Webサイトで SOTA のコスト効率を達成
コスト削減 87.8%、精度低下わずか 3.8%
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/PJR99V1W79.jpg)

Related Works
手法
アプローチ
限界
RouteLLM (ICLR 2025)
嗜好データでルーター学習
Web特化なし、冗長性未対処
RouterDC (2024)
Dual Contrastive Learning
Webプロンプトのノイズに弱い
FrugalGPT (2023)
カスケード型（安→高）
レイテンシ増大
MasRouter (ACL 2025)
MAS向け3段カスケード
Web特化なし
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/PEXQQZYVJX.jpg)

Information Bottleneck (IB) 原理 — Eq.(1)
IB原理 [Tishby et al., 2000]
入力 X から圧縮表現 Z を学習し、
タスク Y に必要な情報のみを残す枠組み
目的関数 (式 1):
I(Z;X) 最小化
I(Z;Y) 最大化
Y
・ I(Z; Y): 圧縮表現Zとタスク変数Yの相互情報量 → 最大化
・ I(Z; X): 入力XとZの相互情報量 → 最小化 (=情報を圧縮)
・ β: 圧縮度のトレードオフを制御するハイパーパラメータ
入力
(冗長)
圧縮表現
ターゲット
(LLM選択)
図: IB原理の概念図 (圧縮しつつターゲット情報は保持)
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/3EK99835ED.jpg)

Problem Formulation
問題設定
・クエリ q_i: Webタスクの複雑なプロンプト
= ユーザーの高レベルゴール ⊕ エージェントの行動履歴 ⊕ 現在のWeb表現
・候補LLMプール:
論文では T=3: Gemini-2.5-Flash, GPT-4.1-mini, GPT-4o
・訓練データ:
yi = ground-truth outcome
学習目標: ルーター ψ を学習する
各LLMに対するクエリの適合度を出力
→ 教師信号 yi をどう作るか? → Scoring へ
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/L73WW2G175.jpg)

Scoring — 教師信号の設計
狙い: タスク性能と運用コストのバランスを取る教師信号
Step 1: コスト
プロンプト・補完トークン数 × 単価で運用コストを算出
Step 2: 二段階で正規化
1. 指数効用 U(c)=exp(−c) で高コストを強くペナルティ
2. min-max正規化 → S_cost ∈ [0,1]
Step 3: スコア
タスク成否 P × コストスコア S_cost の積
→ &quot;正解 かつ 安価&quot; のみ正のシグナル
スコアは &quot;成功 かつ 安価&quot; のときのみ非ゼロ → 高コントラストな教師信号
Task成否
P(q,M_t)
∈ {0,1}
コストC
Eq.(2)
U(c)=exp(−c)
指数効用
min-max
正規化
S_cost∈[0,1]
スコアs_i^(t)
= P × S_cost
Eq.(3)
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/87DKKZ1KJG.jpg)

Scoring — 運用コスト
運用コスト C(q_i, M_t) の定義
変数
意味
n_p
プロンプトトークン数 (入力)
n_c
補完トークン数 (出力)
c_p^(t)
モデル M_t のプロンプト単価 ($/M tokens)
c_c^(t)
モデル M_t の補完単価 ($/M tokens)
注意: ルーティング時点では n_c (出力長) は未知 → Eq.(6)では unit cost C(M_t) ≈ c_p^(t) + c_c^(t) で近似する
論文での実数値例 (per million tokens):
Gemini-2.5-Flash: $0.30 / $2.50
GPT-4.1-mini: $0.40 / $1.60
GPT-4o: $5 / $15
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/VJPKKDQ3E8.jpg)

Scoring — トレーニングスコア (Eq. 3)
P(q_i, M_t) ∈ {0, 1} — タスク成否
・ 1: タスク全体が正常に完了
・ 0: 失敗
※ タスクレベルの成否で判断
(1タスク=複数のステップ qi を含む)
S_cost(C_i^(t)) ∈ [0, 1] — コストスコア
1. U(c) = exp(−c) で効用に変換
→ 高コストを強くペナルティ
2. 全モデル間で min-max 正規化
→ 1 = 最も安価, 0 = 最も高価
=&gt; s_i^(t) は &quot;成功 かつ 安価&quot; のときのみ非ゼロ ⇒ 高コントラストな supervision 信号
Eq.(6)の予測誤差項では softmax(s_i / τ) をターゲット分布として使用
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/2EVVV15NEQ.jpg)

Web Agent クエリの冗長性 — VIB導入の動機
Web Agent クエリの冗長性問題
q_i は次の動的な連結:
・ 高レベルゴール (固定, 短い)
・ 現在のWeb表現 (DOM等, 長い)
・ 行動履歴 (タスク進行で増大)
結果 (Fig. 3):
・ 多くのクエリが数千トークンを超える
・ GPT-4o中央値: 2,615 / 4.1Mini: 4,999 / 2.5Flash: 8,372
直接埋め込み式のルーティング (RouterDC等)
は冗長性に弱い → 性能低下
Fig. 3: クエリ長分布 — 大部分が 10^3.5〜10^5 トークン
⇒ IB原理が解決策:
&quot;ルーティング必要最小限の情報&quot; のみを保持する圧縮表現を学習
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/57GLL265EL.jpg)

VIB Loss — 変分上界の導出 (Eq. 4)
第1項: 予測誤差 E_p(z|q)[ −log p_φ(y|z) ]
第2項: 圧縮正則化 β·KL[ p_θ(z|q) ∥ r(z) ]
・ p_θ(z|q): 確率的エンコーダ
・ クロスエントロピー損失
・ 圧縮表現 z から正解 y を再構成可能か ・ r(z): 事前分布 (圧縮の参照)
・ I(Z;Y) の下界を最大化することに対応 ・ I(Z;X) の上界を最小化することに対応
課題: Web Agentクエリは長く、トークン単位で冗長性が高い
→ より効果的な圧縮の仕組みが必要 → Stochastic Binary Mask の導入 (次スライド)
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/4EQYYP4LJP.jpg)

Stochastic Binary Mask による圧縮 (Eq. 5)
トークンレベルの冗長性に対処するための具体実装 [Paranjape et al., 2020 を参考]
1. 圧縮表現 z を「特徴量 h_q とバイナリマスク m の要素積」として定義:
2. このマスク化定式により、KL項は m の分布同士のKLに比例して簡略化される:
概念図: 各トークン位置で 0/1 マスクを学習 → ノイズトークンを実質的に &quot;消す&quot;
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/KJ4WWYQ571.jpg)

cost-aware VIB Loss — (Eq. 6)
第1項: 予測誤差
クロスエントロピー損失
教師信号は softmax(s_i/τ)
(s_i は Eq.3 で定義)
第2項: 圧縮 (β·KL)
マスク m_i の分布を 事前分布 r(m_i) に近づける (Eq.5 の簡略化を利用)
第3項: コスト正則化 (新規)
モデル選択確率と単位コスト
C(M_t) ≈ c_p^(t) + c_c^(t)の積 → 安価モデルを優遇
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/LE1YY6P27G.jpg)

実験設定
Dataset
・ WebVoyager [He et al. 2024] の 5サイト
Apple, Arxiv, Coursera, Google, Huggingface
・ 各サイト最低46タスク
・ 訓練データ: 11,800 samples
Baselines
モデル
Input/M
Output/M
1タスクコスト
Gemini-2.5Flash
$0.30
$2.50
$0.06
GPT-4.1-mini
$0.40
$1.60
$0.21
GPT-4o
$2.50
$10.00
$0.98
・ browser-use + 単一LLM (3モデル)
・ RouterDC (Dual Contrastive Learning)
Implementation
・ Encoder ψ: mDeBERTaV3-base (768-dim)
・ Optimizer: AdamW, LR=2×10⁻⁵
・ Steps: 2000
・ Hyperparams: β = 0.3, λ = 0.2
15


# Page. 16

![Page Image](https://bcdn.docswell.com/page/GEWGGW22J2.jpg)

実験結果① — Main Results
Table 1: Main Results of WebRouter (best in bold, second-best underlined)
分析
① vs GPT-4o: コスト 87.8% 削減 ($0.98 → $0.12), 精度低下わずか 3.8% (86.1% → 82.3%)
② vs RouterDC: 精度 +14.5pt (67.8% → 82.3%), ステップ数も改善 (9.40 → 8.38)
③ サイトごとの傾向: Coursera/Google で GPT-4oと同精度を 1/8 のコストで達成
16


# Page. 17

![Page Image](https://bcdn.docswell.com/page/47ZLL5D4J3.jpg)

実験結果② — コスト構成分析
(a) Price breakdown
(b) Average running time
・ プロンプトトークン (緑) が全モデルで &gt;70% を占める
・ WebRouter: 194.1秒
・ Eq.(2) のうち n_p · c_p^(t) が支配的
・ GPT-4o: 168.8秒 (基準)
・ ca-VIB は安価モデルへ流すことでprompt cost自体を抑制 ・ 14% slower のみ で87.8% cost削減を達成
Fig. 5: Analysis of cost composition and execution time
17


# Page. 18

![Page Image](https://bcdn.docswell.com/page/YJ6WW91GJV.jpg)

§4.2 Ablation — 損失関数の比較
分析:
- CLからVIBへの改善 (+8.2pt)
→ KL正則化による圧縮が効いている
→ 冗長なDOM情報の除去がルーティング精度を改善
- VIBからca-VIBへの改善 (+0.6pt)
→ コスト正則化が精度を下げずにむしろ改善
→ 安いモデルに流すことが正則化として機能する可能性
→ 安いモデルが得意タスクを正しく振り分け全体精度向上
Loss関数別の精度比較
損失
mean acc.
Δ (vs CL)
CL
53.9%
−
MSE
60.7%
+6.8
KL
60.5%
+6.6
VIB
62.1%
+8.2
ca-VIB
62.7%
+8.8
分析:
・ CL → VIB: +8.2pt
KL正則化 (圧縮) が効く
・ VIB → ca-VIB: +0.6pt
コスト項を加えても精度を
下げない (むしろ僅かに改善)
Fig. 2: Query routing accuracy with different loss functions
18


# Page. 19

![Page Image](https://bcdn.docswell.com/page/GJ5MMN4XJ4.jpg)

§4.2 Hyperparameter &amp; Representation Analysis (Fig. 6)
(a) Hyperparameter sensitivity
(b) Learned query affinity
・ β, λ の2D感度マップ
・ 広範囲で性能安定
・ 最適: λ = 0.4 付近
(採用値: β=0.3, λ=0.2)
・ 学習後のクエリ表現と各LLM埋め込みの cos類似度
・ 対角が最大値 (Query(4o)→GPT-4oなど)
⇒ 意味のある特徴を学習
Fig. 6: Analysis of hyperparameters and representations
19


# Page. 20

![Page Image](https://bcdn.docswell.com/page/9E2995VQ7R.jpg)

議論・分析
VIBの優位性:
Webプロンプトの冗長性に対する理論的解。
RouterDCの直接埋め込みはノイズ混入で劣化
限界と課題:
• 2-3モデルの振り分けに限定
• プロンプト条件は1種類に固定
• オフライン大規模評価（Mind2Web等）未実施
• コスト削減が主目的、精度向上は未検討
WebRouterが扱う
扱わない（＝本研究の差分）
モデル
2-3モデルの強/弱
6+モデルの認知多様性
プロンプト
1種類に固定
複数条件の交差効果
目的
コスト削減
精度向上
評価
WebVoyager(オンライン)
Mind2Web(オフライン)
20


# Page. 21

![Page Image](https://bcdn.docswell.com/page/D7Y44K3YEM.jpg)

Conclusion
✓ LLM-brained Web Agent 向けのquery-specific router「WebRouter」を提案
✓ 高運用コスト × ノイズ多冗長プロンプト という二重課題に対し、cost-aware VIB (ca-VIB) 損失で対処
✓ 情報理論的アプローチが Web Agent の運用コストを大幅に削減 (87.8%)、精度低下は最小限 (3.8%)
議論ポイント
・ 評価は3モデルプール × 5サイトに限定 → スケール拡大時の挙動は未検証
・ コスト削減を主目的、精度向上は scope 外
・ Stochastic Binary Mask の &quot;解釈性&quot;
実際にどんなトークンが残るかの分析は無い
21