【DL輪読会】WEBROUTER: QUERY-SPECIFIC ROUTER VIA VARIATIONAL INFORMATION BOTTLENECK FOR COST-SENSITIVE WEB AGENT

114 Views

May 07, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 69.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 53K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.3K

各ページのテキスト

“WebRouter: Query-specific Router via Variational Information DEEP LEARNING JP DEEP [DLLEARNING Papers] JP Bottleneck for Cost-sensitive Web Agent” [DL Papers] Presenter: Sayaka Yamashita, Matsuo Lab M2 http://deeplearning.jp/

http://deeplearning.jp/

論文情報論文誌 “WebRouter: Query-specific Router via Variational Information Bottleneck for Cost-sensitive Web Agent” ICASSP 2026 Under Review 著者 Tao Li, Jinlong Hu, Yang Wang, Junfeng Liu, Xuejun Liu Link https://arxiv.org/abs/2510.11221 (2025年10月) キーワード GUI Agent, LLM Ensemble, Information Bottleneck 2

https://arxiv.org/abs/2510.11221

論文を選んだきっかけ • 研究との直接的な関連性 – 自身の研究テーマ「Webエージェントにおけるプロンプト脆弱性とMeta-Agent Router」と最も近い先行研究 – Webエージェント環境でのLLMルーティングという同一の問題設定を扱っている • 情報理論的アプローチの新規性 – 従来のルーティング手法（RouteLLM等）は嗜好データや単純な分類器を使用 – WebRouterはVIBでプロンプトの冗長性に対する理論的解を提案 • 技術的な興味 – WebRouterはWeb特化ルーティングの初の研究であり、今後のWebエージェント研究の基盤になる可能性が高い – 情報ボトルネック（VIB）という情報理論的手法をエージェントに応用した点が技術的に興味深い 3

論文の概要背景 LLM-brained Web Agent はWebタスクを自動化するが、コスト-性能のトレードオフが深刻・ GPT-4oで全タスク処理 → $0.98/task と高額・単一の "best model" は非現実的提案手法: WebRouter 各Webクエリを最もコスト効率の良いLLMに動的に振り分ける情報理論的観点 (VIB) で訓練されたquery-specific router 貢献 ① Web Agent ルーティングを情報理論的観点から定式化した最初の研究 VIBを用いて、Web Agent特有のノイズの多い・冗長なプロンプトを処理 ② 事前定義されたコスト関数を統合した cost-aware VIB 損失を提案精度とコストの間に理論的なトレードオフを構築 ③ 5つの実在Webサイトで SOTA のコスト効率を達成コスト削減 87.8%、精度低下わずか 3.8% 4

Related Works 手法アプローチ限界 RouteLLM (ICLR 2025) 嗜好データでルーター学習 Web特化なし、冗長性未対処 RouterDC (2024) Dual Contrastive Learning Webプロンプトのノイズに弱い FrugalGPT (2023) カスケード型（安→高）レイテンシ増大 MasRouter (ACL 2025) MAS向け3段カスケード Web特化なし 5

Information Bottleneck (IB) 原理 — Eq.(1) IB原理 [Tishby et al., 2000] 入力 X から圧縮表現 Z を学習し、タスク Y に必要な情報のみを残す枠組み目的関数 (式 1): I(Z;X) 最小化 I(Z;Y) 最大化 Y ・ I(Z; Y): 圧縮表現Zとタスク変数Yの相互情報量 → 最大化・ I(Z; X): 入力XとZの相互情報量 → 最小化 (=情報を圧縮) ・ β: 圧縮度のトレードオフを制御するハイパーパラメータ入力 (冗長) 圧縮表現ターゲット (LLM選択) 図: IB原理の概念図 (圧縮しつつターゲット情報は保持) 6

Problem Formulation 問題設定・クエリ q_i: Webタスクの複雑なプロンプト = ユーザーの高レベルゴール ⊕ エージェントの行動履歴 ⊕ 現在のWeb表現・候補LLMプール: 論文では T=3: Gemini-2.5-Flash, GPT-4.1-mini, GPT-4o ・訓練データ: yi = ground-truth outcome 学習目標: ルーター ψ を学習する各LLMに対するクエリの適合度を出力 → 教師信号 yi をどう作るか? → Scoring へ 7

[beta]

Scoring — 教師信号の設計
狙い: タスク性能と運用コストのバランスを取る教師信号
Step 1: コスト
プロンプト・補完トークン数 × 単価で運用コストを算出

Step 2: 二段階で正規化
1. 指数効用 U(c)=exp(−c) で高コストを強くペナルティ
2. min-max正規化 → S_cost ∈ [0,1]
Step 3: スコア
タスク成否 P × コストスコア S_cost の積
→ "正解 かつ 安価" のみ正のシグナル
スコアは "成功 かつ 安価" のときのみ非ゼロ → 高コントラストな教師信号
Task成否
P(q,M_t)
∈ {0,1}

コストC
Eq.(2)

U(c)=exp(−c)
指数効用

min-max
正規化

S_cost∈[0,1]

スコアs_i^(t)
= P × S_cost
Eq.(3)

8

Scoring — 運用コスト運用コスト C(q_i, M_t) の定義変数意味 n_p プロンプトトークン数 (入力) n_c 補完トークン数 (出力) c_p^(t) モデル M_t のプロンプト単価 ($/M tokens) c_c^(t) モデル M_t の補完単価 ($/M tokens) 注意: ルーティング時点では n_c (出力長) は未知 → Eq.(6)では unit cost C(M_t) ≈ c_p^(t) + c_c^(t) で近似する論文での実数値例 (per million tokens): Gemini-2.5-Flash: $0.30 / $2.50 GPT-4.1-mini: $0.40 / $1.60 GPT-4o: $5 / $15 9

10.

[beta]

Scoring — トレーニングスコア (Eq. 3)

P(q_i, M_t) ∈ {0, 1} — タスク成否
・ 1: タスク全体が正常に完了
・ 0: 失敗

※ タスクレベルの成否で判断
(1タスク=複数のステップ qi を含む)

S_cost(C_i^(t)) ∈ [0, 1] — コストスコア
1. U(c) = exp(−c) で効用に変換
→ 高コストを強くペナルティ
2. 全モデル間で min-max 正規化
→ 1 = 最も安価, 0 = 最も高価

=> s_i^(t) は "成功 かつ 安価" のときのみ非ゼロ ⇒ 高コントラストな supervision 信号
Eq.(6)の予測誤差項では softmax(s_i / τ) をターゲット分布として使用

10

11.

Web Agent クエリの冗長性 — VIB導入の動機 Web Agent クエリの冗長性問題 q_i は次の動的な連結: ・高レベルゴール (固定, 短い) ・現在のWeb表現 (DOM等, 長い) ・行動履歴 (タスク進行で増大) 結果 (Fig. 3): ・多くのクエリが数千トークンを超える・ GPT-4o中央値: 2,615 / 4.1Mini: 4,999 / 2.5Flash: 8,372 直接埋め込み式のルーティング (RouterDC等) は冗長性に弱い → 性能低下 Fig. 3: クエリ長分布 — 大部分が 10^3.5〜10^5 トークン ⇒ IB原理が解決策: "ルーティング必要最小限の情報" のみを保持する圧縮表現を学習 11

12.

VIB Loss — 変分上界の導出 (Eq. 4) 第1項: 予測誤差 E_p(z|q)[ −log p_φ(y|z) ] 第2項: 圧縮正則化 β·KL[ p_θ(z|q) ∥ r(z) ] ・ p_θ(z|q): 確率的エンコーダ・クロスエントロピー損失・圧縮表現 z から正解 y を再構成可能か・ r(z): 事前分布 (圧縮の参照) ・ I(Z;Y) の下界を最大化することに対応・ I(Z;X) の上界を最小化することに対応課題: Web Agentクエリは長く、トークン単位で冗長性が高い → より効果的な圧縮の仕組みが必要 → Stochastic Binary Mask の導入 (次スライド) 12

13.

Stochastic Binary Mask による圧縮 (Eq. 5) トークンレベルの冗長性に対処するための具体実装 [Paranjape et al., 2020 を参考] 1. 圧縮表現 z を「特徴量 h_q とバイナリマスク m の要素積」として定義: 2. このマスク化定式により、KL項は m の分布同士のKLに比例して簡略化される: 概念図: 各トークン位置で 0/1 マスクを学習 → ノイズトークンを実質的に "消す" 13

14.

cost-aware VIB Loss — (Eq. 6) 第1項: 予測誤差クロスエントロピー損失教師信号は softmax(s_i/τ) (s_i は Eq.3 で定義) 第2項: 圧縮 (β·KL) マスク m_i の分布を事前分布 r(m_i) に近づける (Eq.5 の簡略化を利用) 第3項: コスト正則化 (新規) モデル選択確率と単位コスト C(M_t) ≈ c_p^(t) + c_c^(t)の積 → 安価モデルを優遇 14

15.

実験設定 Dataset ・ WebVoyager [He et al. 2024] の 5サイト Apple, Arxiv, Coursera, Google, Huggingface ・各サイト最低46タスク・訓練データ: 11,800 samples Baselines モデル Input/M Output/M 1タスクコスト Gemini-2.5Flash $0.30 $2.50 $0.06 GPT-4.1-mini $0.40 $1.60 $0.21 GPT-4o $2.50 $10.00 $0.98 ・ browser-use + 単一LLM (3モデル) ・ RouterDC (Dual Contrastive Learning) Implementation ・ Encoder ψ: mDeBERTaV3-base (768-dim) ・ Optimizer: AdamW, LR=2×10⁻⁵ ・ Steps: 2000 ・ Hyperparams: β = 0.3, λ = 0.2 15

16.

実験結果① — Main Results Table 1: Main Results of WebRouter (best in bold, second-best underlined) 分析 ① vs GPT-4o: コスト 87.8% 削減 ($0.98 → $0.12), 精度低下わずか 3.8% (86.1% → 82.3%) ② vs RouterDC: 精度 +14.5pt (67.8% → 82.3%), ステップ数も改善 (9.40 → 8.38) ③ サイトごとの傾向: Coursera/Google で GPT-4oと同精度を 1/8 のコストで達成 16

17.

実験結果② — コスト構成分析 (a) Price breakdown (b) Average running time ・プロンプトトークン (緑) が全モデルで >70% を占める・ WebRouter: 194.1秒・ Eq.(2) のうち n_p · c_p^(t) が支配的・ GPT-4o: 168.8秒 (基準) ・ ca-VIB は安価モデルへ流すことでprompt cost自体を抑制・ 14% slower のみで87.8% cost削減を達成 Fig. 5: Analysis of cost composition and execution time 17

18.

§4.2 Ablation — 損失関数の比較分析: - CLからVIBへの改善 (+8.2pt) → KL正則化による圧縮が効いている → 冗長なDOM情報の除去がルーティング精度を改善 - VIBからca-VIBへの改善 (+0.6pt) → コスト正則化が精度を下げずにむしろ改善 → 安いモデルに流すことが正則化として機能する可能性 → 安いモデルが得意タスクを正しく振り分け全体精度向上 Loss関数別の精度比較損失 mean acc. Δ (vs CL) CL 53.9% − MSE 60.7% +6.8 KL 60.5% +6.6 VIB 62.1% +8.2 ca-VIB 62.7% +8.8 分析: ・ CL → VIB: +8.2pt KL正則化 (圧縮) が効く・ VIB → ca-VIB: +0.6pt コスト項を加えても精度を下げない (むしろ僅かに改善) Fig. 2: Query routing accuracy with different loss functions 18

19.

§4.2 Hyperparameter & Representation Analysis (Fig. 6) (a) Hyperparameter sensitivity (b) Learned query affinity ・ β, λ の2D感度マップ・広範囲で性能安定・最適: λ = 0.4 付近 (採用値: β=0.3, λ=0.2) ・学習後のクエリ表現と各LLM埋め込みの cos類似度・対角が最大値 (Query(4o)→GPT-4oなど) ⇒ 意味のある特徴を学習 Fig. 6: Analysis of hyperparameters and representations 19

20.

議論・分析 VIBの優位性: Webプロンプトの冗長性に対する理論的解。 RouterDCの直接埋め込みはノイズ混入で劣化限界と課題: • 2-3モデルの振り分けに限定 • プロンプト条件は1種類に固定 • オフライン大規模評価（Mind2Web等）未実施 • コスト削減が主目的、精度向上は未検討 WebRouterが扱う扱わない（＝本研究の差分）モデル 2-3モデルの強/弱 6+モデルの認知多様性プロンプト 1種類に固定複数条件の交差効果目的コスト削減精度向上評価 WebVoyager(オンライン) Mind2Web(オフライン) 20

21.

Conclusion ✓ LLM-brained Web Agent 向けのquery-specific router「WebRouter」を提案 ✓ 高運用コスト × ノイズ多冗長プロンプトという二重課題に対し、cost-aware VIB (ca-VIB) 損失で対処 ✓ 情報理論的アプローチが Web Agent の運用コストを大幅に削減 (87.8%)、精度低下は最小限 (3.8%) 議論ポイント・評価は3モデルプール × 5サイトに限定 → スケール拡大時の挙動は未検証・コスト削減を主目的、精度向上は scope 外・ Stochastic Binary Mask の "解釈性" 実際にどんなトークンが残るかの分析は無い 21