114 Views
May 07, 26
スライド概要
DL輪読会資料
“WebRouter: Query-specific Router via Variational Information DEEP LEARNING JP DEEP [DLLEARNING Papers] JP Bottleneck for Cost-sensitive Web Agent” [DL Papers] Presenter: Sayaka Yamashita, Matsuo Lab M2 http://deeplearning.jp/
論文情報 論文誌 “WebRouter: Query-specific Router via Variational Information Bottleneck for Cost-sensitive Web Agent” ICASSP 2026 Under Review 著者 Tao Li, Jinlong Hu, Yang Wang, Junfeng Liu, Xuejun Liu Link https://arxiv.org/abs/2510.11221 (2025年10月) キーワード GUI Agent, LLM Ensemble, Information Bottleneck 2
論文を選んだきっかけ • 研究との直接的な関連性 – 自身の研究テーマ「Webエージェントにおけるプロンプト脆弱性とMeta-Agent Router」と最も近い先行研究 – Webエージェント環境でのLLMルーティングという同一の問題設定を扱っている • 情報理論的アプローチの新規性 – 従来のルーティング手法(RouteLLM等)は嗜好データや単純な分類器を使用 – WebRouterはVIBでプロンプトの冗長性に対する理論的解を提案 • 技術的な興味 – WebRouterはWeb特化ルーティングの初の研究であり、今後のWebエージェント研 究の基盤になる可能性が高い – 情報ボトルネック(VIB)という情報理論的手法をエージェントに応用した点が技 術的に興味深い 3
論文の概要 背景 LLM-brained Web Agent はWebタスクを自動化するが、コスト-性能のトレードオフが深刻 ・ GPT-4oで全タスク処理 → $0.98/task と高額 ・ 単一の "best model" は非現実的 提案手法: WebRouter 各Webクエリを最もコスト効率の良いLLMに動的に振り分ける 情報理論的観点 (VIB) で訓練されたquery-specific router 貢献 ① Web Agent ルーティングを情報理論的観点から定式化した最初の研究 VIBを用いて、Web Agent特有のノイズの多い・冗長なプロンプトを処理 ② 事前定義されたコスト関数を統合した cost-aware VIB 損失を提案 精度とコストの間に理論的なトレードオフを構築 ③ 5つの実在Webサイトで SOTA のコスト効率を達成 コスト削減 87.8%、精度低下わずか 3.8% 4
Related Works 手法 アプローチ 限界 RouteLLM (ICLR 2025) 嗜好データでルーター学習 Web特化なし、冗長性未対処 RouterDC (2024) Dual Contrastive Learning Webプロンプトのノイズに弱い FrugalGPT (2023) カスケード型(安→高) レイテンシ増大 MasRouter (ACL 2025) MAS向け3段カスケード Web特化なし 5
Information Bottleneck (IB) 原理 — Eq.(1) IB原理 [Tishby et al., 2000] 入力 X から圧縮表現 Z を学習し、 タスク Y に必要な情報のみを残す枠組み 目的関数 (式 1): I(Z;X) 最小化 I(Z;Y) 最大化 Y ・ I(Z; Y): 圧縮表現Zとタスク変数Yの相互情報量 → 最大化 ・ I(Z; X): 入力XとZの相互情報量 → 最小化 (=情報を圧縮) ・ β: 圧縮度のトレードオフを制御するハイパーパラメータ 入力 (冗長) 圧縮表現 ターゲット (LLM選択) 図: IB原理の概念図 (圧縮しつつターゲット情報は保持) 6
Problem Formulation 問題設定 ・クエリ q_i: Webタスクの複雑なプロンプト = ユーザーの高レベルゴール ⊕ エージェントの行動履歴 ⊕ 現在のWeb表現 ・候補LLMプール: 論文では T=3: Gemini-2.5-Flash, GPT-4.1-mini, GPT-4o ・訓練データ: yi = ground-truth outcome 学習目標: ルーター ψ を学習する 各LLMに対するクエリの適合度を出力 → 教師信号 yi をどう作るか? → Scoring へ 7
Scoring — 教師信号の設計
狙い: タスク性能と運用コストのバランスを取る教師信号
Step 1: コスト
プロンプト・補完トークン数 × 単価で運用コストを算出
Step 2: 二段階で正規化
1. 指数効用 U(c)=exp(−c) で高コストを強くペナルティ
2. min-max正規化 → S_cost ∈ [0,1]
Step 3: スコア
タスク成否 P × コストスコア S_cost の積
→ "正解 かつ 安価" のみ正のシグナル
スコアは "成功 かつ 安価" のときのみ非ゼロ → 高コントラストな教師信号
Task成否
P(q,M_t)
∈ {0,1}
コストC
Eq.(2)
U(c)=exp(−c)
指数効用
min-max
正規化
S_cost∈[0,1]
スコアs_i^(t)
= P × S_cost
Eq.(3)
8
Scoring — 運用コスト 運用コスト C(q_i, M_t) の定義 変数 意味 n_p プロンプトトークン数 (入力) n_c 補完トークン数 (出力) c_p^(t) モデル M_t のプロンプト単価 ($/M tokens) c_c^(t) モデル M_t の補完単価 ($/M tokens) 注意: ルーティング時点では n_c (出力長) は未知 → Eq.(6)では unit cost C(M_t) ≈ c_p^(t) + c_c^(t) で近似する 論文での実数値例 (per million tokens): Gemini-2.5-Flash: $0.30 / $2.50 GPT-4.1-mini: $0.40 / $1.60 GPT-4o: $5 / $15 9
Scoring — トレーニングスコア (Eq. 3)
P(q_i, M_t) ∈ {0, 1} — タスク成否
・ 1: タスク全体が正常に完了
・ 0: 失敗
※ タスクレベルの成否で判断
(1タスク=複数のステップ qi を含む)
S_cost(C_i^(t)) ∈ [0, 1] — コストスコア
1. U(c) = exp(−c) で効用に変換
→ 高コストを強くペナルティ
2. 全モデル間で min-max 正規化
→ 1 = 最も安価, 0 = 最も高価
=> s_i^(t) は "成功 かつ 安価" のときのみ非ゼロ ⇒ 高コントラストな supervision 信号
Eq.(6)の予測誤差項では softmax(s_i / τ) をターゲット分布として使用
10
Web Agent クエリの冗長性 — VIB導入の動機 Web Agent クエリの冗長性問題 q_i は次の動的な連結: ・ 高レベルゴール (固定, 短い) ・ 現在のWeb表現 (DOM等, 長い) ・ 行動履歴 (タスク進行で増大) 結果 (Fig. 3): ・ 多くのクエリが数千トークンを超える ・ GPT-4o中央値: 2,615 / 4.1Mini: 4,999 / 2.5Flash: 8,372 直接埋め込み式のルーティング (RouterDC等) は冗長性に弱い → 性能低下 Fig. 3: クエリ長分布 — 大部分が 10^3.5〜10^5 トークン ⇒ IB原理が解決策: "ルーティング必要最小限の情報" のみを保持する圧縮表現を学習 11
VIB Loss — 変分上界の導出 (Eq. 4) 第1項: 予測誤差 E_p(z|q)[ −log p_φ(y|z) ] 第2項: 圧縮正則化 β·KL[ p_θ(z|q) ∥ r(z) ] ・ p_θ(z|q): 確率的エンコーダ ・ クロスエントロピー損失 ・ 圧縮表現 z から正解 y を再構成可能か ・ r(z): 事前分布 (圧縮の参照) ・ I(Z;Y) の下界を最大化することに対応 ・ I(Z;X) の上界を最小化することに対応 課題: Web Agentクエリは長く、トークン単位で冗長性が高い → より効果的な圧縮の仕組みが必要 → Stochastic Binary Mask の導入 (次スライド) 12
Stochastic Binary Mask による圧縮 (Eq. 5) トークンレベルの冗長性に対処するための具体実装 [Paranjape et al., 2020 を参考] 1. 圧縮表現 z を「特徴量 h_q とバイナリマスク m の要素積」として定義: 2. このマスク化定式により、KL項は m の分布同士のKLに比例して簡略化される: 概念図: 各トークン位置で 0/1 マスクを学習 → ノイズトークンを実質的に "消す" 13
cost-aware VIB Loss — (Eq. 6) 第1項: 予測誤差 クロスエントロピー損失 教師信号は softmax(s_i/τ) (s_i は Eq.3 で定義) 第2項: 圧縮 (β·KL) マスク m_i の分布を 事前分布 r(m_i) に近づける (Eq.5 の簡略化を利用) 第3項: コスト正則化 (新規) モデル選択確率と単位コスト C(M_t) ≈ c_p^(t) + c_c^(t)の積 → 安価モデルを優遇 14
実験設定 Dataset ・ WebVoyager [He et al. 2024] の 5サイト Apple, Arxiv, Coursera, Google, Huggingface ・ 各サイト最低46タスク ・ 訓練データ: 11,800 samples Baselines モデル Input/M Output/M 1タスクコスト Gemini-2.5Flash $0.30 $2.50 $0.06 GPT-4.1-mini $0.40 $1.60 $0.21 GPT-4o $2.50 $10.00 $0.98 ・ browser-use + 単一LLM (3モデル) ・ RouterDC (Dual Contrastive Learning) Implementation ・ Encoder ψ: mDeBERTaV3-base (768-dim) ・ Optimizer: AdamW, LR=2×10⁻⁵ ・ Steps: 2000 ・ Hyperparams: β = 0.3, λ = 0.2 15
実験結果① — Main Results Table 1: Main Results of WebRouter (best in bold, second-best underlined) 分析 ① vs GPT-4o: コスト 87.8% 削減 ($0.98 → $0.12), 精度低下わずか 3.8% (86.1% → 82.3%) ② vs RouterDC: 精度 +14.5pt (67.8% → 82.3%), ステップ数も改善 (9.40 → 8.38) ③ サイトごとの傾向: Coursera/Google で GPT-4oと同精度を 1/8 のコストで達成 16
実験結果② — コスト構成分析 (a) Price breakdown (b) Average running time ・ プロンプトトークン (緑) が全モデルで >70% を占める ・ WebRouter: 194.1秒 ・ Eq.(2) のうち n_p · c_p^(t) が支配的 ・ GPT-4o: 168.8秒 (基準) ・ ca-VIB は安価モデルへ流すことでprompt cost自体を抑制 ・ 14% slower のみ で87.8% cost削減を達成 Fig. 5: Analysis of cost composition and execution time 17
§4.2 Ablation — 損失関数の比較 分析: - CLからVIBへの改善 (+8.2pt) → KL正則化による圧縮が効いている → 冗長なDOM情報の除去がルーティング精度を改善 - VIBからca-VIBへの改善 (+0.6pt) → コスト正則化が精度を下げずにむしろ改善 → 安いモデルに流すことが正則化として機能する可能性 → 安いモデルが得意タスクを正しく振り分け全体精度向上 Loss関数別の精度比較 損失 mean acc. Δ (vs CL) CL 53.9% − MSE 60.7% +6.8 KL 60.5% +6.6 VIB 62.1% +8.2 ca-VIB 62.7% +8.8 分析: ・ CL → VIB: +8.2pt KL正則化 (圧縮) が効く ・ VIB → ca-VIB: +0.6pt コスト項を加えても精度を 下げない (むしろ僅かに改善) Fig. 2: Query routing accuracy with different loss functions 18
§4.2 Hyperparameter & Representation Analysis (Fig. 6) (a) Hyperparameter sensitivity (b) Learned query affinity ・ β, λ の2D感度マップ ・ 広範囲で性能安定 ・ 最適: λ = 0.4 付近 (採用値: β=0.3, λ=0.2) ・ 学習後のクエリ表現と各LLM埋め込みの cos類似度 ・ 対角が最大値 (Query(4o)→GPT-4oなど) ⇒ 意味のある特徴を学習 Fig. 6: Analysis of hyperparameters and representations 19
議論・分析 VIBの優位性: Webプロンプトの冗長性に対する理論的解。 RouterDCの直接埋め込みはノイズ混入で劣化 限界と課題: • 2-3モデルの振り分けに限定 • プロンプト条件は1種類に固定 • オフライン大規模評価(Mind2Web等)未実施 • コスト削減が主目的、精度向上は未検討 WebRouterが扱う 扱わない(=本研究の差分) モデル 2-3モデルの強/弱 6+モデルの認知多様性 プロンプト 1種類に固定 複数条件の交差効果 目的 コスト削減 精度向上 評価 WebVoyager(オンライン) Mind2Web(オフライン) 20
Conclusion ✓ LLM-brained Web Agent 向けのquery-specific router「WebRouter」を提案 ✓ 高運用コスト × ノイズ多冗長プロンプト という二重課題に対し、cost-aware VIB (ca-VIB) 損失で対処 ✓ 情報理論的アプローチが Web Agent の運用コストを大幅に削減 (87.8%)、精度低下は最小限 (3.8%) 議論ポイント ・ 評価は3モデルプール × 5サイトに限定 → スケール拡大時の挙動は未検証 ・ コスト削減を主目的、精度向上は scope 外 ・ Stochastic Binary Mask の "解釈性" 実際にどんなトークンが残るかの分析は無い 21