Autonomous Evaluation and Refinement of Digital Agents

1.8K Views

April 25, 24

#デジタルエージェント #自動評価 #機械学習 #強化学習 #モデル改善

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Autonomous Evaluation and Refinement of Digital Agents Toshi Ito (Shinshu Univ. Takyu Lab. D1) http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル Autonomous Evaluation and Refinement of Digital Agents 著者 Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, Alane Suhr 発表日 2024/4/9 (arxiv) 概要 Webナビゲーションとデバイス制御のためのデジタルエージェントのパフォーマンス向上に貢献するドメイン全般の自動評価モデルの作成と利用方法の提案実装 https://github.com/Berkeley-NLP/Agent-Eval-Refine デジタルエージェントの自律評価および改善 2

https://github.com/Berkeley-NLP/Agent-Eval-Refine

背景 • デジタルエージェントはユーザ指示に基づいてタスクを自動実行する技術である｡ • 現在のエージェントはまだ簡単なタスクでも誤りを犯すことがあり､エージェントを適切に評価･改善を手動ではなく自動化させたい • 自動化にはエージェントのタスクの成功と失敗を見極めることが重要 • 既存のエージェントのパフォーマンスを改善するための自動評価モデルの提案 3

概要 4

目的 • エージェントのパフォーマンスを自動評価するモデルの開発 • パフォーマンスの向上のための評価モデルの利用方法の提案 5

提案手法 • ドメイン一般のニューラルモデルを使用してユーザーの指示とエージェントの軌跡を評価 • End-to-End Approach – 入力から出力までの処理をビジュアル言語モデル（VLM）で一括して行います。 – 一貫性があり処理が速いが、内部の処理メカニズムが不透明になりがちです。 – GPT-4Vという言語モデルを使用する • Modular Caption-then-Reason Approach – 最初に視覚情報からテキスト記述への変換を行い、次にそのテキストを解析して評価する｡ – エラーが発生した際に原因を分析しやすい – captioner（GPT-4V）と、GPT-4または Mixtralを組み合わせて使用する 6

提案手法 • 評価モデルの利用方法としてReflexionと Filtered Behavior Cloningの二つを提案する • Reflexion – エージェントのアクションを評価し､必要に応じた行動を再考し調整を促す｡ – エージェントのアクションが不適切な場合に､その結果を踏まえて再試行する • Filtered Behavior Cloning – ステップごとの評価を提供し､特定の閾値以下の報酬を持つデータを除外する – 成功に影響を与える高報酬の状態･行動ペアのみ利用して学習する – 資源が限られたモデルに対して有効的な施策である 7

実験環境 • End-to-End ApproachとModular Caption-then-Reason Approach をベンチマークで提案手法を評価する – WebArenaとAndroid-in-the-Wildを使ってオラクル評価または人間の判断と自動評価モデルの性能を評価する • Reflexion との統合によるエージェントのパフォーマンス向上の評価 – 現行の最先端のGPT-4ベースのWebArenaエージェントを改善を図った – 最大3ラウンドまでReflexionを使用したときのパフォーマンスを評価 • ドメイン間との一致度評価 – 学習データの少ないiOSデバイス制御で自動評価モデルを使用する – その際に､Filtered Behavior Cloningを使用してモデルをチューニングし、トレーニングデータの質を向上させる 8

実験環境 • Web Arena – Webブラウジングタスクを模擬するオフラインの環境での評価に使用される – ショッピング、地図検索など、多岐にわたるタスクを実行をする • Android-in-the-Wild (AitW) – Androidのデバイス制御に特化したデータセットを基に評価します。 – エージェントの性能を現実世界のタスクに適用する評価基準を提供する • iOSドメイン – iOSデバイス制御のタスクセットはAitWに触発されてデザインされた – タスク数がAitWと比べてかなり少ない – ドメイン間の転送を容易にするため､AitWの設計に合わせている 9

10.

実験結果 • オラクル評価器または人間の判断との精度評価 10

11.

実験結果 • Android-in-the-Wildで異なる評価方法を用いてモデルを評価 11

12.

実験結果 • Reflexionを使用したWebArenaのベンチマークでの異なる評価システムを用いた結果 12

13.

評価 • iOSデバイス制御タスクのタスク成功率 – テストタスク数：52 13

14.

まとめ • Web ArenaとAndroid-in-the-Wildのベンチマークで提案手法の高い精度の実現 • Reflexionとの統合により、パフォーマンス改善が見られた • Filtered Behavior Cloning によりドメイン間の差異を軽減させた 14

15.

今後の課題について • 現行の評価器の改善 • 実験のスケーリングと新しいアルゴリズムの開発 • 言語に基づく説明の活用 • リアルワールドでの安全なデプロイメント 15