【DL輪読会】UFO: A UI-Focused Agent for Windows OS Interaction

1.8K Views

March 01, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 2.09MB)

関連スライド

各ページのテキスト

DEEP LEARNING JP UFO: A UI-Focused Agent for Windows OS Interaction [DL Papers] Tomohiro Yamashita, The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ◼ タイトル： UFO: A UI-Focused Agent for Windows OS Interaction ◼ 著者・所属： • Chaoyun Zhang∗, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang & Qi Zhang • Microsoft ◼ arxiv: • https://arxiv.org/abs/2402.07939 ◼ Github • https://github.com/microsoft/UFO ◼ 選んだ理由 • 実際に動かしてみると、パソコン上のGUI Agentとして一つ抜けた性能を持つ印象を持ったため。 • AGI(汎用人工知能)関連で気になったため。 ※特に明示がない場合、画像は紹介論文から引用しています。 2

概要 Windows OS上で動作するGUI Agent ・ GUI Agentとは・ GUIを介してアプリケーションを操作することで、人間が行う動作を自動化するもの・今回の手法(UFO: A UI-Focused Agent for Windows OS Interaction)の特徴・ Dual-agent Frameworkで、アプリの選択と操作のAgentを分ける・パソコン上のOSデータを入力として取得する 3

関連研究 4 CogAgent ・GUI Agent用に学習された18BのVLM ・Mind2Web, AITWでSOTA ・画面の状態から次の状態に遷移するための動作を画面上の座標付きで出力する Hong, Wenyi, et al. "Cogagent: A visual language model for gui agents." arXiv preprint arXiv:2312.08914 (2023). MM-Navigator ・GPT-4Vベースのスマホ用GUI Agent ・ボタンや入力フィールドなどに番号を付けた画像をGPT-4Vに入力することで、その出力と実際の位置を対応付ける(Set-of-Mark Prompting) Yang, Jianwei, et al. "Set-of-mark prompting unleashes extraordinary visual grounding in gpt-4v." arXiv preprint arXiv:2310.11441 (2023). Yan, An, et al. "Gpt-4v in wonderland: Large multimodal models for zeroshot smartphone gui navigation." arXiv preprint arXiv:2311.07562 (2023).

手法 Dual-agent Framework 5 全体の流れ 1. AppAgentが使用するアプリと、大まかな実行計画を立てる 2. AppAgentの立てた計画に従って、ActAgent がアプリ上で操作→観測→計画修正を繰り返す AppAgent : アプリケーションの選択を担当 ActAgent : アプリケーションの操作を担当 3. 必要によってアプリケーションを移動し、2を繰り返す

AppAgent (1/2) 6 AppAgent アプリケーションの選択を行うagent 入力説明 User Request ユーザの要望 Desktop Screenshots デスクトップのスクリーンショット Application Information 使用可能なアプリケーションの名前とタイプ Memory 前のstepでの行動の結果など Example アプリケーション選択の出力例 8つ程度出力説明 Observations デスクトップ画面の詳細な説明 Thoughts 次のステップで行うべきこと Selected Application 操作を行うべきアプリケーション Status タスクの実行状況 Global Plan 今後の大まかな計画 Comment 進捗のまとめ、ポイント

AppAgent (2/2) ・ ObervationとThoughtを先に出力させることで、アプリ選択に論理的一貫性を持たせている。 7

ActAgent (1/2) 8 ActAgent アプリケーションの実行を行うagent 入力(赤字はAppAgentとの差があるもの) 説明 User Request ユーザの要望 Screenshots (i)前のstep (ii)今回のstep (iii)今回のstep(アノテーション付き) Control Information アプリケーション上で実行可能な操作の一覧 Memory 前のstepでの行動の結果など Example アプリ上での行動の選択の出力例(8つ) 出力説明 Observations デスクトップ画面の詳細な説明 Thoughts 行動を選択した説明 Selected Control 行動を加える対象(ex. ボタン) Function 呼び出す関数とその引数(ex. クリック, 文字入力) Status タスクの実行状況 Local Plan Global Planよりも詳細な計画 Comment 進捗のまとめ、述べるべきポイント

ActAgent (2/2) ・スクショを三種類入れることで、前回の操作の結果の分析や、UI要素の認識の性能向上を図る 9

10.

UI要素の知覚と操作方法 10 ・pywinautoというPythonライブラリで・UI要素の取得・操作を行う。UI要素の名前やタイプなどを把握し、行動を選択する際に用いている。・pywinauto 自体は、Windows UI Automation API を叩いて情報取得を行っている。アノテーション例

11.

実験 (1/2) 11 ・Windows Bench という独自のベンチマークを作成・Outlook, Word, PowerPointを含む9つのアプリケーションにわたる、 50個のリクエストに対する実行結果を計測・Windows用のAgentが存在しないため、GPT-3.5とGPT-4をベースラインに設定 Success : タスクの成功率 Step : タスク実行に要したステップ数 Completion Rate : 正しいステップ数要したステップ数 Safeguard Rate : ユーザの確認を要求する頻度

12.

実験 (2/2) 12 ・ UFOはベンチマーク全体で、86%のタスク成功率でGPT-4の2倍以上・タスク実行に必要なstep数もGPT-4と比べると減少しており、より効率的になっている・ベースラインのモデルと差が生じた原因として、1. アプリケーションとの相互作用性の有無 2. 画像入力の有無があると分析している Success : タスクの成功率 Step : タスク実行に要したステップ数 Completion Rate : 正しいステップ数要したステップ数 Safeguard Rate : ユーザの確認を要求する頻度

13.

UFOの実行例 13 PowerPoint上の論文をインターネットで検索して、要約を作成させている例・ PowerPointの中身を読み、Google検索を行い、arxivを開く。・その次に、ユーザの要求に従って、PDFを開き中身を要約する。・実際に動かしてみると、同様の動作を確認した。

14.

まとめ • Windows用のGUI Agentを初めて開発し、素のGPT-4の2倍以上のタスク成功率を示した。 • UFOは、 1. 画像+pywinautoによるUI知覚 2. Dual-agent Framework 3. GPT-4Vベースという特徴をもつ。 14

【DL輪読会】UFO: A UI-Focused Agent for Windows OS Interaction

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト