【DL輪読会】TaskBench: Benchmarking Large Language Models for Task Automation

153 Views

September 18, 25

#LLM #ベンチマーク #タスク自動化 #ツール利用 #エージェント

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] TaskBench: Benchmarking Large Language Models for Task Automation Presenter: Sayaka Yamashita, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 論文名 – TaskBench: Benchmarking Large Language Models for Task Automation • 著者 – Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang • 発表学会 – 2025 NeurIPS – 2024 ICLRポスター • リンク – https://arxiv.org/pdf/2311.18760 – https://github.com/microsoft/JARVIS 2

論文を選んだきっかけ 1. 研究との親和性 • 自身の行う研究分野であるWebエージェントやLLMエージェントとの親和性 • タスクの分解と外部ツール呼び出し、体系的評価を行うベンチマークの提案などの部分も、自分の研究テーマと非常に親和性が高いと考えた。 2. 既存研究の限界を超える新規性 • ベンチマークの汎用性 • 従来のベンチマークは単一ツール呼び出しや単純なAPI操作に偏っていたが、本論文はTool Graph という仕組みを導入し、ツール間の依存関係や複雑なタスクフローもカバーすることで実際の Webエージェント研究で現実的に直面する複雑性にも関連する重要な観点だと考えた 3. 評価手法の網羅性 • 提案された TaskEval には網羅性があり応用が効きそうだと考えた • タスク分解、ツール選択、パラメータ予測という3段階を独立に評価可能である仕組みは、エージェントで直面するどこで失敗しているのかを切り分けられる仕組みとして参考になると考えた。 3

概要 • • 概要：LLMによるタスク自動化能力を体系的評価するため新しいベンチマーク TaskBenchを提案。 TaskBenchはタスクを分解・ツール選択・パラメータ予測の3段階に整理し、複数ツールの依存関係を表現できるTool Graphと、高品質な学習データを生成するBack-Instructに基づき構築される。さらに評価枠組み TaskEvalを導入し、LLMが複雑なツール連携タスクを行う能力を測定可能にした。貢献 – TaskBenchの提案：Tool Graphを用いNodeからChain、DAGまで幅広いタスク構造をカバー。17,331サンプル規模のベンチマークを構築。 – Back-Instructの導入：ツールグラフから自然なユーザインストラクション、分解手順、実行グラフを逆生成し、品質管理を組み合わせたデータ生成手法を開発。 – TaskEvalによる多段階評価：タスク分解にはROUGE、ツール選択にはNode-F1/Edge-F1/NED、パラメータ予測にはt-F1/v-F1を採用し、失敗箇所を段階別に診断可能にした。 – 実験的知見の提示： • GPT-4が最も高性能だが、特に依存関係（Edge-F1）と引数値（v-F1）の予測が難所。 • コード事前学習を経たモデルはパラメータ予測精度が向上。 • 評価指標は人手評価と高い相関を持ち、信頼性を確認。 4

Introduction • LLMの標準化された能力を測るベンチマークの不足 LLM による自律エージェントが台頭する中で、複雑なユーザインストラクションをサブタスクへ分解し、外部ツールを呼び出して実行する能力が中核である中で、その能力を標準化して測るベンチマークが不足していた。

Related Works LLMと外部ツールとの連携を評価するベンチマークはいくつか存在するものの、データ生成方法やツール依存関係のモデル化、評価方法においてそれぞれ特徴と限界がある。 • APIBench、ToolBench • APIドキュメントを用いてタスクを生成 • △テンプレートに基づくことで生成されるタスクは、論理的な一貫性が限定的である可能性 • MetaTool • ツールの要否判断に焦点 • △複雑なツール依存関係のモデル化はしていない ↓ • TaskBench • ツールグラフを用いてツール間の現実的な依存関係をモデル化し、複雑なツールの相互作用を正確にシミュレート • バックインストラクションから生成される指示とツールサブグラフが整合しデータの信頼性が向上

TaskBench ① 1. ツールグラフタスク自動化では複数のサブタスクが時間的・リソース的な依存関係を持つ複雑さを捉えるためにツールグラフという概念を導入するツールグラフ＝ツール(T)の集合とツール間の依存関係(D)の集合で定義されるグラフ構造 G＝{T,D}

TaskBench ② 2. データセットの構築 ①ツールグラフの構築様々なツールを集め、それらの間の依存関係を定義してツールグラフを構築本研究では、Hugging Face、Multimedia、Daily Life APIsの3ドメインでツールグラフを構築 ② グラフからのサンプリング構築したツールグラフから、様々な複雑さのタスクをシミュレートするためにサブグラフをサンプリング • ノード (Node): 単一のツール呼び出し。単純なタスクに対応 • チェーン (Chain): 逐次的なツール呼び出し。段階的な実行が必要なタスクに対応 • 有向非巡回グラフ (DAG): より複雑なツール呼び出し。複数ツールに依存したり複数の後続ツールに影響を与える ③ バックインストラクトサンプリングしたツールサブグラフに基づいて LLMにユーザー指示を生成させるプロセス。 • ツールサブグラフからユーザー指示生成 • 生成された指示に基づきLLMにツールパラメータ補完最終的なツール呼び出しグラフとタスク分解ステップ

TaskBench ③ 3. 品質管理高品質なデータを保証するため、多段階の品質管理プロセスを導入 • 自己批評メカニズム: 生成されたデータと元のツールサブグラフとの整合性を、LLM自身またはルールベースでチェックし、質の低いデータを除外 • 人間による検証: 専門家が生成された指示の論理性や実用性をレビューしデータセットの品質をさらに高める

10.

TaskBench ④ 4. データセット品質の評価データセットの品質を評価するために人間による評価を行う • 評価指標：①自然さ (Naturalness)②複雑さ (Complexity)③整合性 (Alignment)の3 つ • 比較対象： • ①Back-Instruct w/o edges：ツール間の依存関係（エッジ）情報を使わない • ②Self-Instruct：手動ラベルのデモからツールを選択・指示生成するもの • 結果：提案手法であるBack-Instructが自然さと複雑さで最も高いスコアを獲得 • ツールグラフ依存関係モデリングが複雑な指示生成の上で重要と示された

11.

TaskEval ① LLMのタスク自動化能力を包括的に評価するための評価フレームワーク 1. タスク分解 LLMが複雑なタスクを理解し、サブタスクに分解する能力を評価する • 評価指標：ROUGEスコア（R1, R2, RL） • 結果： • GPT-4が一貫して優れたタスク分解能力を示した • コード中心の事前学習を行ったCodellama-13bは「Daily Life APIs」のような構造化されたタスクで高い性能を発揮

12.

TaskEval ② 2. ツール選択適切なツールを選択し、それらの依存関係を構築する能力を評価 • 評価指標： • Node F1 (n-F1)：ノード（ツール）の正解率 • Edge F1 (e-F1)：エッジ（依存関係）の正解率 • Normalized Edit Distance (NED)：チェーン構造における順序の正確さ • 結果： • 依存関係の理解であるエッジ予測は個々のツールの選択を示すノード予測よりも難しい • GPT-4は複雑な構造でも安定した性能を維持。オープンソースには限界があり

13.

TaskEval 3.パラメータ予測ツールを正しく設定する能力を評価 • 評価指標： • Parameter Name F1 (t-F1)：必要なパラメータ名を特定する精度を測る • Parameter Name & Value F1 (v-F1)：パラメータ名と値の両方の割り当て精度を測定 • 結果： • GPT-4がパラメータ名と値の両方で際立った堅牢性を示した • オープンソースLLMは、特にパラメータ値の予測（v-F1）でスコアが低かった ③

14.

TaskEval ④ 4. 分析タスク自動化の性能に影響を与える要因 • 基本能力: 複雑な問題を解決する推論能力と、指示に正確に従う指示追従能力が重要 • 貢献要因: ◦ コードによる事前学習: CodeLlamaなどは、構造化テキストを扱う能力が高くタスク自動化で優位性を示す ◦ 人間によるアラインメント: RLHFなどで調整されたGPTシリーズは、より汎用的な推論能力を獲得し、オープンソースモデルよりも優れた性能を示す 5 人間による評価との一貫性 TaskEvalの有効性を検証するため、自動評価指標と人間による評価の相関を分析結果：Kendall's τとSpearman's ρで高い相関（平均τ=0.89, ρ=0.78） →TaskEvalの自動評価が人間の判断とよく一致

15.

Conclusion • LLMのタスク自動化性能を評価するための新しいベンチマークTaskBenchとそのための包括的な評価フレームワークTaskEvalを提案 • タスク自動化を「タスク分解」「ツール選択」「パラメータ予測」の3段階に分け、ツールグラフの概念を用いて高品質な評価データセットを構築 • 実験を通じて、現在の主要なLLMの性能を明らかにし、その自律的なタスク実行能力に影響を与える要因を分析 • 今後の展望として、ベンチマークをより多くのドメインに拡張し、さらに高度な評価指標を開発していく予定である 15