【DL輪読会】GPT-4V(ision) for Robotics: Multimodal Task Planningfrom Human Demonstration

3.1K Views

December 08, 23

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.46MB)

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.8K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.1K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.6K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

DEEP LEARNING JP GPT-4V(ision) for Robotics: Multimodal Task Planning [DL Papers] from Human Demonstration Ritsuki Matsunagga, NIT,NC Jeong Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報所属：Microsoft, University of Tokyo 論文概要：GPT4Vを利用したマルチモーダルタスクプランナーのパイプライン開発選定理由：世界モデルの講義を受講しており、最終課題の参考になると考えたため特に明示のない場合は紹介論文か以下のページから引用 https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/ 2

https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

概要目的：既存LLM・VLMを利用した汎用的に優れたマルチモーダルタスクプランナーのパイプライン開発 3

概要提案手法の優位性・ロボットの種類を問わず汎用的に利用できる・既存のLLM・VLMを利用するので追加学習が必要ない・ゼロショットでタスクを実行可能・ソースコードやプロンプトがすべて公開されている https://github.com/microsoft/ChatGPT-Robot-Manipulation-Prompts 4

https://github.com/microsoft/ChatGPT-Robot-Manipulation-Prompts

関連研究従来のLLM・VLMでのタスクプランニング・LLM・VLMの登場以来、LLM・VLMを利用したタスクプランニングは様々な方策が提案されている例) RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control →別タスクへの応用、ハードウェアの変更だけでも大量のデータ収集や追加学習が必要不可欠。 5

関連研究アフォーダンス・環境内の物体や状況が個人にどのような行動が可能かを示す →ロボティクス分野では「その環境内で実行可能な行動」という意味や、「行動可能な領域に関する情報」として利用されている。 LLMとVLMを利用して環境のアフォーダンス情報を抽出する 6

提案手法 • 提案パイプライン 7

提案手法 • 提案パイプライン 8

提案手法・Symbolic task planner ①ビデオ分析 →GPT4Vに動画を入力し、人間への命令口調でタスクを文字起こしする。HFによって内容の修正、変更を行う。 9

10.

提案手法・Symbolic task planner ②シーンアナライザー →①で得た指示と、実環境の画像から予想される作業環境を文字起こしし、オブジェクトのリスト、特性、関係性を出力する(CoT利用) 10

11.

提案手法・Symbolic task planner ③タスクプランナー →①、②で得た指示と、実環境の情報を元にタスクシーケンスを出力する。(CoT利用) また、動作後にHFの入力もできる 11

12.

提案手法・Symbolic task planner 12

13.

提案手法 • 提案パイプライン 13

14.

提案手法・Affordance task planner →Symbolic task plannerの ③で得られた情報と、人間のデモ動画を使ってロボット動作に必要なアフォーダンス情報。特に、graspと release動作についてを取得する 14

15.

提案手法・Affordance task planner →手の動作に着目するためにYOLOベースの手検出モデルを利用 https://www.ultralytics.com/ 15

https://www.ultralytics.com/

16.

提案手法・Affordance task planner →オブジェクト検出、命名のためopen-vocabulary object detectornであるDeticを利用(ECCV2022) https://arxiv.org/abs/2201.02605 16

https://arxiv.org/abs/2201.02605

17.

提案手法・Affordance task planner 17

18.

実験結果 • 実際の動作(gif) 18

19.

実験結果 • 実際の動作(gif) 19

20.

実験結果 20

21.

まとめ • 人間のインストラクト動画からゼロショットでタスクに成功 • ハードウェアに縛られないタスクプランナー • Grasp-releaseタスクのみ(長期タスクは課題) • より複雑なタスクに対しては事前、事後条件を工夫する必要がある • 肝心のロボット用のプログラム作成に関しては記述なし… 21