【DL輪読会】Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

0.9K Views

September 01, 23

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 11.83MB)

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 26.7K

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 27.4K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13.5K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 12.6K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.6K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 10.4K

各ページのテキスト

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition 2023.9.1 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1

https://twitter.com/__tmats__

概要 LLMを活用してロボット制御のスキル獲得する仕組みを提案 • 言語ラベルのついたロボットのデータをスケールさせる • 各タスクの成功判定をLLMで推論 • 失敗を自動で検知してリトライする • 生成したデータを言語で条件づけられたマルチタスクの方策に蒸留 • Diffusion policyをマルチタスクに拡張 2

書誌情報 Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition • Huy Ha1, Pete Florence2, Shuran Song1 • 1Columbia University, 2Google Research • https://arxiv.org/abs/2307.14535 • v1: 2023/7/26 • Website: https://www.cs.columbia.edu/~huy/scalingup/ • Github: https://github.com/columbia-ai-robotics/scalingup • ドキュメントがやたらと詳しい • CoRL2023 accepted (poster) • 昨日（8/31）査読結果が発表されました • ちなみにCoRL2023のaccepted papersはこちら https://openreview.net/submissions?venue=robot-learning.org/CoRL/2023/Conference ※特に出典が明記されていない図は当論文から引用 3

ウェブサイトに掲載されている説明動画 https://www.cs.columbia.edu/~huy/scalingup/ 4

https://www.cs.columbia.edu/~huy/scalingup/

背景実世界でロバストで再利用可能で効率的なロボットの物体操作スキルの学習における主要な課題 • 多様な範囲のスキルの関するデータ収集を効率化する • オフラインのデータから効率的に学習する 5

背景視覚・言語・制御のデータのスケール化の問題 • 視覚・言語・制御モデルの学習に関する研究の大部分では，人間のエキスパートデモンストレーションやplayデータを利用 • 人間による言語や行動のアノテーションが必要でスケールしにくい RT-1 Learning from Play https://robotics-transformer1.github.io/ https://language-play.github.io/ 6

背景多峰なオフラインのロボットの制御データからマルチタスクの方策を学習する手法が必要 • ロボットの多峰な行動のデータから効率的に方策を学習する必要がある • 同時に，言語で条件づけることで，一つのモデルで様々なタスクを実行できるようなマルチタスクの手法を学習する必要がある 7

手法の全体像 • LLMにタスクの説明を入力し，シミュレータ上で特権情報を使ってサンプリングベースのプランナを利用 • 特権情報：実世界では正確に測定が難しいがシミュレータでは容易に正確な情報にアクセスできる情報 • 例）物体の正確な姿勢，接触，セグメンテーション • タスクの遂行のための探索を遂行 • 集めたデータセットから成功した軌道を取り出して，言語で条件づけられた closed-loopな方策に蒸留して，実世界に活用結果として，人間によるデモンストレーションや手動で設計された報酬関数が不要なので，効率よく大量のデータを収集・学習できる 8

手法の全体像 ① データセットの生成 • a) LLMを使ってタスクを探索のための階層的なプランへ再帰的に分解（例：task tree） • b) プランをサンプリングベースの動作プリミティブを使って実現 • c) プラン中の各タスクの成功判定器をLLMを利用して推論 ② 方策の学習 • LLMで推論した成功判定器を使って，成功した軌道を取り出し，マルチタスクのdiffusion policyに蒸留 9

10.

手法 ① データセットの生成タスクの説明文から，a) Simplify・b) Ground・ c) Verify&Retryの3つのフェーズでデータを自動で生成 10

11.

手法（論文の論旨とは関係ない文化的な補足）図中の“Send the package for return”というタスクについて • 最初，図中のタスクの説明の意味（英語）がわからなかった… • 海外の郵便受けは，横についている旗を立てておくと「集荷してほしい郵便物が入っている」という意味になっているらしい • なお，郵便局員が郵便を持ってきたときも旗を立ててくれるらしい • つまりタスクの説明は「戻したい小包を送って」的な意味 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q148879454 11

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q148879454

12.

手法 - ① データセットの生成 ①-a Simplify: プランニングと分解 LLMを使って実行すべきタスクの説明からタスクツリーを生成 • タスクの説明・シミュレータの状態を入力 • タスクの説明が複数の物体との相互作用なのか，一つの物体との相互作用なのかを判定させる • 複数の物体の場合は分解させる • プロンプトで分解の例を入れる https://github.com/columbia-ai-robotics/scalingup/tree/master/scalingup/prompts/policy/multichoice 12

https://github.com/columbia-ai-robotics/scalingup/tree/master/scalingup/prompts/policy/multichoice

13.

手法 - ① データセットの生成 ①-b Ground: ロボットの動作を組み合わせて生成生成されたタスクツリーをもとに，動作のプランナ（把持・移動・多関節の物体の操作のためのプリミティブ）のAPIを呼ぶ • プランナはサンプリングベースのもの（RRTなど）を利用 • シミュレータ内の特権情報を利用して動作プランを作れる 13

14.

手法 - ① データセットの生成 ①-c Verify&Retry: LLMで成功判定器を作りサブタスクが成功するまで探索 • シミュレータの特権情報を利用してタスクの成功or失敗の2値を返す成功判定器（コード）を生成 • 失敗したら，サンプリングベースのプランナのシードを変更してリトライする（リセットはしない） • 同じ失敗にハマり続けず，失敗から復帰するためのデータが得られる 14

15.

手法 ② 方策の学習 Diffusion policyを言語による条件付けに拡張 • サンプリングベースのプランナを使って作った多峰性の高いデータを学習に用いるためdiffusionを採用 • テキストの埋め込みにはCLIPのtext encoderを利用 • 2つの画像をResNet-18で埋め込み • ノイズスケジューラにDDIMを利用 • 学習50ステップ，推論5ステップ • A6000で35Hzで推論可能（10次元の行動空間） • Diffusion policy自体は山根さんがDL輪読会で紹介済み • https://www.slideshare.net/DeepLearningJP2016/dldiffusion-policyvisuomotor-policy-learning-via-action-diffusion 15

https://www.slideshare.net/DeepLearningJP2016/dldiffusion-policy-visuomotor-policy-learning-via-action-diffusion

16.

実験 5ドメイン18タスクのベンチマーク環境を作成 • MuJoCo上にGoogle Scanned Datasetから物体を配置 • 複雑な幾何形状への汎化や，多関節の物体の操作，直感的な物理の理解，常識的な推論や道具の利用，マルチタスク，長期の動作の観点からタスクを整理 16

17.

実験データ生成の方法の評価 • 複雑な幾何形状の物体の操作には6DoFでの制御が必要 • 例：MailboxやDrawer • さらに，6DoFでの探索によって軌道に多様性が生まれ蒸留の際に性能向上に役立つ • Verify & Retryのステップによって全てのドメインでの性能向上が見られた • LLMによる成功判定器が有用 17

18.

実験学習した方策の評価 • 推論した成功判定器を用いてフィルタしたデータから学習した方策は失敗してもリカバリーできる（緑色の線） • Diffusion policyを使っているおかげで同じ観測，同じテキスト入力でも多様な軌道を生成できる https://www.cs.columbia.edu/~huy/scalingup/ https://github.com/columbia-ai-robotics/scalingup/blob/master/docs/visualization.md 18

19.

実験 Sim2Realで学習した方策を実世界に転移シミュレータで学習した方策を実世界に転移するためにDomain Randomizationを実施 • 光源環境，テクスチャ，カメラ姿勢をランダマイズ • 学習した方策をzero-shot転移（fine-tuningしない） https://www.cs.columbia.edu/~huy/scalingup/ 19

https://www.cs.columbia.edu/~huy/scalingup/

20.

考察（ウェブサイトに掲載されているQ&A) Q. このフレームワークの限界は？ • A. シミュレーションのprivillaged stateを利用することを前提に LLMで報酬関数を推論してデータセットを生成しているの • Sim2realの特権情報を使った方が良い報酬関数が作れる（接触など） • https://www.cs.columbia.edu/~huy/scalingup/ 20

https://www.cs.columbia.edu/~huy/scalingup/

21.

まとめ LLMを言語で条件づけられた方策学習のためのデータ生成に活用 • 利用方法はタスクの分解（プランニング）や，コード生成など多様 • SayCanやCode as policyは実行時にLLMを用いているというところがこの研究とは異なる • 動作プランナとLLMによる成功判定器を用いてタスクに成功したデータを大量に集めることに成功集められたデータを使って言語で条件づけられたdiffusion polciyを学習 • 動作プランナの出力した多峰な軌道からの学習に成功 21

22.

感想 LLMをロボット制御の文脈で（zero-shotで）使い倒すという点で面白い • タスク推論にも使うし，常識的な推論にも使うし，コード生成にも使う LLM x ロボティクスの論文でスキルを事前に定義しておいて，それの組み合わせを推論する系の研究は多いが，そのスキルどうやって用意するのかという問題はずっと気になっていた • システム全体としてはスキル自体を改善するような枠組みが欲しい • この研究はスキルを学習するという面で上記の多くの研究と一線を画している（はず） 22

23.

おしらせ日本ロボット学会（RSJ）学術講演会「OS4: 基盤モデルの実ロボット応用」 • 2023/9/11‒12 @仙台 • 「…本セッションでは，大規模言語モデル, 大規模視覚-言語モデルに代表される事前学習済みの基盤モデルを活用し，知能的に振る舞うロボットについて議論する．」 • OS初年度にして21件の発表が集まった英文誌Advanced Roboticsの特集号 • 日本ロボット学会の英文誌 • Google・Metaなど海外で基盤モデルのロボット応用を研究する第一人者（Andy Zeng, Chris Paxton）たちも本特集号のエディタ陣を務める • サーベイ論文も歓迎 • 原稿〆切：2024/1/31 • ただし，採録が決定次第，順次web上で公開予定（プレプリント公開も規定のもとOK）論文投稿・参加をぜひご検討ください！！ 23