【DL輪読会】Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

1K Views

February 02, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 2.44MB)

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation Koki Yamane, University of Tsukuba http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題名 Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation 著者 Zipeng Fu (1) Tony Z. Zhao (1) Chelsea Finn (1) 所属 (1)Stanford University 会議 arXiv (2024/1/4) URL https://arxiv.org/abs/2401.02117 概要 ⚫ 低コストな双椀モバイルマニピュレータ「Mobile ALOHA」を開発 ⚫ 双椀モバイルマニピュレータで模倣学習 2024/2/2 2

https://arxiv.org/abs/2401.02117

2024/2/2 3

従来手法：ALOHA 低コストの双腕遠隔操作ハードウェア 2024/2/2 4

提案手法： Mobile ALOHA ALOHAに台車を加えてモバイルマニピュレータ化 2024/2/2 5

従来手法： Action Chunking with Transformers (ACT) Transformerを用いたCVAEで現在の状態から次の数ステップの行動を予測動作のスタイルを表す潜在変数（操作者による癖などを表現）次の１ステップではなく次の数ステップの行動を同時に予測４つのカメラの画像と各関節の角度を入力 2024/2/2 自律動作時の潜在変数は０ 6

従来手法： Action Chunking with Transformers (ACT) Transformerを用いたCVAEで現在の状態から次の数ステップの行動を予測 ◼ Action Chunking  次の数ステップをまとめて予測 ◼ 一連の動作をまとめて扱う ◼ 非マルコフ性に対応  １ステップごとの生成では，一時停止と終了時の停止を見分けるのが難しい ◼ Temporal Ensemble  チャンクを毎ステップ出力し加重平均を取ることで滑らかにつなぐ  チャンクの境目で急な動作になるのを防ぐ 2024/2/2 7

実験 ◼ ７つのタスクで検証 ◼ 教示データ50回分，自律動作20回（Cook Shrimpのみ各20回，5回） ◼ Co Training  移動なしALOHAのデータを一緒に学習 2024/2/2 8

実験結果多くのタスクで80%超えの成功率を達成 Cook Shrimpのみ成功率80%未満タスクが長いから？ 2024/2/2 9

10.

実験結果 ACTが最も高い成功率を達成 2024/2/2 10

11.

まとめ ◼ 低コスト双椀マニピュレータALOHAに台車を統合 ◼ 双椀モバイルマニピュレータで模倣学習 ◼ 7つの実機タスクで実験，6つのタスクで80%を超える成功率を達成 ◼ 感想  とにかくデモが面白い  ACTとDiffusion Policyの比較が興味深かった ◼ ACTのほうが性能高い結果になっているがデータ数やタスクによって変わる？ 2024/2/2 11

【DL輪読会】Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト