[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive Control for Reactive Manipulation

1.

DEEP LEARNING JP 関節を持つ物体のマニピュレーションに関する論⽂紹介 A brief survey of manipulating articulated objects [DL Papers] Presenter: Kei Ota (@ohtake_i). http://deeplearning.jp/ 1

2.

概要 • 関節を（複数）持つ物体のマニピュレーションに関する論⽂の紹介 – Where2act [Mo, ICCV2021], VAT-MART [Wu, arXiv:2106], AdaAfford [Wang, arXiv:2112], UMPNet [Xu, arXiv:2106] – 細かい技術（数式）よりざっくりどういう研究がされているかを主に紹介 • 動機 – ⽐較的研究者が少ない分野だと思うが実世界の問題を解く時に重要な課題 – 関節のある物体は⽇常世界にありふれている（扉, 机, 椅⼦, 家電, etc.) Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, Hao Su, “SAPIEN: A SimulAted Part-based Interactive Environment,” CVPR2020. 2

3.

背景 • 関節を持つ物体の操作は環境の深い理解が必要であるため難しい – 動く部分を認識し，特定の部分だけ構成を変更するように制御 • 例：引き出し・ドア・蛇⼝の開閉，ボタンの押下，関節のない物体の操作 [Lee, CoRL2021] 関節のある物体の操作 [Xiang, CVPR2020] Alex X. Lee, Coline Manon Devin, Yuxiang Zhou, et.al., Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes, CoRL2021. Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, Hao Su, “SAPIEN: A SimulAted Part-based Interactive Environment,” CVPR2020. 3

4.

背景 • データセット・シミュレータがここ数年で充実 – 多関節物体のデータセット提供 [Cheng, 2015][Mo, 2019] • 27K物体，570K部品，24カテゴリ，階層構造，インスタンスレベルセグメンテーション ShapeNet Dataset [Chang, 2015] PartNet Dataset [Mo, CVPR2019] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, Fisher Yu, ShapeNet: An Information-Rich 3D Model Repository, arXiv:1512.03012. Kaichun Mo, Shilin Zhu, Angel X. Chang, Li Yi, Subarna Tripathi, Leonidas J. Guibas, Hao Su, PartNet: A Large-scale Benchmark for Fine-grained and Hierarchical Part-level 3D Object Understanding, CVPR2019. 4

5.

背景 • データセット・シミュレータがここ数年で充実 – 多関節物体のデータセット提供 [Cheng, 2015][Mo, 2019] – PhysXベースの物理シミュレータSAPIEN [Xiang, 2020][Mu, 2021] • ロボットの逆運動学・動作⽣成・センシング・Transformerベースラインなども提供 Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, Hao Su, “SAPIEN: A SimulAted Partbased Interactive Environment,” CVPR2020. Tongzhou Mu, Zhan Ling, Fanbo Xiang, Derek Yang, Xuanlin Li, Stone Tao, Zhiao Huang, Zhiwei Jia, Hao Su, “ManiSkill: Generalizable Manipulation Skill Benchmark with Large-Scale Demonstrations,” NeurIPS 2021 Track on Datasets and Benchmarks. 5

6.

関連⼿法 • どうやって解く？ Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong, “VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects,” arXiv:2106.14440 https://hyperplane-lab.github.io/vat-mart/ 6

https://hyperplane-lab.github.io/vat-mart/

7.

関連⼿法 • オフラインで学習 – 例：教師あり学習で関節構造の学習、ドメイン依存の制御器（ルール or 学習） [Klingbeil, ICRA2010] • [Wang, CVPR2019] [Li, CVPR2020] オンラインで学習 <- 今回の内容 [AbdulRashid, arXiv:2110.07911] Ellen Klingbeil, Ashutosh Saxena, Andrew Y. Ng, “Learning to open new doors,” ICRA2010. Xiaogang Wang, Bin Zhou, Yahao Shi, Xiaowu Chen, Qinping Zhao, Kai Xu, “Shape2Motion: Joint Analysis of Motion Parts and Attributes from 3D Shapes,” CVPR2019. Xiaolong Li, He Wang, Li Yi, Leonidas Guibas, A. Lynn Abbott, Shuran Song, “Category-Level Articulated Object Pose Estimation,” CVPR2020 Hameed Abdul-Rashid, Miles Freeman, Ben Abbatematteo, George Konidaris, Daniel Ritchie, “Learning to Infer Kinematic Hierarchies for Novel Object Instances”, arXiv:2110.07911. 7

8.

where2act • 物体の操作⽅法を “what” “where” “how” に分けて推論 – What: どの⾏動を選択するか (e.g., push or pull) – Where: どこと接触するか (e.g., 引き出しの取⼿，ドアの端） – How: ⾏動の⽅向 (e.g., 外向き，内向き） Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 8

https://www.youtube.com/watch?v=cdMSZru3Aa8

9.

where2act • 物体の操作⽅法を “what” “where” “how” に分けて推論 Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 9

https://www.youtube.com/watch?v=cdMSZru3Aa8

10.

where2act • 構成：3つのモジュール – Actionability score: ある点が⾏動可能か Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 10

https://www.youtube.com/watch?v=cdMSZru3Aa8

11.

where2act • 構成：3つのモジュール – Actionability score: ある点が⾏動可能か – Action proposal: タスクを達成できそうな⾏動を複数⽣成 Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 11

https://www.youtube.com/watch?v=cdMSZru3Aa8

12.

where2act • 構成：3つのモジュール – Actionability score: ある点が⾏動可能か – Action proposal: タスクを達成できそうな⾏動を複数⽣成 – Action score: 特定の⾏動がタスクを達成できそうか予測 Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 12

https://www.youtube.com/watch?v=cdMSZru3Aa8

13.

where2act • 実験設定 – 学習・テストでカテゴリを分ける（同じカテゴリでも学習・テストで分ける） Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 13

https://www.youtube.com/watch?v=cdMSZru3Aa8

14.

where2act • Action scoreの結果 – ⼤体⼈間が操作する時と同じような位置を選択している Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 14

https://www.youtube.com/watch?v=cdMSZru3Aa8

15.

where2act • 定量評価（左）と失敗例（右） – Sample-Succ: 100個提案した⾏動のうちいくつがタスクを達成できるか Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani, “Where2Act: From Pixels to Actions for Articulated 3D Objects,” ICCV2021. https://www.youtube.com/watch?v=cdMSZru3Aa8 15

https://www.youtube.com/watch?v=cdMSZru3Aa8

16.

VAT-MART • VAT-MART = RL + trajectory + where2act + curiosity Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong, “VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects,” arXiv:2106.14440 https://hyperplane-lab.github.io/vat-mart/ 16

https://hyperplane-lab.github.io/vat-mart/

17.

VAT-MART • VAT-MART = RL + trajectory + where2act + curiosity Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong, “VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects,” arXiv:2106.14440 https://hyperplane-lab.github.io/vat-mart/ 17

https://hyperplane-lab.github.io/vat-mart/

18.

VAT-MART • VAT-MART = RL + trajectory + where2act + curiosity Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong, “VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects,” arXiv:2106.14440 https://hyperplane-lab.github.io/vat-mart/ 18

https://hyperplane-lab.github.io/vat-mart/

19.

VAT-MART • RLを⽤いて複数ステップ必要なタスクを解けるようにしたのが貢献 – where2act: ある程度動いたか．VAT-MART: “X” を “Y deg” 開く Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong, “VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects,” arXiv:2106.14440 https://hyperplane-lab.github.io/vat-mart/ 19

https://hyperplane-lab.github.io/vat-mart/

20.

AdaAfford • 過去の経験からAffordance Mapを更新 – Few-shot で環境の変化（e.g. 摩擦係数，質量，関節の位置）に対応可能 Yian Wang, Ruihai Wu, Kaichun Mo, Jiaqi Ke, Qingnan Fan, Leonidas Guibas, Hao Dong, “AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated Objects via Few-shot Interactions”, arXiv:2112.00246. 20

21.

AdaAfford • AdaAfford = where2act + interaction set (𝐼, 𝑧! ) – AAP: 過去の経験からAffordance Mapの事後分布を出⼒ – AIP: AAPから出⼒されたAffordance Mapを使って次の⾏動を出⼒ • 𝑧! と 𝑧!"# で得た⾏動成功率の差を最⼤化するように学習することで未来に良い影響を与える⾏動を優先して選択されるように学習する Yian Wang, Ruihai Wu, Kaichun Mo, Jiaqi Ke, Qingnan Fan, Leonidas Guibas, Hao Dong, “AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated Objects via Few-shot Interactions”, arXiv:2112.00246. 21

22.

AdaAfford • 結果：テスト時に適応できている関節の摩擦係数増加質量増加物体表⾯の摩擦係数増加 Yian Wang, Ruihai Wu, Kaichun Mo, Jiaqi Ke, Qingnan Fan, Leonidas Guibas, Hao Dong, “AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated Objects via Few-shot Interactions”, arXiv:2112.00246. 関節の⽅向変更 22

23.

UMPNet • 学習により相互作⽤する位置と⽅向を選択し⽬標姿勢になるように操作 – Position Inference: 物体に⼲渉する位置を出⼒ – Direction Inference: 移動⽅向を出⼒（位置制御） Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 23

https://www.youtube.com/watch?v=KqlvcL9RqKM

24.

UMPNet • Position Inference – Affordance Mapを推定し，スコアが最⼤となる点を接触点に設定 • e-greedy ⽅策でピクセルを選び，⼆値分類で学習（動けば1） Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 24

https://www.youtube.com/watch?v=KqlvcL9RqKM

25.

UMPNet • Direction Inference – ⾏動を複数サンプリングし，複数の⽅向を出⼒．スコア最⼤の⽅向を選択 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 25

https://www.youtube.com/watch?v=KqlvcL9RqKM

26.

UMPNet • Direction Inference – ⾏動を複数サンプリングし，複数の⽅向を出⼒．スコア最⼤の⽅向を選択 • Arrow-of-Time (AoT): 初期状態から離れる⽅向: 1，逆: -1，動かない: 0（CE loss） • Distance: 距離を予測（MSE loss） Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 26

https://www.youtube.com/watch?v=KqlvcL9RqKM

27.

UMPNet • Goal-Conditioned Manipulation – ⽬標状態との差分マスクと学習済み Positon Net で接触点推定 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 27

https://www.youtube.com/watch?v=KqlvcL9RqKM

28.

UMPNet • Goal-Conditioned Manipulation – AoTが負かつ距離が最⼤となる⾏動を選択（訓練時：離れる，テスト時：戻る） Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 28

https://www.youtube.com/watch?v=KqlvcL9RqKM

29.

UMPNet • Goal-Conditioned Manipulation Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 29

https://www.youtube.com/watch?v=KqlvcL9RqKM

30.

UMPNet • 関節構造を予測 – 推論結果を⽤いて関節の位置・⽅向・種類を予測 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 30

https://www.youtube.com/watch?v=KqlvcL9RqKM

31.

UMPNet • 関節構造を予測 – 推論結果を⽤いて関節の位置・⽅向・種類を予測 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 31

https://www.youtube.com/watch?v=KqlvcL9RqKM

32.

UMPNet • 関節構造を予測 – 推論結果を⽤いて関節の位置・⽅向・種類を予測 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 32

https://www.youtube.com/watch?v=KqlvcL9RqKM

33.

UMPNet • 関節構造を予測 – 推論結果を⽤いて関節の位置・⽅向・種類を予測 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 33

https://www.youtube.com/watch?v=KqlvcL9RqKM

34.

UMPNet • 関節構造を予測 – 推論結果を⽤いて関節の位置・⽅向・種類を予測 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 34

https://www.youtube.com/watch?v=KqlvcL9RqKM

35.

UMPNet • 関節構造を予測 – 推論結果を⽤いて関節の位置・⽅向・種類を予測 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 35

https://www.youtube.com/watch?v=KqlvcL9RqKM

36.

UMPNet • 関節構造を予測 – 推論結果を⽤いて関節の位置・⽅向・種類を予測 Zhenjia Xu, Zhanpeng He, Shuran Song, “UMPNet: Universal Manipulation Policy Network for Articulated Objects”, arXiv:2109.05668. https://www.youtube.com/watch?v=KqlvcL9RqKM 36

https://www.youtube.com/watch?v=KqlvcL9RqKM

37.

まとめ • • 関節のある物体を操作する⼿法のうち，環境と相互作⽤して制御器を学習する論⽂を紹介した現状の課題は以下 – サンプル効率が悪い（~1M回の環境との相互作⽤が必要） • 基本的に⾏動の⽣成・評価モジュールは教師あり学習 • 訓練データの収集が肝 – ⻑いシーケンスの⾏動⽣成が難しい • 関節の種類・物体の形状により最適な⾏動系列は異なる（例：回転 or 並進） – ⼀⾒似ているが異なる構造を持つ物体の操作がまだ解けていない • 例：訓練時：開⼾，テスト時：引⼾ 37

[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive Control for Reactive Manipulation

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

【拡散モデル勉強会】Introduction to Diffusion Models

各ページのテキスト