[DL輪読会]Reasoning About Physical Interactions with Object-Oriented Prediction and Planning

>100 Views

October 04, 19

deep learning

スライド概要

2019/10/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.9K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.9K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.5K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.7K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

Reasoning About Physical Interactions with Object-Oriented Prediction and Planning Naruya Kondo, Matsuo Lab (B4) 1

テネンバウムさん • 数学、心理学、ベイズ、認知科学。MIT。 • ジェンガロボット [Science Robotics] のお方。 • TossingBot のベース、Residual policy learningのお方。 – https://www.slideshare.net/DeepLearningJP2016/dltossingbot-learning-to-throw-arbitrary-objects-with-re sidual-physics • Evidence for an Intuitive Physics Engine in the Human Brain[CCN2018] 2

https://www.slideshare.net/DeepLearningJP2016/dltossingbot-learning-to-throw-arbitrary-objects-with-residual-physics

発表内容 • Reasoning About Physical Interactions with Object-Oriented Prediction and Planning – Michael Janner, Sergey Levine, William T. Freeman, Joshua B. Tenenbaum, Chelsea Finn, Jiajun Wu • Deep×Robotあたりのすごい方々 – [ICLR 2019] – O2P2: Object-Oriented Prediction and Planning を提案 • テネンバウムさんがアツいと聞いて。 3

モチベーション • ヒトは組み立て方が簡単にわかる。 ↓ • • • • ロボットにプランニングしてほしい直感的な物理法則を得てほしいモノ単位で認識してほしい映像だけから学んでほしい 4

何をしたのか https://youtu.be/CXS7dRmA2hs 5

https://youtu.be/CXS7dRmA2hs

概要 O2P2: Object-Oriented Prediction and Planning ① (複数のオブジェクトが関わる物理操作で、) オブジェクト単位で挙動を予測するモデルを学習 ↓ ② ①を使ってCEM(cross entropy method)でプランニング(学習不要) • シミュレーター+実機で実験 6

Object-Oriented “Prediction” (NN物理演算) 物理演算物理特性を抽出、シミュレータに置くシミュレータでレンダリング (崩れる前と後) • 『結果』が知りたいので、あくまで最初と最後だけを使う。 7

Object-Oriented “Prediction” • Perception Module (ConvNN) – オブジェクト表現(o)を獲得する – 先に画像をセグメント化し(s)、それぞれ encodeすることでoを得る • Physics Module 2層の全結合 4層CNN DeConv – – 自身の移動回転+相互作用 • Rendering Engine (DeConvNN) – 各オブジェクトの結果の画像と深度もどき(heatmap)の生成 – heatmapを使って画像の加重平均をとって最終的な出力とする • 各モデル構造➜ 8

Object-Oriented “Prediction” • 学習に必要なデータ： 2層の全結合 – 物理現象の前後のセット – + segmentation結果 • 簡単のため。 • ➜オブジェクトの個数は知れる 4層CNN DeConv – segmentation部分は恐らく別のNN モジュールで置き換える前提 9

10.

Loss • Perception Module (ConvNN) 2層の全結合 • Physics Module 4層CNN • Rendering Engine (DeConvNN) DeConv – I^はrendererで生成した画像 – L2はピクセルごとの二乗誤差 – LvggはVGGモデルの特徴量の差 • Rendering lossが全体の目的関数 10

11.

Object-Oriented “Planning” • action={形(3種類)，色(連続値)，位置(連続値)}。あるactionをとる(ある場所に新しいオブジェクトを出現させる)とどうなるか • ゴール画像のそれぞれのオブジェクトについての表現を得て、それに近くなるようにactionを選択。 – CEM(cross entropy method) 11

12.

Object-Oriented “Planning” • CEM: 1000回ランダムにシミュレート。良かった施行上位10%を選び、それに近いactionを選択することを繰り返す。(実際には各actionに取るべき値の平均と分散を設ける) • 良かった指標： – 一番近くなりそうな物体について、一番オブジェクト表現がゴールに近くなるように。 12

13.

モデルベースRLとの違い • 解きたいタスクと異なるデータで物理法則を学習できる。 – 解きたいタスク：同じように組み立てる，高く積み上げる，バランスを保つ – 与えるデータ：物理現象の前後 • 学習用のデータの収集(環境とのインタラクション)が安全 • 解きたいタスクごとの報酬が不要。代わりにプランの立て方を(CEMなどで)与える。 • ヒトにわかる形式で結果を先に予測 – (これは最近のモデルベースRLも得意) 13

14.

実験 14

15.

Prediction • 問題設定：上から落とす/アンバランス状態から倒れる • ぼやけないのはVGGlossのおかげ? 15

16.

Planning1 • 問題設定：同じ構造物を作る • Oracle: 既存の物理シミュレータを使う • SAVP: actionで条件付けした画像生成モデル(2018) [%] 16

17.

Planning2 • 同じ学習で、別の問題設定も解ける – Planningの指標を変えればよい 17

18.

実機, 実験 • 実機ではロボット自身が動いてデータを集める(sim2realなし。) 18

19.

まとめ • いくつかのはっきりわかれた操作からなるタスクのプランニングには、明示的な予測ベースのモデルが良い – サンプリングベースで1操作ずつプランをたてられる – 結果が予めヒトにもわかるので、ヒトの意思決定に有効 • プランニングする上では、オブジェクト指向が良さそう – 基本的にオブジェクトごとに操作するので、あるオブジェクトを動かしたときの変化がわかると嬉しい • ただ今回は物理的な関係といえども衝突と重力くらいだったので、より複雑な問題設定での解決が期待される 19