[DL輪読会]Reasoning About Physical Interactions with Object-Oriented Prediction and Planning

>100 Views

October 04, 19

スライド概要

2019/10/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Reasoning About Physical Interactions with Object-Oriented Prediction and Planning Naruya Kondo, Matsuo Lab (B4) 1

2.

テネンバウムさん • 数学、心理学、ベイズ、認知科学。MIT。 • ジェンガロボット [Science Robotics] のお方。 • TossingBot のベース、Residual policy learningのお方。 – https://www.slideshare.net/DeepLearningJP2016/dltossingbot-learning-to-throw-arbitrary-objects-with-re sidual-physics • Evidence for an Intuitive Physics Engine in the Human Brain[CCN2018] 2

3.

発表内容 • Reasoning About Physical Interactions with Object-Oriented Prediction and Planning – Michael Janner, Sergey Levine, William T. Freeman, Joshua B. Tenenbaum, Chelsea Finn, Jiajun Wu • Deep×Robotあたりのすごい方々 – [ICLR 2019] – O2P2: Object-Oriented Prediction and Planning を提案 • テネンバウムさんがアツいと聞いて。 3

4.

モチベーション • ヒトは組み立て方が簡単にわかる。 ↓ • • • • ロボットにプランニングしてほしい 直感的な物理法則を得てほしい モノ単位で認識してほしい 映像だけから学んでほしい 4

5.

何をしたのか https://youtu.be/CXS7dRmA2hs 5

6.

概要 O2P2: Object-Oriented Prediction and Planning ① (複数のオブジェクトが関わる物理操作で、) オブジェクト単位で挙動を予測するモデルを学習 ↓ ② ①を使ってCEM(cross entropy method)でプランニング(学習不要) • シミュレーター+実機で実験 6

7.

Object-Oriented “Prediction” (NN物理演算) 物理演算 物理特性を抽出、 シミュレータに置く シミュレータで レンダリング (崩れる前と後) • 『結果』が知りたいので、あくまで最初と最後だけを使う。 7

8.

Object-Oriented “Prediction” • Perception Module (ConvNN) – オブジェクト表現(o)を獲得する – 先に画像をセグメント化し(s)、それぞれ encodeすることでoを得る • Physics Module 2層の全結合 4層CNN DeConv – – 自身の移動回転+相互作用 • Rendering Engine (DeConvNN) – 各オブジェクトの結果の画像と深度もど き(heatmap)の生成 – heatmapを使って画像の加重平均を とって最終的な出力とする • 各モデル構造➜ 8

9.

Object-Oriented “Prediction” • 学習に必要なデータ: 2層の全結合 – 物理現象の前後のセット – + segmentation結果 • 簡単のため。 • ➜オブジェクトの個数は知れる 4層CNN DeConv – segmentation部分は恐らく別のNN モジュールで置き換える前提 9

10.

Loss • Perception Module (ConvNN) 2層の全結合 • Physics Module 4層CNN • Rendering Engine (DeConvNN) DeConv – I^はrendererで生成した画像 – L2はピクセルごとの二乗誤差 – LvggはVGGモデルの特徴量の差 • Rendering lossが全体の目的関数 10

11.

Object-Oriented “Planning” • action={形(3種類),色(連続値),位置(連続値)}。 あるactionをとる(ある場所に新しいオブジェクトを出現させる)とどうなるか • ゴール画像のそれぞれのオブジェクトについての表現を得て、それに近く なるようにactionを選択。 – CEM(cross entropy method) 11

12.

Object-Oriented “Planning” • CEM: 1000回ランダムにシミュレート。良かった施行上位10%を選び、それ に近いactionを選択することを繰り返す。(実際には各actionに取るべき値 の平均と分散を設ける) • 良かった指標: – 一番近くなりそうな物体について、一番オブジェクト表現がゴールに近くなるように。 12

13.

モデルベースRLとの違い • 解きたいタスクと異なるデータで物理法則を学習できる。 – 解きたいタスク:同じように組み立てる,高く積み上げる,バランスを保つ – 与えるデータ:物理現象の前後 • 学習用のデータの収集(環境とのインタラクション)が安全 • 解きたいタスクごとの報酬が不要。代わりにプランの立て方を(CEMな どで)与える。 • ヒトにわかる形式で結果を先に予測 – (これは最近のモデルベースRLも得意) 13

14.

実験 14

15.

Prediction • 問題設定:上から落とす/アンバランス状態から倒れる • ぼやけないのはVGGlossのおかげ? 15

16.

Planning1 • 問題設定:同じ構造物を作る • Oracle: 既存の物理シミュ レータを使う • SAVP: actionで条件付けし た画像生成モデル(2018) [%] 16

17.

Planning2 • 同じ学習で、別の問題設定も解ける – Planningの指標を変えればよい 17

18.

実機, 実験 • 実機ではロボット自身が動いてデータを集める(sim2realなし。) 18

19.

まとめ • いくつかのはっきりわかれた操作からなるタスクのプランニングには、明示 的な予測ベースのモデルが良い – サンプリングベースで1操作ずつプランをたてられる – 結果が予めヒトにもわかるので、ヒトの意思決定に有効 • プランニングする上では、オブジェクト指向が良さそう – 基本的にオブジェクトごとに操作するので、あるオブジェクトを動かしたときの変化 がわかると嬉しい • ただ今回は物理的な関係といえども衝突と重力くらいだったので、より複雑 な問題設定での解決が期待される 19