[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)

>100 Views

September 21, 18

スライド概要

2018/09/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Object-Oriented Dynamics Predictor (NIPS2018) Shohei Taniguchi, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • Object-Oriented Dynamics Predictor • Guangxiang Zhu, Chongjie Zhang Institute for Interdisciplinary Information Sciences Tsinghua University(清華大学) • NIPS 2018 accepted • • • • 選定理由 ちょうど先週,今年のNIPS一覧が出た. action-conditionedなダイナミクスモデリングが気になっていた. あえて最近流行りのVAEベースのもの(GQN, World models, TD-VAE 等)以外から選んでみた. 2

3.

アジェンダ 1. 2. 3. 4. 5. イントロ 関連研究 手法 実験 まとめ 3

4.

イントロ • model-free DRLはatariなどのゲームで人間レベルのスコアを出すこ とに成功しているが,サンプル効率が悪く,異なるタスクに対して汎 化しない. • こうした問題を改善するため,model-based DRLは環境のダイナミ クスモデルを学習し,それを基に方策のプランニングを行う. • 特に行動で条件付けたダイナミクスモデルが数多く提案され,大きな 成果を上げているが,これらはピクセルレベルの動きを学習している ため,物体のレイアウトが変化した場合などにうまく汎化しない. • 本論文では,環境を明示的に物体ベースで分解し,物体間の関係性か らダイナミクスを学習するモデルを提案し,物体のレイアウトが変化 した際にうまく汎化することを示した. • 物体ベースであることによる解釈性の高さも主張している. 4

5.

アジェンダ 1. 2. 3. 4. 5. イントロ 関連研究 手法 実験 まとめ 5

6.

関連研究 行動で条件付けたダイナミクス [9] Action-conditional video prediction using deep networks in atari games (NIPS 2015) [10] Embed to control: A locally linear latent dynamics model for control from raw images (NIPS 2015) [11] Unsupervised learning for physical interaction through video prediction (NIPS 2016) ➢ いずれもピクセルベースで学習しており,物体間の関係性などを考慮 していない. 6

7.

関連研究 Relationベース 物理的な推論を物体間の関係性の学習により実現する [18] A compositional object-based approach to learning physical dynamics [19] Interaction networks for learning about objects, relations and physics (NIPS 2016) [20] Visual interaction networks (NIPS 2017) [21] A simple neural network module for relational reasoning (NIPS 2017) ➢ 行動で条件付けたダイナミクスの学習にはなっていない 7

8.

関連研究 物体ベースの強化学習 物体表現ベースで学習し、行動の効果を物体間の関係性によって条件付 ける [16] Generalizing plans to new environments in relational mdps (IJCAI 2003) [17] An object-oriented representation for efficient reinforcement learning (ACM 2008) [23] Object focused q-learning for autonomous agents (AAMAS 2013) ➢ 物体表現や物体間の関係性をfeature engineeringして明示的にエン コードしている ➢ 本論文では深層学習の枠組みでそれらの表現を自動的に学習 8

9.

アジェンダ 1. 2. 3. 4. 5. イントロ 関連研究 手法 実験 まとめ 9

10.

全体像 • 大きく3つの要素からなる ① Object Detector ② Dynamics Net ③ Background Splitter 10

11.

① Object Detector • 入力画像を物体ベースで分解 • まず、物体を静的 or 動的でグループ分け • それぞれについてCNNによるマスクを用意 して、物体の空間分布を表現する • 静的な物体は物体クラスごとに,動的な物体は各物体ごとにマスキン グする • ピクセル𝐼(𝑢, 𝑣)が物体𝑂𝑐 に属する確率がSoftmax関数によって下式で 表現される • Pixel-wise entropy lossを導入して,より離散的なマスクが得られる ように学習 11

12.

② Dynamics Net • 物体の動きを行動と物体間の関係性 で条件づけて学習 • 局所的な動きにフォーカスするために,Tailor Moduleで物体の周辺 𝑤 × 𝑤 のみをbilinear samplingを用 いてクロッピング • 物体のペアごとにCNNを用意し,物体間の相互作用Eを出力 • 物体ごとにEの合計と行動のone-hot表現の積をとって動きの予測ベク トルとする • 回帰誤差関数を導入 12

13.

③ Background Splitter • 時間不変な背景を抽出 • 一般的なencoder-decoder構造 • 時間不変な制約をかけるための誤差関数を導入 13

14.

Spatial Transformer Network • 入力画像,Dynamic Net,Background Splitterの出力から次のフレー ムを予測 • 基本的にはSpatial transformer networks (NIPS 2015) をそのまま引 用して,それぞれに適用 • 予測誤差 に加えて以下の誤差関数を導入 14

15.

誤差関数 • 既出の誤差関数を重み付けして和を取る • これに前景検出との誤差を取る以下の誤差関数を加えたバージョンを OODP+pとして別途用意 15

16.

アジェンダ 1. 2. 3. 4. 5. イントロ 関連研究 手法 実験 まとめ 16

17.

実験設定 • • • • Pygame Learning EnvironmentのMonster Kongを用いて実験 k個の異なる環境で学習し,10個の初見の環境でテスト (k=1,2,3,4,5) エージェントの方策はランダム 従来手法として関連研究で挙げたAC Model [9], CDNA [11]と比較 17

18.

結果 n-error accuracyは予測とのズレがnピクセル以下である割合を表す 18

19.

解釈性の検証 静的・動的な物体ともにうまくセグメンテーションできている 19

20.

物体の外見の変化に対する頑健性 • 上図のようにテスト時に物体の外見が変化した場合の性能を検証 • この程度の変化に対しては十分汎化している 20

21.

アジェンダ 1. 2. 3. 4. 5. イントロ 関連研究 手法 実験 まとめ 21

22.

まとめ • ダイナミクスの予測を行動と物体間の関係性で条件づけて行うフレー ムワークを提案 • 強い汎化性能に加えて,解釈性の高いモデルを教師なし手法で提案し たことが大きな貢献 • 今後、部分的観測環境への適用や長期の予測,より複雑な状態遷移を 含むドメインへの応用,モデルベース強化学習での使用など,多くの 発展が見込まれる 22

23.

Object Detectorのアーキテクチャ 23