[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)

>100 Views

September 21, 18

#deep learning #Deep Learning #Dynamics Prediction #Object-Oriented #Machine learning #NIPS2018

スライド概要

2018/09/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Object-Oriented Dynamics Predictor (NIPS2018) Shohei Taniguchi, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Object-Oriented Dynamics Predictor • Guangxiang Zhu, Chongjie Zhang Institute for Interdisciplinary Information Sciences Tsinghua University（清華大学） • NIPS 2018 accepted • • • • 選定理由ちょうど先週，今年のNIPS一覧が出た． action-conditionedなダイナミクスモデリングが気になっていた．あえて最近流行りのVAEベースのもの(GQN, World models, TD-VAE 等)以外から選んでみた． 2

アジェンダ 1. 2. 3. 4. 5. イントロ関連研究手法実験まとめ 3

イントロ • model-free DRLはatariなどのゲームで人間レベルのスコアを出すことに成功しているが，サンプル効率が悪く，異なるタスクに対して汎化しない． • こうした問題を改善するため，model-based DRLは環境のダイナミクスモデルを学習し，それを基に方策のプランニングを行う． • 特に行動で条件付けたダイナミクスモデルが数多く提案され，大きな成果を上げているが，これらはピクセルレベルの動きを学習しているため，物体のレイアウトが変化した場合などにうまく汎化しない． • 本論文では，環境を明示的に物体ベースで分解し，物体間の関係性からダイナミクスを学習するモデルを提案し，物体のレイアウトが変化した際にうまく汎化することを示した． • 物体ベースであることによる解釈性の高さも主張している． 4

アジェンダ 1. 2. 3. 4. 5. イントロ関連研究手法実験まとめ 5

関連研究行動で条件付けたダイナミクス [9] Action-conditional video prediction using deep networks in atari games (NIPS 2015) [10] Embed to control: A locally linear latent dynamics model for control from raw images (NIPS 2015) [11] Unsupervised learning for physical interaction through video prediction (NIPS 2016) ➢ いずれもピクセルベースで学習しており，物体間の関係性などを考慮していない． 6

関連研究 Relationベース物理的な推論を物体間の関係性の学習により実現する [18] A compositional object-based approach to learning physical dynamics [19] Interaction networks for learning about objects, relations and physics (NIPS 2016) [20] Visual interaction networks (NIPS 2017) [21] A simple neural network module for relational reasoning (NIPS 2017) ➢ 行動で条件付けたダイナミクスの学習にはなっていない 7

関連研究物体ベースの強化学習物体表現ベースで学習し、行動の効果を物体間の関係性によって条件付ける [16] Generalizing plans to new environments in relational mdps (IJCAI 2003) [17] An object-oriented representation for efficient reinforcement learning (ACM 2008) [23] Object focused q-learning for autonomous agents (AAMAS 2013) ➢ 物体表現や物体間の関係性をfeature engineeringして明示的にエンコードしている ➢ 本論文では深層学習の枠組みでそれらの表現を自動的に学習 8

アジェンダ 1. 2. 3. 4. 5. イントロ関連研究手法実験まとめ 9

10.

全体像 • 大きく3つの要素からなる ① Object Detector ② Dynamics Net ③ Background Splitter 10

11.

① Object Detector • 入力画像を物体ベースで分解 • まず、物体を静的 or 動的でグループ分け • それぞれについてCNNによるマスクを用意して、物体の空間分布を表現する • 静的な物体は物体クラスごとに，動的な物体は各物体ごとにマスキングする • ピクセル𝐼(𝑢, 𝑣)が物体𝑂𝑐 に属する確率がSoftmax関数によって下式で表現される • Pixel-wise entropy lossを導入して，より離散的なマスクが得られるように学習 11

12.

② Dynamics Net • 物体の動きを行動と物体間の関係性で条件づけて学習 • 局所的な動きにフォーカスするために，Tailor Moduleで物体の周辺 𝑤 × 𝑤 のみをbilinear samplingを用いてクロッピング • 物体のペアごとにCNNを用意し，物体間の相互作用Eを出力 • 物体ごとにEの合計と行動のone-hot表現の積をとって動きの予測ベクトルとする • 回帰誤差関数を導入 12

13.

③ Background Splitter • 時間不変な背景を抽出 • 一般的なencoder-decoder構造 • 時間不変な制約をかけるための誤差関数を導入 13

14.

Spatial Transformer Network • 入力画像，Dynamic Net，Background Splitterの出力から次のフレームを予測 • 基本的にはSpatial transformer networks (NIPS 2015) をそのまま引用して，それぞれに適用 • 予測誤差に加えて以下の誤差関数を導入 14

15.

誤差関数 • 既出の誤差関数を重み付けして和を取る • これに前景検出との誤差を取る以下の誤差関数を加えたバージョンを OODP+pとして別途用意 15

16.

アジェンダ 1. 2. 3. 4. 5. イントロ関連研究手法実験まとめ 16

17.

実験設定 • • • • Pygame Learning EnvironmentのMonster Kongを用いて実験 k個の異なる環境で学習し，10個の初見の環境でテスト (k=1,2,3,4,5) エージェントの方策はランダム従来手法として関連研究で挙げたAC Model [9], CDNA [11]と比較 17

18.

結果 n-error accuracyは予測とのズレがnピクセル以下である割合を表す 18

19.

解釈性の検証静的・動的な物体ともにうまくセグメンテーションできている 19

20.

物体の外見の変化に対する頑健性 • 上図のようにテスト時に物体の外見が変化した場合の性能を検証 • この程度の変化に対しては十分汎化している 20

21.

アジェンダ 1. 2. 3. 4. 5. イントロ関連研究手法実験まとめ 21

22.

まとめ • ダイナミクスの予測を行動と物体間の関係性で条件づけて行うフレームワークを提案 • 強い汎化性能に加えて，解釈性の高いモデルを教師なし手法で提案したことが大きな貢献 • 今後、部分的観測環境への適用や長期の予測，より複雑な状態遷移を含むドメインへの応用，モデルベース強化学習での使用など，多くの発展が見込まれる 22

23.

Object Detectorのアーキテクチャ 23