【DL輪読会】Physion: Evaluating Physical Prediction from Vision in Humans and Machines

1.

DEEP LEARNING JP [DL Papers] Physion: Evaluating Physical Prediction from Vision in Humans and Machines Presenter: Kei Ota (@ohtake_i). http://deeplearning.jp/ 1

2.

概要 • 書誌情報 – Physion: Evaluating Physical Prediction from Vision in Humans and Machines – Daniel M. Bear, Elias Wang, Damian Mrowca, Felix J. Binder, Hsiau-Yu Fish Tung, R.T. Pramod, Cameron Holdaway, Sirui Tao, Kevin Smith, Fan-Yun Sun, Li Fei-Fei, Nancy Kanwisher, Joshua B. Tenenbaum, Daniel L.K. Yamins, Judith E. Fan • Stanford, UC San Diego, MIT – NeurIPS2021 Datasets and Benchmarks Track (2021年から新設？) • 概要 – 現実に近い物理現象を観測した時に，既存の学習ベースのシミュレータがどれくらい正確に未来を予測できるかを知るためのデータセット Physion を提案 – 粒⼦ベースのシミュレータが⼈間と同程度の性能を達成， Visionベースの⼿法はObject-Centricな⼿法でも低い性能であることを⽰した • 選んだ理由 – 粒⼦ベースのシミュレータに興味があり他の学習ベース⼿法との優劣を知りたかった 2

3.

背景 • 学習ベースシミュレータによる物理現象のシミュレーション精度が⾼まっている設計されたシミュレータ学習ベースシミュレータ設計・開発にとてつもない労⼒が必要使い回しのできる汎⽤的なアーキテクチャ実⾏に膨⼤な計算リソース（スパコン）が必要実⾏効率について最適化可能設計と同じレベルでしか正確でない⼿に⼊るデータと同じくらい正確常に逆問題を解くのに効率的とは⾔えない勾配ベースの⼿法により制御・推論などに使える https://www.youtube.com/watch?v=8v27_jzNynM 3

https://www.youtube.com/watch?v=8v27_jzNynM

4.

背景 • 現在の機械学習モデルがどれくらい正確に⽇常⽣活で観測する物理現象を理解できるか、未来を正確に予想できるかを知りたい – ⼈間は幼児の段階で物理的な概念を獲得し、⼤⼈になると物理法則に則り未来を予測 – 機械学習モデルは⼈間と同じような性能を達成できる？ 4

5.

背景 • 既存のベンチマーク・データセットは以下の要求を満たしていない – ⽇常⽣活で観測する様々な状況を網羅 – 物理的に正確な動作，実世界に近い描写，多様な物理特性 [Riochet, et al., arXiv] [Groth, et al., ECCV2018] [Bakhtin, et al., NeurIPS2019] 5

6.

Physion – 8つの現実世界でよく観測される物理現象から構成 – カメラの視点・物理特性・物体の形状などを広く網羅し写実的な動画を提供 – 現在のSoTAな機械学習モデルの結果が⼈間の性能に達しているかを評価 6

7.

[beta]

タスク
– エピソード終端までに2つの物体が接触するかを予測（2値分類）
• 𝑡!"# ステップまでの観測 {𝑋$:&!"# } から2つの物体 𝑜' , 𝑜( が接触する確率を推定する関数
ℱ): 𝑋$:&!"# , 𝑜' , 𝑜( → 𝑃(𝑐𝑜𝑛𝑡𝑎𝑐𝑡) を学習．テストデータで性能を評価

https://github.com/cogtoolslab/physics-benchmarking-neurips2021

7

https://github.com/cogtoolslab/physics-benchmarking-neurips2021

8.

被験者の実験設定 • 学習：10試⾏をラベル付きで最後まで⾒てシナリオに慣れる • 評価：最初の数秒だけ⾒てYes/No判定（学習モデルと同じ条件） – 8シナリオを100⼈がそれぞれ150試⾏評価 8

9.

学習モデルの実験設定 • • 学習：2000試⾏．汎化性能を確認するためAll, All But, Only で学習評価：150試⾏ – ⼊⼒の⻑さを変えて評価 Observed, Observed + Simulated, Observed Full Outcome (検知問題) – 指標：正答率，⼈間と学習モデルの回答の相関，コーエンのカッパ係数 • モデル：Encoder, Dynamics Model, Adaptor で構成 – Adaptorは2値分類器（collided or not）．上記モデル学習後に教師あり学習 9

10.

学習モデルの種類 1. 教師なし学習，Encoder + Dynamicsモデル：SVG, OP3, CSWM 2. 教師あり学習，Encoder + Dynamicsモデル：RPIN 3. 学習済みImageNet Encoder + 教師あり学習 RNN-Dynamicsモデル – pVGG-mlp/lstm, pDeIT-mlp/lstm 4. グラフ構造NN + 完全な状態情報：GNS, GNS-RANSAC, DPI 10

11.

学習モデルの種類 1. 教師なし学習，Encoder + Dynamicsモデル：SVG, OP3, CSWM 2. 教師あり学習，Encoder + Dynamicsモデル：RPIN 3. 学習済みImageNet Encoder + 教師あり学習 RNN-Dynamicsモデル – pVGG-mlp/lstm, pDeIT-mlp/lstm 4. グラフ構造NN + 完全な状態情報：GNS, GNS-RANSAC, DPI 11

12.

SVG: Stochastic Video Generation – CNNで潜在変数を符号化 -> LSTMで将来の潜在変数を予測 – 将来の潜在変数 -> 将来の動画フレームを予測 – 潜在変数に強い制約をかけずにCNNで抽出した特徴量で物理理解が得られるか？ 12

13.

OP3 – シーンから物体検知 -> CNNで特徴量抽出 -> 物体毎の動⼒学をRGNNで予測 – 特徴量 -> 将来のフレーム変換のロスを⼊れることで object-like な表現を獲得 – それぞれの物体の将来の位置を明に分けて学習することで物理理解は獲得できるか？ 13

14.

CSWM: Contrastively-trained Structured World Models – シーンから物体検知 -> CNNで特徴量抽出 -> 物体毎の動⼒学をRGNNで予測 – 対称学習によりパラメータを更新 – それぞれの物体の将来の位置を明に分けて学習することで物理理解は獲得できるか？ 14

15.

学習モデルの種類 1. 教師なし学習，Encoder + Dynamicsモデル：SVG, OP3, CSWM 2. 教師あり学習，Encoder + Dynamicsモデル：RPIN 3. 学習済みImageNet Encoder + 教師あり学習 RNN-Dynamicsモデル – pVGG-mlp/lstm, pDeIT-mlp/lstm 4. グラフ構造NN + 完全な状態情報：GNS, GNS-RANSAC, DPI 15

16.

Interaction Networks (INs) 1. 有向グラフの構築 𝐺 = ⟨ 𝑂, 𝑅⟩ – 𝑂 = 𝑜$ $%&,…,)! : それぞれの物体の状態 • 位置・速度・属性 (質量, サイズ, etc.) – 𝑅= 𝑖, 𝑗, 𝑟* * *%&,…,)" : 物体間の関係 • e.g., 衝突, バネ Peter W. Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, Koray Kavukcuoglu, Interaction Networks for Learning about Objects, Relations and Physics, NIPS2016 16

17.

Interaction Networks (INs) 1. 有向グラフの構築 𝐺 = ⟨ 𝑂, 𝑅⟩ – 𝑂 = 𝑜$ $%&,…,)! : それぞれの物体の状態 • 位置・速度・属性 (質量, サイズ, etc.) – 𝑅= 𝑖, 𝑗, 𝑟* * *%&,…,)" : 物体間の関係 • e.g., 衝突, バネ 2. 物体間の相互作⽤の予測 – 𝑏! = ⟨𝑜" , 𝑜# , 𝑟! ⟩: – 𝑒! = 𝑓$ (𝑏! ): 物体間の影響 Peter W. Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, Koray Kavukcuoglu, Interaction Networks for Learning about Objects, Relations and Physics, NIPS2016 17

18.

Interaction Networks (INs) 1. 有向グラフの構築 𝐺 = ⟨ 𝑂, 𝑅⟩ – 𝑂 = 𝑜$ $%&,…,)! : それぞれの物体の状態 • 位置・速度・属性 (質量, サイズ, etc.) – 𝑅= 𝑖, 𝑗, 𝑟* * *%&,…,)" : 物体間の関係 • e.g., 衝突, バネ 2. 3. 次の状態を予測 • 𝑐$ = 𝑎(𝐺, 𝑥$ , 𝑒$ ): 物体と相互作⽤を収集 • 𝑥# : 外的な影響 (e.g., 重⼒) • 𝑒# : 内的な影響 (e.g., 張⼒) • 𝑝$ = 𝑓+ (𝑐$ ): 次の状態物体間の相互作⽤の予測 – 𝑏! = ⟨𝑜" , 𝑜# , 𝑟! ⟩: – 𝑒! = 𝑓$ (𝑏! ): 物体間の影響 Peter W. Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, Koray Kavukcuoglu, Interaction Networks for Learning about Objects, Relations and Physics, NIPS2016 18

19.

Interaction Networks (INs) 1. 有向グラフの構築 𝐺 = ⟨ 𝑂, 𝑅⟩ – 𝑂 = 𝑜$ $%&,…,)! 3. • 𝑐$ = 𝑎(𝐺, 𝑥$ , 𝑒$ ): 物体と相互作⽤を収集 : それぞれの物体の状態 • 𝑥# : 外的な影響 (e.g., 重⼒) • 位置・速度・属性 (質量, サイズ, etc.) – 𝑅= 𝑖, 𝑗, 𝑟* * • 𝑒# : 内的な影響 (e.g., 張⼒) *%&,…,)" : 物体間の関係 • 𝑝$ = 𝑓+ (𝑐$ ): 次の状態 • e.g., 衝突, バネ 2. 物体間の相互作⽤の予測 – 𝑏! = ⟨𝑜" , 𝑜# , 𝑟! ⟩: 次の状態を予測 4. パラメータを更新 • min ||𝑜#%&' − 𝑝#%&' ||( – 𝑒! = 𝑓$ (𝑏! ): 物体間の影響 Peter W. Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, Koray Kavukcuoglu, Interaction Networks for Learning about Objects, Relations and Physics, NIPS2016 19

20.

Interaction Networks (INs) Ground Truth N-body Model Bouncing balls Peter W. Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, Koray Kavukcuoglu, Interaction Networks for Learning about Objects, Relations and Physics, NIPS2016 String 20

21.

RPIN (Region Proposal Interaction Networks) – CNNで特徴量抽出 -> 物体検知 -> 物体毎の動⼒学をINsで予測（速度・加速度出⼒） – 物体検知モジュールは教師あり学習 – それぞれの物体の動⼒学を明に分けて計算することで物理理解は獲得できるか？ 21

22.

Propagation Networks ℎ$ ℎ* ℎ+ Message Passingを導⼊しノード間の影響をLステップ分伝搬 Peter W. Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, Koray Kavukcuoglu, Interaction Networks for Learning about Objects, Relations and Physics, NIPS2016. Yunzhu Li, Jiajun Wu, Jun-Yan Zhu, Joshua B. Tenenbaum, Antonio Torralba, Russ Tedrake, Propagation Networks for Model-Based Control Under Partial Observation, ICRA2019. 22

23.

粒⼦ベースのシミュレータ • 1つの物体を複数の粒⼦で表現 – 複雑な形状・異なる性質の物体（剛体・柔軟物・流体）を表現可能 – 粒⼦毎のミクロな動⼒学を学習することで汎化性を向上 Damian Mrowca, Chengxu Zhuang, Elias Wang, Nick Haber, Li Fei-Fei, Joshua B. Tenenbaum, Daniel L. K. Yamins, Flexible Neural Representation for Physics Prediction, NeurIPS2018. Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, Peter W. Battaglia, Learning to Simulate Complex Physics with Graph Networks, ICML2020. 23

24.

GNS (Graph Networks-based Simulators) Encoder • ⼊⼒：位置・速度x5・粒⼦の種類 • 近傍点でグラフ構築 • MLPで特徴抽出 Processor • Message-passing x10 • エッジ関数: MLP • ノード関数: MLP Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, Peter W. Battaglia, Learning to Simulate Complex Physics with Graph Networks, ICML2020. Decoder • 加速度を推定 • 𝑦" = 𝛿 ) (𝑣"* ) • オイラー陽解法で位置・速度計算 24

25.

DPI (Dynamic Particle Interaction Networks) – GNSに階層構造を追加（同じ物体に属する粒⼦をグルーピング） – 物体間のマクロな影響も考慮 Damian Mrowca, Chengxu Zhuang, Elias Wang, Nick Haber, Li Fei-Fei, Joshua B. Tenenbaum, Daniel L. K. Yamins, Flexible Neural Representation for Physics Prediction, NeurIPS2018. Yunzhu Li, Jiajun Wu, Russ Tedrake, Joshua B. Tenenbaum, Antonio Torralba, Learning Particle Dynamics for Manipulating Rigid Bodies, Deformable Objects, and Fluids, ICLR2019. 25

26.

被験者の結果 – 全てのシナリオで正答率が⾼い（50%を⼤きく超えている） – “human zones”（灰⾊の幅）は⽐較的狭く、信頼性のある結果と⾔える – モデルの予測性能は⼈間のエラーパターンに強い相関がある 26

27.

粒⼦ベースモデルの結果 – ⼈間レベルの性能達成。DPI（粒⼦＋階層）は⼈間を上回る – 汎化性能が⾼い = シナリオに過適合していない（all, all-but-onceの性能も⾼い） – 衝突が連鎖して起こるDominoesにおいてGNS, GNS-RはDPIより性能低い • 階層構造を⽤いて同じ物体に属する粒⼦をグルーピングすることが有効 27

28.

Visionベースモデルの結果 • 全てのモデルが⼈間レベルの性能には達しない • SVG（動画予測モデル） – ほとんど全く予測できていない • OP3, CSWM, RPIN（物体毎の動⼒学を計算） – OP3はchance-level, CSWM, RPINは~60%程度の正答率 – Object-centricな表現が物理現象の理解に繋がる • ImageNet-pretrained model – このタスクで学習していないがVisionモデルで最も良い性能 – 強⼒な画像特徴量の獲得が重要 28

29.

Visionベースモデルは何を学習している？ • Observed + simで性能が上がらない – 物体衝突タスクを解く上で「動画」の予測は役に⽴っていない – 性能が良いモデルは動画初期の物体間の関係性（位置・姿勢・速度）を学習していて，それがタスクを解く上で有効（かもしれない） • shortcut-learning = 意図していないタスクの解かれ⽅の恐れも • Full movie で性能向上 – 学習した特徴量は「衝突検知タスク」には有効 29

30.

まとめ • 2つの物体が接触するかを予測するデータセット Physion を提案． – 現実世界でよく観測される8つのシナリオから構成 – カメラの視点・物理特性・物体の形状などを広く網羅し写実的な動画を提供 • 完全に状態にアクセスできる粒⼦ベースの⼿法が最も性能が良いことを⽰した • Visionベースの⼿法はいずれも⼈間の認知性能には遠く及ばないことを⽰した • 次のターゲットは流体や柔軟物を取り⼊れること．また複数の剛体から構成される物体の予測性能の評価． 30

31.

タスク⼀覧 31

32.

[beta]

実験設定
• 𝑡:;< ステップまでの観測 {𝑋=:>#$% } から2つの物体 𝑜? , 𝑜@ が接触する確率を推定する
関数 ℱA: 𝑋=:>#$% , 𝑜? , 𝑜@ → 𝑃(𝑐𝑜𝑛𝑡𝑎𝑐𝑡) を学習．テストデータで性能を評価
– ⼈間：少量のデータから学習し（タスクに慣れて）推定
– 学習モデル：Encoder, Dynamics Model, Adaptor で構成
• Adaptorはこのタスク⽤の2値分類器．Encoder, Dynamics Modelの学習後に教師あり学習

32

33.

DEEP LEARNING JP [DL Papers] Physion: Evaluating Physical Prediction from Vision in Humans and Machines Presenter: Kei Ota (@ohtake_i). http://deeplearning.jp/ 33

【DL輪読会】Physion: Evaluating Physical Prediction from Vision in Humans and Machines

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

【拡散モデル勉強会】Introduction to Diffusion Models

各ページのテキスト