【DL輪読会】Neural Systematic Binder

1.6K Views

September 08, 23

#Deep Learning #Neural Systematic Binder #Object-centered Learning #Disentanglement #Factorization

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Neural Systematic Binder 2023.09.08 Akihiro Nakano, D1, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • “Neural Systematic Binder” • 著者：Gautam Singh, Yeongbin Kim, Sungjin Ahn – Rutgers⼤学＋KAIST – Sungjin Ahn先⽣はここ数年Object-centric learningやDreamerの研究に取り組んでいる • ICLR2023にて採択（ポスター） – オンライン参加だったのか，現地にポスターはなかった 2

概要 • 物体中⼼学習において，位置（Spatial）と特徴（Factor）の組み合わせとして，物体表現を学習するアルゴリズムを提案 • 決定論的なFactorへのDisentanglement • Factorを1次元ではなく，blockとして複数次元で表すことでより豊かな表現が可能に 3

背景 • Object-centric Learning（物体中⼼学習） – 複数の物体から構成されるシーンを，単⼀の潜在表現ではなく，物体ごとの潜在表現に分割して表すように学習する⼿法 – 元々はVAEのDisentanglementに関する研究の⼀つだったが，最近では Transformerベースのモデルも登場 [1] – シーンを物体にdisentangleし，さらに物体表現がfactorごとにdisentangleされて学習されることで，未知物体・シーンへの汎化性能が向上 – 静⽌画 → 動画への拡張，物体間の相互作⽤のモデリング，視点変化の追加などが研究されてきている [2,3] – シーンを物体表現を⽤いて表した⽅が後続タスクにおいても有⽤であることが近年⽰されている • VQAタスク，planningなど [4,5] 4

問題意識 Q, 未知物体・シーンにうまく汎化するには？ • 物体を細かいfactorの組み合わせとして捉え，それらを組み合わせて推論したい • Factorをどう学習させるかについて様々なアプローチが取られている • なるべく仮定を少なく実装したい Factorizationの種類静止画動画 Explicit AIR[12]など SQAIR[13], STOVE[14]など（What, Where, Presenceなど）（What, Where, Presence, Velocityなど）本研究 STEDIE[15], NCS[16]など Implicit 5

関連研究 1. IODINE [6] • シーンが複数の物体で構成されているという仮定から，画像を「分離された表現で解釈可能なオブジェクト」にセグメンテーション可能であることを⽰した論⽂ • 反復変分推論を⽤いて，画像中の物体ごとの潜在表現を獲得する⼿法を提案 6

関連研究 2. Slot Attention [7] • 物体中⼼である潜在表現を獲得する⼿法の⼀つ • CNNエンコーダの出⼒をque，ガウス分布によって初期化されたslot 表現をkey・valueとして，画像のどの部分をどのslotに割り当てるかを競い合わせる • 動画予測など様々な拡張が提案されている 7

関連研究 3. SLATE [1] • Slot Attentionを拡張した⼿法の⼀つ • dVAE [8]と組み合わせて，離散化されたvisual tokenからslot表現を獲得する⼿法 • 未知物体・物体数・シーンに対して⼤幅に汎化性能が向上 8

⼿法 1. Spatial Binding – Slot Attentionと同様 – CNNによって 𝐿 個のエンコーダ出⼒𝐸 ∈ ℝ!×# を得る – Slot表現 𝑆 ∈ ℝ$×%! をquery，エンコーダ出⼒ 𝐸 ∈ ℝ!×# をkey, value にして𝑁 個のreadoutを獲得 – 𝑆, 𝐸間のattentionは， 𝐴 = softmax ! 𝑞(𝑆) . 𝑘(𝐸)" 𝑀# – Readoutは， 𝑈 = 𝐴 . 𝑣(𝐸) 9

10.

⼿法 2. Factor Binding – – Readoutを𝑀 分割（=block）それぞれに対し，GRUを適⽤して表現のrefinementを⾏う 𝑠$,& = GRU'! (𝑠$,& , 𝑢$,& ) – 各blockのGRUは別のパラメータ • – パラメータ共有でも可能各iterationで，𝑠&,( に⼀番類似するconcept memory 𝐶( ∈ ℝ)×* を選択（=slot） 𝑠$,& = softmax ( 𝑠$,& . 𝐶& " 𝑑 . 𝐶& 10

11.

⼿法 3. Block-Coupling – 同じblock番号が同じconceptに対応づけるため，block番号をpositional embeddingして1層のTransformerに通す 𝑠$,& ̅ = 𝑠$,& + p)*+,& ⟹ 𝑠̃$,. , ⋯ , 𝑠̃$,/ = BlockCoupler(𝑠$,. ̅ , ⋯ , 𝑠$,/ ̅ ) – 「これによりblock間の相互作⽤もモデルできる」 →時系列への拡張を視野に⼊れている？ 4. Autoregressive Decoding – これまで説明したアーキテクチャとは別にdVAEを学習 → tokens 𝑧+, ⋯ , 𝑧! – 𝑧+, ⋯ , 𝑧! をslot表現 𝑆 = 𝑠̃&,( に条件づけ，Transformerを⽤いて autoregressiveにトークン𝑜+, ⋯ , 𝑜! を予測し，デコードする 𝑒0 = 𝐷𝑖𝑐𝑡 𝑧0 + p1+-23 0 ⟹ 𝑜0 = TransformerDecoder(𝑒. , ⋯ , 𝑒04. ; 𝑆) – 全体のアーキテクチャはdVAEの損失関数+∑!,-+ CrossEntropy(𝑧, , 𝑜, ) 11

12.

実験結果 • 使⽤データセット [9,10] – CLEVR-Easy – CLEVR-Hard – CLEVR-Tex • ベースラインモデル – IODINE [6] – Slot Attention [7] – SLATE [1] CLEVR-Easy Type of CLEVR Easy Hard Tex CLEVR-Tex CLEVR-Hard Color Shape Position Size Material ✅ ✅ ✅ ❌ ❌ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ (8 colors) ✅ (137 colors) ✅ Table: Factor of Variations (obj + bg) 12

13.

実験結果 1. Disentanglementの評価 • 定量的評価 – 評価指標 • FG-ARI（Foreground Adjusted Rand Index）前景について，予測マスクと正解マスク間のARIを計算 • DCI（Disentanglement, Completeness, Informativeness）[11] "#$%& Slot表現から各特徴を予測するprobe関数 𝑔! を学習させ，そこからfeature importance matrix 𝑅 = 𝑅!,( ∈ ℝ)×+ を計算 . ) "#$%& 𝐷( = 1 − 𝐻) 𝑅:,( , 𝐶! = 1 − 𝐻+ 𝑅!,∶ , 𝐼 = ∑! 𝑎𝑐𝑐(𝑔! ) Block表現については 𝑅 をblockごとに⾜し合わせて評価 – 全てのデータセット（特に⼀番難しいCLEVR-Tex）において⽐較⼿法を上回る 13

14.

実験結果 1. Disentanglementの評価 • 定量的評価 – DCI計算に⽤いるfeature importance matrix 𝑅 を可視化 – 他⼿法と⽐べ，よりスパース – 決定論的な⼿法であるSlot AttentionやSLATEはより“active”な次元が多い → Completeness-scoreが低い 14

15.

実験結果 1. Disentanglementの評価 • 定性的評価 – データセットごとにblock表現のk-meansを可視化 – データセットに対応した特徴（⾊，形，位置，テクスチャ，etc.）が disentangleされてblock表現として学習されていることがわかる 15

16.

実験結果 2. Compositionalityの評価 • 定性的評価（のみ） – blockを⼀つ選択し，画像間で表現を交換（swap）する – その特徴のみが綺麗に交換されていることがわかる CLEVR-Hard CLEVR-Easy 16

17.

まとめ • Slot表現をさらに明⽰的にblockに分けることで意味のあるblock表現が獲得されることを⽰した • Concept memoryを導⼊することでボトルネック構造を作ることで， disentanglementを促している疑問・課題感など • 結局slot数・block数はハイパラのまま • Block-couplingがどこに効いているのかがあまりよく分からない→時系列・物体間の相互作⽤のモデリングのため？ • 正解マスクがないとslotのうち物体に対応しているものを⾒つけるのが困難 17

18.

参考⽂献 [1] Singh G, et al. Illiterate DALL-E Learns to Compose. ICLR2022. [2] Singh G, et al. Simple Unsupervised Object-Centric Learning for Complex and Naturalistic Videos. NeurIPS2022. [3] Li N, et al. Learning Object-Centric Representations of Multi-Object Scenes from Multiple Views. NeurIPS2020. [4] Wu Z, et al. SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models. ICLR2023. [5] Veerapaneni R, et al. Entity Abstraction in Visual Model-Based Reinforcement Learning. CoRL2020. [6] Greff K, et al. Multi-Object Representation Learning with Iterative Variational Inference. ICML2019. [7] Locatello F, et al. Object-Centric Learning with Slot Attention. NeurIPS2020. [8] Rolfe JT. Discrete Variational Autoencoders. ICLR2017. [9] Johnson J, et al. CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning. CVPR2017. [10] Karazija L, et al. CLEVRTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation. NeurIPS2021 Datasets and Benchmarks Track. 18

19.

参考⽂献 [11] Eastwood C and Williams C. A Framework for the Quantitative Evaluation of Disentangled Representations. ICLR2018. [12] Eslami SM, et al. Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS2016. [13] Kosiorek A, et al. Sequential Attend, Infer, Repeat: Generative Modelling of Moving Objects. NeurIPS2018. [14] Kossen J, et al. Structured Object-Aware Physics Prediction for Video Modeling and Planning. ICLR2020. [15] Nakano A, et al. Interaction-Based Disentanglement of Entities for Object-Centric World Models. ICLR2023. [16] Chang M, et al. Neural Constraint Satisfaction: Hierarchical Abstraction for Combinatorial Generalization in Object Rearrangement. ICLR2023. 19

20.

Appendix 1. Ablations 20