[DL輪読会]Object-Centric Learning with Slot Attention

1.7K Views

July 17, 20

#deep learning #Deep Learning #Object-Centric Learning #Slot Attention #Machine Learning #Memory Efficiency

スライド概要

2020/07/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Object-Centric Learning with Slot Attention Present Square Co.,Ltd. 小林範久 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル：著者： Object-Centric Learning with Slot Attention （https://arxiv.org/abs/2006.15055） Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy, and Thomas Kipf （Google Research, Brain Team、Dept. of Computer Science, ETH Zurich、MaxPlanck Institute for Intelligent Systems）概要： • 「物体中心表現」をもつ潜在表現を獲得し、物体認識のために利用する手法。 • 低レベルの知覚入力から物体中心の抽象表現を学習する「Slot-Attention」を提案。 • 教師なしの物体検出と教師ありの物体ラベル予測では従来の手法と比べ、メモリ消費と計算の面でより効率的で高精度。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://arxiv.org/abs/2006.15055

1. 導入 • 複雑なシーンの物体中心の表現を学習することは、低レベルの知覚特徴から効率的な抽象推論を可能にするための有望なステップである。 • しかし、ほとんどの深層学習アプローチは、シーンの構成特性を捉えていない分散表現を学習している。物体中心表現を学習させることで、より正確でかつ汎用性の高い物体認知モデルを構築したい。物体中心表現は、「視覚的推論」、「構造化されたモデリング」、「マルチエージェントモデリング」、「相互作用する物理システムのシミュレーション」など、様々な応用分野で機械学習のサンプル効率と一般化を向上させる可能性がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

１. 導入本論文の貢献 ① 知覚的表現（CNNの出力など）と集合として構造化された表現との間のインターフェイスとして、シンプルなアーキテクチャ・コンポーネントであるSlot-Attentionモジュールを導入。 ② 教師なし物体検出にSlot-Attentionベースのアーキテクチャを適用し、よりメモリ効率が高く、訓練時間が大幅に短縮したうえで、関連する最先端のアプローチと同等以上の性能。 ③ オブジェクトのセグメンテーションを教師なしで学習したうえで、教師付き物体プロパティ予測にSlot-Attentionモジュールが使用できることを実証。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. ※本論文におけるプロパティ予測とは、オブジェクトの（位置、形状、素材、色、大きさ）を予測することを意味する。 5

2. 関連研究 ①Object discovery IODINE（Multi-Object Representation Learning with Iterative Variational Inference） • シーンが複数の実体で構成されているという仮定から、画像を「分離された表現で解釈可能なオブジェクト」にセグメンテーションが可能であることを示した論文。 • 潜在物体表現を利用することで、教師なし学習でオクルージョンを塗り潰すように学習し、より多くのオブジェクトを持つシーンや、新しい特徴の組み合わせを持つ見たことがないオブジェクトに外挿していく。 • 反復的変分推論を使用して、画像内のオブジェクトを記述する潜在変数のセットを推論する。 • 物体ごとの相互関係はモデリングできない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6

2. 関連研究 ①Object discovery MONet（Unsupervised Scene Decomposition and Representation） • 画像の領域の周りのAttentionマスクと再構成を提供するために教師なしで、再帰的Attentionネットワークと一緒にVAEをEnd-toEndで学習。 • マスクの生成→VAEでマスク領域を再構成という処理を再帰的に繰り返し行う。 • マスクの生成の際にCNNの計算をマスク数分だけ行うため、計算効率が悪い。 • 複数のエンコード・デコードステップが必要（GENESISも同様。） Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7

2. 関連研究 ②Neural networks for sets DSPN（Deep Set Prediction Network） • 集合の符号化、生成、集合から集合へのマッピングの探索。 • ほとんどの先行研究は、要素ごとに出力セットの順序表現を学習しているため、テスト時に異なるセットのカーディナリティ（要素の数）に一般化できなかった。 • DSPNは、各例に対して内部勾配降下ループを実行することで permutation symmetry（順列対称性）を尊重するが、収束のために多くのステップを必要とし、いくつかの損失ハイパーパラメータを慎重に調整する必要がある。 ※DETR と TSPN は、条件付き集合生成に Transformer を使用することを提案している。 DETR は出力集合のpermutation symmetryを考慮していない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://postersession.ai/poster/deep-set-prediction-networks/ 8

https://postersession.ai/poster/deep-set-prediction-networks/

2. 関連研究 ②Neural networks for sets ＜参考＞集合予測における不連続性と責任問題 • 正方形（図の左上）を90度回転させると（図の右上）、集合内の要素を単純に並べ替えたものになる。これらは同じ集合なので、同じ潜在表現にエンコードし、同じリスト表現にデコードする。つまり、各出力は回転後も同じ位置のポイントを生成する責任がある。 • しかし、これは、90度回転中のある時点（図の下のパス）で、出力の割り当て方法に不連続なジャンプ（図の赤い矢印）が存在する必要があることも意味する。 • ニューラルネットワークは不連続なジャンプを考慮せず関数のみをモデル化するため、このジャンプはニューラルネットワークの学習にとって課題となる。 • 多角形の頂点の数（設定された要素の数）を増やすと、すべての出力が一度に不連続に変化しなければならない状況の頻度が増え、モデル化が非常に難しくなります。このように出力するべきものが定まっているのにもかかわらず、入力の順序が定まっていないと多くの問題が発生する。この問題に対処するためには、入力の順序と出力の順序を独立な関係なものにするため、入力をpermutation invarianceにし、 ②集合を入力した時に、各要素に1対1対応する集合を出力する permutation equivarianceなモデルにすることが必要。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://postersession.ai/poster/deep-set-prediction-networks/ 9

https://postersession.ai/poster/deep-set-prediction-networks/

10.

３. 手法モデル構造 ① CNNによって画像特徴量を抽出する（ImageFeatures） ② Positional embeddingで位置情報をImageFeaturesに付与する（ImageFeatures₊P） ③ Slot-AttentionでInput（k, v）とSlot(q)からAttentionスコアを取得する。 ④ T回反復してSlotを学習させ、Inputのなかの任意のオブジェクトと相同関係を構築する。 ※③と④がSlot-Attention module。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

3. 手法 3.1 Slot Attention Module • • • Slot-AttentionモジュールはCNNから抽出されたN個の入力特徴ベクトルのセット＝Inputを、K個の出力ベクトルのセット＝Slotを用いて物体中心表現を共通次元Dにマッピングする。共有された学習可能なパラメータµ∈𝑅𝐷𝑠𝑙𝑜𝑡𝑠 を持つガウス分布から初期値をサンプリングすることでスロットを初期化。 InputをKey、SlotをQueryとしてAttentionスコアをとり、その加重平均を取ることでマッピング。 K=4のSlot Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

3. 手法 3.1 Slot Attention Module 1slotで1オブジェクトを表現するように特徴量を変化させていく。 • • • Copyright (C) Present Square Co., Ltd. All Rights Reserved. 各反復では、SlotはソフトマックスベースのAttentionメカニズムを介して入力の一部を説明するために競い合い、特徴量を変化させる。具体的にはInputとSlotによって得ることができたAttentionスコアを使って再帰的にSlotの表現を更新する。入力値を割り当てられたSlotに集約するために、加重平均を使用。 12

13.

3. 手法 3.1 Slot Attention Module • 更にGRUの出力をReLU活性化と残差接続を持つ多層パーセプトロン(MLP)で変換することで、性能を向上させる。 • モジュールの入力とSlotの特徴の両方に LayerNormを適用している。これは学習の収束を早めるために利用されている。 Slot Attention の特性（1）入力に関するpermutation invariance（入力の順番を変えても出力が同じになる）。（2）Slotの順序に関するpermutation equivariance（集合を入力して各要素に1対1対応する集合を出力する）。 ⇒これらの特性により、Slotは共通の表現形式を学習し、各Slotが入力内の任意の物体にバインドできる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

3. 手法 3.2 Object Discovery • Slot-Attentionは入力表現をベクトルの集合に変換するため、教師なしオブジェクト発見のためのオートエンコーダーの一部として使用することができる。 • 各Slotでは画像の領域または一部のみをエンコードしており、それらをまとめてデコードすることで、元の画像を再構築する形で画像空間に戻すことができる。 Encoder • • エンコーダは(i)Positional embedding されたCNNと、(ii)Slot-Attentionモジュールの、2つのコンポーネントで構成。 Slot-Attentionの出力はSlotの集合であり、シーンのグループ化（オブジェクトなど）を表している。 Decoder • • • • 各Slotは、2Dグリッドにブロードキャストされ、位置の埋め込みが追加される形で個別にデコードされる。各グリッドはCNNを用いてデコードされ、W × H × 4のサイズの出力を生成する。出力チャネルは、RGBカラーチャネルとアルファマスク（正規化されていない）をエンコード。 Softmaxを用いてSlot間のアルファマスクを正規化し、それらをmixture weightとして使用して1つのRGB画像に結合。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

3. 手法 3.3 Set Prediction • 入力画像と予測対象の集合が与えられ、それぞれがシーン内の物体を記述している。 • 課題は、ターゲットの順序が任意であるため、K個の要素のセットに対してK！個の等価表現が存在すること。（これはDETR などが抱えていた問題と同様。） • そのため、スロットは訓練中にその内容を入れ替えることで、入力順序と出力順序の独立性を確立する。 ⇒これによりSlot Attentionは、入力シーンの分散表現を、各オブジェクト別に分類できる集合表現に変えるために使用できる。 Encoder • Object Discoveryと同じアーキテクチャを使用。 Classifier • • 各Slotに対して、Slot間で共有されるパラメーターを使用してMLPを適用する。予測とラベルの順序は任意であるため、DETR同様ハンガリアンアルゴリズムを使用してそれらを照合している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

4. 実験比較モデルとデータセット 2つのオブジェクト中心のタスク (教師なしと教師あり)でSlot Attentionモジュールを評価。比較モデルタスク（教師なし）物体検出 IODINE／MONet SlotMLP （教師あり）集合予測 IODINE／MONet SlotMLP テストデータ未見シーンで構成されたホールドアウトテストデータデータセット CLEVR（マスク付き） Multi-dSprites Tetrominoes CLEVR（マスク付き） ※ディープセット予測ネットワーク（DSPN）は、Slot-Attention以外では順列対称性を尊重する唯一の集合予測モデル ※単純なMLPベースのベースライン（Slot MLP）は、Slot AttentionをMLPに置き換え、 CNNの特徴マップ（サイズを変更して平坦化したもの）からSlot表現にマップするモデル。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

4. 実験 4.1 Object Discovery 定量評価 • • • 表から、一般的に2つの最新のベースラインと比較して良好な結果を示している。IODINEと比較して、モデルはメモリ消費量と実行時間の両方の点で効率的。グラフでは、反復回数を増した場合の方が精度が上がることが示されている。また訓練時からKの値を増やして、よりシーン内に多くのオブジェクトがある画像についてテストされているが、それでもセグメンテーション性能は低下しないことが確認された。 (後のSet Predictionは、Ｋの値を増やすと性能が低下。) 教師なしシーン分解の先行アプローチと比較して、オブジェクトのセグメンテーションの質、学習速度、メモリ効率の両面で良い。またテスト時には、Slot Attentionをデコーダなしで、未経験シーンからオブジェクト中心の表現を得ることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

4. 実験 4.1 Object Discovery 定性評価 • セグメンテーションの経過を表した図。 • オブジェクトよりもSlotの数が多い場合、モデルはSlotを空に保つ（背景のみをキャプチャする）ように学習。 • 単一のSlotだけに背景をキャプチャするのではなく、すべてのSlotに一様な背景を広げていることがわかる。これは、物体の分離や再構成の品質を損なうことのないAttentionメカニズムの成果物である可能性が高い。 • 1回目の反復ではまだ複数のオブジェクトの一部を1つのSlotにマッピングしているが、2回目の反復ですでに個々のオブジェクトの抽出に特化することを学習している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

4. 実験 4.2 Set Prediction 定量評価（左図）全体的に、DSPNのベースラインと同等以上の性能を示している。（中央図）反復回数を増やすと、一般的に性能が向上する。（右図）Slot-Attentionは、Slot数を変更することで、テスト時により多くのオブジェクトを扱うことができる。 CLEVR6（K=6）でモデルを学習し、6以上のオブジェクト数でテストを行うと、APが緩やかに低下した。この集合予測タスクを解くためには、各Slotが異なるオブジェクトに注目する必要があるという考察がなされている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

4. 実験 4.2 Set Prediction 定性評価 • • ２つのCLEVR画像について、各スロットのAttentionマップを可視化。セグメンテーションマスクを使用せずに、対象物のプロパティを予測するためだけに訓練されているにもかかわらず、自然に対象物をセグメント化していることもわかる。セット構造化されたプロパティ予測タスクのためにオブジェクトの表現を学習し、実装と調整が非常に容易であると同時に、先行する最先端のアプローチに匹敵する結果を達成したと言える。 Attentionマスクはシーンを自然にセグメンテーションするため、モデルの予測結果をデバッグや解釈する際に有用。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

5. まとめまとめ • • • 「物体中心表現」をもつ潜在表現を獲得し、物体認識のために利用する手法。低レベルの知覚入力から物体中心の抽象表現を学習する「Slot-Attention」を提案。教師なしの物体検出と教師ありの物体ラベル予測では従来の手法と比べ、メモリ消費と計算の面でより効率的で、高い精度。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

Appendix 参考文献 • [16] Klaus Greff, Raphaël Lopez Kaufman, Rishabh Kabra, Nick Watters, Christopher Burgess, Daniel Zoran, Loic Matthey, Matthew Botvinick, and Alexander Lerchner. Multi-object representation learning with iterative variational inference. In International Conference on Machine Learning, pages 2424–2433, 2019. • [27] Martin Engelcke, Adam R Kosiorek, Oiwi Parker Jones, and Ingmar Posner. GENESIS: Generative scene inference and sampling with object-centric latent representations. arXiv preprint arXiv:1907.13052, 2019. • [31] Yan Zhang, Jonathon Hare, and Adam Prugel-Bennett. Deep set prediction networks. In Advances in Neural Information Processing Systems, pages 3207–3217, 2019. • [59] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. arXiv preprint arXiv:2005.12872, 2020. • [61] Adam R Kosiorek, Hyunjik Kim, and Danilo J Rezende. Conditional set generation with transformers. ICML 2020 Object-Oriented Learning Workshop, https://github.com/oolworkshop/oolworkshop. github.io/blob /master/pdf/OOL_31.pdf, 2020. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22