【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

1.

DEEP LEARNING JP [DL Papers] ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders 小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報タイトル： ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders https://arxiv.org/abs/2301.00808 著者： Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xie 概要： • ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXtに、自己教師あり学習である Masked Autoencoders(MAE)を結合。 • ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として Global Response Normalization（GRN）layerを加え、チャネル間の競合関係を強調することを提案。 • ImageNet classification、COCO detection、 ADE20K segmentationなどのベンチマークを更新。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://arxiv.org/abs/2301.00808

3.

4.

１. イントロダクションイントロダクション • 事前学習された大規模な画像認識モデルは、特徴学習や様々な視覚アプリケーションを実現するための重要なツールとなっている。そして、そのシステムの性能は、ニューラルネットワークアーキテクチャの選択、ネットワークの学習方法、訓練データの3つの主要因に大きく影響される。ニューラルネットワークアーキテクチャの選択 • ConvNetsは、様々な画像認識タスクに汎用的な特徴学習法を利用できるようになったことで、コンピュータビジョン研究に大きな影響を与えた。Transformer も、モデルやデータセットサイズに対する強力なスケーリング挙動により人気を博している。さらに最近では、ConvNeXt アーキテクチャが従来の ConvNets を近代化し、畳み込みモデルもスケーラブルなアーキテクチャになり得ることを実証している。 • しかし、ニューラルネットワークアーキテクチャの設計空間を探索する最も一般的な方法は、依然としてImageNet上での教師あり学習によるものである。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

5.

１. イントロダクションイントロダクション • 画像認識の学習の焦点は、教師あり学習から、自己教師あり事前学習へと移行している。特に、Masked Autoencoders (MAE) は、急速に画像認識学習のための一般的なアプローチになった。 • しかし、自己教師あり学習では、教師あり学習用に設計されたアーキテクチャを用い、デサインが固定されている。例えば、 MAEはVision Transformerを用いて開発されている。 • アーキテクチャと自己教師あり学習フレームワークの設計要素を組み合わせることは可能であるが、ConvNeXtとMAEを併用する場合、困難な場合がある。 ① MAEがTransformerのシーケンス処理能力に最適化された特定のエンコーダ・デコーダ設計を持っていることで、計算負荷の高いエンコーダが可視パッチに集中できるようになり、事前学習コストが削減される。この設計は、高密度のスライディングウィンドウを使用する標準的な ConvNets とは相容れない。 ② アーキテクチャと学習目的の関係を考慮しないと、最適な性能が得られるかどうかが不明確になる。 ConvNeXtモデルに対してマスクベースの自己教師あり学習を有効にし、ネットワークアーキテクチャとMAEを同一のフレームワークで設計することを検討。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

6.

２. 関連研究 ConvNets • 1980年代に初めて導入され、バックプロパゲーションを用いて学習されたConvNetsの設計は、長年にわたり、最適化、精度、効率の面で多くの改善を受けてきた。 • これらの技術革新は、主にImageNetデータセットに対する教師あり学習を用いて発見された。 ConvNeXt • ConvNet の設計空間を再検討したもの。 • Vision Transformer と同等の拡張性を持ちうることを示した。 • 特に低複雑度を必要とするシナリオで優れている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2201.03545.pdf 6

https://arxiv.org/pdf/2201.03545.pdf

7.

２. 関連研究 MAE（マスクドオートエンコーダ） • 最新の自己教師あり学習戦略の1つ。事前学習フレームワークとして、画像認識において幅広い影響を及ぼしている。 • しかし、オリジナルのMAEは、その非対称なエンコーダ・デコーダの設計により、ConvNetsに直接適用することができない。MCMAE はいくつかの畳み込みブロックを入力トークン化器として使用する。エンコーダ • バッチに分割された入力画像の一部にランダムマスク処理を行い、マスクされていないパッチのみ入力。デコーダ • エンコードされたパッチトークンとマスクトークンを入力。 • このマスクトークンは、学習可能なパラメータであり、全マスクトークンで共有されている。 • マスクトークンは画像内の位置に関する情報を持たせるためにデコーダにおいても各トークンに位置埋め込みを行う。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2111.06377.pdf 7

https://arxiv.org/pdf/2111.06377.pdf

8.

２. 関連研究従来のMAEの課題 • MAEは、シーケンシャルなデータを処理するTransformer との組み合わせに最適に設計されているので、 ConvNets と併用するには計算コストがかかり過ぎる。 • スライディングウィンドウの仕組みから ConvNets と相性の悪い設計になっている可能性がある。 ConvNeXt V2 • マスクベースの自己教師あり学習を有効にし、Transformer を用いた場合と同様の結果を得ることを目的として、ネットワークアーキテクチャとマスクドオートエンコーダを同一のフレームワークで設計することを提案。 • • ConvNeXt の様々な訓練構成について、特徴空間分析を行った。その結果、マスクされた入力に対して、直接 ConvNeXt を訓練した場合、特徴量の崩壊の可能性があることがわかった。 ⇒ グローバル応答正規化層（Grobal Response Normalization）チャネル間特徴量の競合関係を強調。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

9.

３. Fully Convolutional Masked Autoencoder Fully Convolutional Masked Autoencoder（FCMAE） • FCMAEは sparse convolution に基づく ConvNeXt エンコーダと軽量の ConvNeXt ブロックデコーダから構成される。 • このオートエンコーダのアーキテクチャは非対称である。 • エンコーダは可視画素のみを処理し、デコーダは符号化された画素とマスクトークンを用いて画像を再構成する。損失はマスクされた領域に対してのみ計算される。マスキング • • • • 32×32のパッチのうち、60%をランダムにマスキングする。畳み込みモデルは階層的に設計。異なるステージで特徴がダウンサンプリングされ、マスクは最終ステージで生成。最も細かな解像度まで再帰的にアップサンプリングする。パッチを入力画像から抽出する。データ拡張は、最小限でランダムリサイズクロッピングのみ。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

３. Fully Convolutional Masked Autoencoder Fully Convolutional Masked Autoencoder（FCMAE）エンコーダの設計 • ConvNeXt モデルをエンコーダとして使用。 • マスク画像のモデリングの課題は、モデルがマスクされた領域から情報をコピー＆ペーストできるようなショートカットを学習しないようにすること。Transformer ベースのモデルでは、エンコーダへの入力として可視パッチを残すことができるため、比較的容易に実現できる。 • しかし、ConvNets では、2次元の画像構造を保持する必要があるため、困難である。 • 入力側に学習可能なマスクトークンを導入する方法は、事前学習の効率を下げ、テスト時にはマスクトークンが存在しないため、学習時とテスト時の矛盾が発生する。これは、特にマスキング率が高い場合に問題となる。 • この問題に対して、3Dの sparse point clouds の「sparse data perspective」における学習からヒントを得た。 • マスクされた画像はピクセルの2次元空間における sparse 配列として表現できる。この洞察に基づき、sparse conv layer を取り入れる。 • 実際には、事前学習中に、エンコーダの標準的な畳み込み層を、submanifold sparse convolutionに変換することを提案。これにより、モデルは可視データ点のみに対して動作することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

３. Fully Convolutional Masked Autoencoder Fully Convolutional Masked Autoencoder（FCMAE）デコーダの設計 • デコーダには軽量でプレーンな ConvNeXt ブロックを使用。 • エンコーダがデコーダより重く、階層を持つため、全体として非対称なアーキテクチャを形成している。 • 階層型デコーダやTransformerなどのより複雑なデコーダも検討したが、より単純な単一 ConvNeXt ブロックデコーダはFine-turningの精度の面で良好で、事前学習時間を大幅に短縮した。デコーダの次元は512に設定。 ※grayでハイライトされている条件を採用表１ MAE decoder ablation experiments Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

３. Fully Convolutional Masked Autoencoder Fully Convolutional Masked Autoencoder（FCMAE）再構成対象 • 再構成された画像とターゲット画像の間の平均二乗誤差（MSE）を計算する。 • MAEと同様に、ターゲットは元の入力のパッチ単位で正規化した画像であり、損失はマスクされたパッチにのみ適用される。 FCMAE • 上記を組み合わせることで、Fully Convolutional Masked Autoencoder（FCMAE）を提案。 • ImageNet-1Kデータセットを用いて、それぞれ800エポックと100エポックの事前学習とFine-turningを行い、単一の224×224センタークロップに対するImageNet-1K検証のトップ1の精度を検証。 • FCMAEのフレームワークでsparse conv layerを有無のパターンで比較し、 sparse conv layer の効果を実証。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

３. Fully Convolutional Masked Autoencoder Fully Convolutional Masked Autoencoder（FCMAE） • 次に、教師あり学習と自己教師あり学習を比較。 • 教師あり100エポックベースラインと、ConvNeXt のオリジナル論文で提供された300エポック教師あり学習ベースラインの2つのベースライン実験結果を得た。 • その結果、FCMAEの事前学習はランダムなベースラインよりも良い初期化（すなわち、82.7 → 83.7）を提供するが、オリジナルの教師あり設定で得られた最高の性能には劣ることがわかった。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

４. Global Response Normalization Global Response Normalization • ConvNeXtアーキテクチャと組み合わせてFCMAE事前学習をより効果的に行うための新しい技術 Global Response Normalization（GRN）を提案。特徴崩壊（Feature collapse） • 学習挙動をより深く理解するために、特徴空間における定性的な解析を行った。 • FCMAEで事前学習したConvNeXt-Baseモデルの活性度を可視化したところ、消失したり、飽和した特徴マップが多く、活性度がチャネル間で冗長になっていた。この挙動は、主にConvNeXtブロックの次元拡張MLP層で観察された。 • 暗いpatchは特徴量が消失しており、黄色のpatchは特徴量が飽和していることを示す。ConvNeXtV1-Base のモデルは、特徴量の多くが消滅もしくは飽和してしている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 図３ Feature activation visualization 14

15.

４. Global Response Normalization Feature cosine distance の解析 • 活性化テンソル 𝑋 ∈ 𝑅𝐻 ×𝑊 × 𝐶 が与えられたとき、𝑋𝑖 ∈ 𝑅𝐻×𝑊 は 𝑖 番目のチャネルの特徴マップである。これを 𝐻𝑊 次元ベクトルとして再形成し、チャンネル間の平均対コサイン距離を以下で計算する。 • 距離の値が大きいほど、特徴の多様性が高いことを示し、小さいほど特徴の冗長性を示す。 • ImageNet-1K検証セットを用いて、FCMAE モデル、 ConvNeXt 教師ありモデル、MAE事前学習済みViTモデルなどを比較。 • 異なるモデルの各層から高次元特徴を抽出する。そして、各画像の層ごとの距離を計算し、全画像の値を平均化する。図４ Feature cosine distance analysis • ConvNeXt V1 FCMAEの事前学習済みモデルは、特徴崩壊の挙動を示していることがわかる。 • 教師ありモデルでは、特徴の多様性が減少しているが、最終層のみである。これは、クロスエントロピー損失を用いることで、クラス識別に有効な特徴量に着目し、それ以外の特徴量を抑制しているためと考えられる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

４. Global Response Normalization GRNのアプローチ • 脳には、ニューロンの多様性を促進するメカニズムが数多く存在する。例えば、横方向の抑制は、活性化したニューロンの反応を鮮明にし、刺激に対する個々のニューロンのコントラストと選択性を高めると同時に、ニューロンの集団全体の反応の多様性を高めるのに役立つ。 • 深層学習では、このような横方向の抑制は、Response Normalization によって実装することができる。 • 本研究では、チャネルのコントラストと選択性を高めることを目的としたGlobal Response Normalization（GRN）と呼ばれる新しいレイヤーを導入する。 • 入力特徴量 X ∈ 𝑅𝐻×𝑊×𝐶 が与えられると、提案するGRNユニットは3つのステップから構成される。 1) Global Feature Aggregation 2) Feature Normalization 3) Feature Calibration Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

４. Global Response Normalization GRNのアプローチ１）Global Feature Aggregation • まず、空間特徴マップ𝑋𝑖 をグローバル関数 𝐺(・) でベクトル 𝑔𝑥 に集約する。 • これは単純なプーリング層と見なすことができる。 • 特徴集約に広く用いられているGlobal average poolingは、うまく機能しなかった。 • 代わりに、ノルムベースの特徴集約、具体的には L2 ノルムを用いると、より良い性能になることが分かった。 • これにより、集約された値の集合 𝐺 𝑋 = 𝑔𝑥 が得られる。 • G(𝑋)𝑖 = 𝑋𝑖 は 𝑖 番目のチャネルの統計量を集約したスカラー。 G(X) = gx = { 𝑋1 , 𝑋2 , … , 𝑋𝐶 } ∈ 𝑅𝐶 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

４. Global Response Normalization GRNのアプローチ２） Feature Normalization • 次に、集計した値に対して、response normalization 関数N()を適用する。 • 𝑋𝑖 は、𝑖 番目のチャネルの L2ノルムである。 • 他の正規化関数と比較し、単純な divisive normalization が最も効果的であることがわかったが、標準化 ( 𝑋𝑖 − 𝜇)/𝜎 を適用しても同様の結果が得られることが確認された。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

４. Global Response Normalization GRNのアプローチ３）Feature Calibration • 最後に、１）、２）で計算された特徴正規化スコアを用いて、元の入力応答をキャリブレーションする。 • • • • GRNユニットのコアは、たった3行のコードで実装でき、学習可能なパラメータを持たないため、非常に簡単である。最適化を容易にするために、2つの学習可能なパラメータ 𝛾、および 𝛽 を追加し、それらをゼロに初期化する。また、GRN 層の入力と出力の間に残差接続を追加する。（残差ありの方が精度が高い。）最終的なGRNブロックは 𝑋𝑖 = 𝑋𝑖 ∗ 𝑁(𝐺(𝑋)𝑖 ) + 𝛽 + 𝑋𝑖 となる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

４. Global Response Normalization ConvNeXt V2 Block • ConvNeXtのオリジナルブロックにGRN層を組み込む。 • GRNを適用すると LayerScale が不要になり、削除。 • この新しいブロック設計を用いて、ConvNeXt V2モデルファミリーを作成。軽量（例：Atto) から計算量の多いもの（例：Huge）まで多岐にわたる。図5.ConvNeXt Blockデザイン Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

４. Global Response Normalization GRNの効果 • FCMAEフレームワークを用いてConvNeXt V2を事前学習させ、GRNの効果を評価。 • 可視化とFeature cosine distanceから、コサイン距離の値は一貫して高く、層を超えて特徴の多様性が維持されており、ConvNeXt V2は特徴量崩壊の問題を効果的に軽減していることがわかる。 • GRN をローカル応答正規化（LRN）、バッチ正規化（BN）、レイヤー正規化（LN）と比較。 • GRNのみが教師ありベースラインを上回ることができた。LRNは近傍のチャンネルを対比させるだけなので、グローバルなコンテキストを欠いている。 • BNはバッチ軸に沿って空間的に正規化するが、これはマスクされた入力には適さない。LNはグローバルな平均と分散の標準化を通じて暗黙のうちに特徴の競合を促すが、GRNほどには機能しない。 Fine-turning性能の評価 • GRNを搭載したFCMAE事前学習モデルは、300エポックの教師ありモデルを超えることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

５. ImageNet 実験 ImageNet 実験 • ImageNet-1Kデータセット、ImageNet-22Kデータセットを用いて検証。共同設計の重要性 • 自己教師あり学習フレームワーク（FCMAE）とモデルアーキテクチャの改良（GRN層）の両者の学習動作を検証。 • モデルアーキテクチャを変更せずにFCMAEフレームワークを用いても、性能への影響は限定的であった。 • 同様に、新しいGRN層は教師ありの設定において、性能への影響がかなり小さい。しかし、この2つを組み合わせることで、 Fine-turningの性能が大幅に向上した。 ⇒特に自己教師あり学習に関しては、モデルと学習フレームワークの両方を一緒に考えるべき。 • ConvNeXtでは、アーキテクチャと学習フレームワークを共同設計することで、マスク画像の事前学習が効果的に行われる。 • 800エポックFCMAE事前学習したモデルのファインチューニング性能が右表。 • モデルサイズが大きくなるほど、相対的な改善度は大きくなる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

５. ImageNet 実験モデルのスケーリング • 低容量の3.7M Attoモデルから高容量の650M Hugeモデルまで、サイズの異なる 8 種類のモデルを評価。 • これらのモデルに対して、FCMAEフレームワークを用いて事前学習を行い、教師ありのモデルと比較して、Fine-turningの結果を比較した。 • その結果、すべてのモデルサイズにおいて、教師ありベースラインよりも一貫して性能が向上し、強力なモデルスケーリング動作が実証された。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

５. ImageNet 実験既存モデルとの比較 • 既存モデル（すべてTransformerベースモデル）と比較。表4. 過去のマスク画像モデリングアプローチとの比較 • 事前学習データはImageNet-1K学習セットである。すべての自己教師あり手法は、画像サイズ224でのエンドツーエンドの Fine turning性能によってベンチマークされている。 • SimMIMで事前学習したSwin Transformerを、全てのモデルサイズにおいて上回った。MAEで事前学習したViTと比較すると、より少ないパラメータ（198M対307M）にも関わらず、 Large model領域まで同様の性能を発揮することができる。 • しかし、巨大なモデル領域では、わずかに劣った。これは、巨大なViTモデルが自己教師あり事前学習からより多くの益を得ることができるためと思われる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24

25.

５. ImageNet 実験 ImageNet-22K intermediate fine-tuning 表 5. IN-21Kラベルを用いたImageNet-1K fine-tuning 以下の学習を実施。 1) FCMAEによるpre-training 2) ImageNet-22Kによるfine-tuning 3) ImageNet-1Kによるfine-tuning • Pre-trainingとfine-tuningには、3842枚の解像度画像を用いる。この結果を、畳み込みベース、トランスフォーマベース、ハイブリッドデザインなど、最先端のアーキテクチャ設計と比較。これらの結果は全てImageNet22Kの教師ありラベルで学習させたものである。 • FCMAE事前学習を搭載したConvNeXt V2 Hugeモデルは、他のアーキテクチャを凌駕し、公開データのみを用いた手法の中で88.9%という最新の精度を達成。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25

26.

６. 転移学習実験 COCO物体検出とインスタンスセグメンテーションの結果 • ConNeXt V2 + FCMAEの転移学習の性能を検証。 • SwinTransformer-Baseのモデルと比べて性能が向上していることがわかる。 • COCOの fine-tuning 実験は全て ImageNet-1K の事前学習済みモデルに依存する。 UPerNetを用いたADE20Kのセマンティックセグメンテーションの結果 • ADE20K datasetにおけるSemantic segmentationの実行結果。 • SwinTransformerの結果と比較。 • Object Detection taskと同様、精度が向上。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26

27.

7. 結論まとめ • ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXt V2は、自己教師あり学習に適したモデルとして設計されており、そのアーキテクチャは最小限の変更に留まっている。 • ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として Global Response Normalization（GRN）layerを加え、チャネル間の競合関係を強調することを提案。 • ImageNet classification、 COCO detection、 ADE20K segmentationなどのベンチマークを更新。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 27

28.

Appendix 参考文献 • Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer,Trevor Darrell, and Saining Xie. A convnet for the 2020s. In CVPR, 2022. • Christopher Choy, JunYoung Gwak, and Silvio Savarese. 4d spatio-temporal convnets: Minkowski convolutional neural networks. In CVPR, 2019. • Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.-G. Jiang, “Polarformer: Multi-camera 3d object detection with polar transformer,” ArXiv, p. abs/2206.15398, 2022. • Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. • Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask R-CNN. In ICCV, 2017. • Qilong Wang, Banggu Wu, Pengfei Zhu, Peihua Li, Wangmeng Zuo, and Qinghua Hu. Eca-net: Efficient channel attention for deep convolutional neural networks. In CVPR, 2020. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 28

【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Deep Learning JP

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト