[DL輪読会]MetaFormer is Actually What You Need for Vision

837 Views

January 21, 22

#deep learning #Machine Learning #Deep Learning #MetaFormer #PoolFormer #Image Recognition

スライド概要

2022/01/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] MetaFormer is Actually What You Need for Vision 1 Takumi Ohkuma http://deeplearning.jp/

http://deeplearning.jp/

2 自己紹介経歴大熊拓海株式会社Bluezone CTO • 2019年 3月東京大学工学部計数工学科卒業 • 2021年 3月東京大学情報理工学系研究科創造情報学専攻修士課程修了（修了時に研究科長賞受賞） • 2021年 4月同博士課程進学（在籍中） • 2021年 6月株式会社Bluezone共同創業 CTO就任専門分野東京大学情報理工学系研究科創造情報学専攻博士課程 • 画像認識（Few-shot Learning、Human Pose Estimation) その他 • 東京大学工学系研究科講義「深層学習」講師（2020年度-） • 松尾研サマースクール講義監修 (画像認識)・講師 (画像認識/生成モデル) • 2021年度未踏アドバンスト事業採択 • Twitter: @shien5963（資料に関するご質問等はこちらまで）

3 書誌情報 • 題名：MetaFormer is Actually What You Need for Vision [1] • 著者：Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan（シンガポールの研究チーム） • URL：https://arxiv.org/abs/2111.11418 ※本資料における出典の記載の無い図表は全て上記論文より引用

https://arxiv.org/abs/2111.11418

4 概要 • Attentionを用いたVision Transformer (ViT) [2] のみならず、MLPのみを用いた MLP-Mixer (Mixer) [3] も画像認識において高い精度を達成したことを受け、これらを包括する上位概念としてMetaFormerを定義。 • MetaFormerは、Embedding、Tokenの混合、Channel毎のMLP の3つを基本構成要素として持つ左図のモデル群である。 • ViTはToken MixerにAttentionを用いたMetaFormer • MixerはToken MixerにMLPを用いたMetaFormer • ViTやMixerが高い精度を実現できた要因はAttentionやMLPの活用ではなく、 MetaFormerの構造によるものであると主張。 • 上記主張を裏付けるために、より簡単なモデルとしてToken Mixerに単純な Poolingを用いたPoolFormerを提案、他のモデルに劣らない精度を達成。

5 目次 1. 研究の背景 2. MetaFormer 3. PoolFormerのモデル 4. PoolFormerを用いた実験 5. まとめ

6 目次 1. 研究の背景 2. MetaFormerとは 3. PoolFormerとは 4. PoolFormerに関する実験 5. まとめ

7 研究の背景 (Transformer) • 画像認識において、従来のCNNを全く用いず、代わりに自然言語処理 (NLP) で使われるAttention機構を用いた Vision Transformer (ViT) [2] が CNNに匹敵する精度を達成 (2020年10月)。 • やはり画像でもTransformerなのか？という空気になる。 • TransformerはNLP分野において再帰型NNから主役の座を奪った実績がある。 • 画像 × Transformer (Attention) に関する研究が盛んにおこなわれる • DeiT [4] : 大規模データが必要というViTの弱点を克服（2021年1月） • Pyramid Vision Transformer [5] : CNNに用いられる空間方向の階層構造をTransformerに活用（2021年2月）

8 研究の背景 (Mixer) • Attentionすら用いず、MLPのみを用いたモデルである MLP-Mixer (Mixer) [3] がかなり高い精度を達成 (2021年5月)。 • ViTを提案したチームと殆ど同じ研究チームによる提案 • 当然、Mixer以降MLP系の画像認識モデルの研究も盛んになる • CNNもTransformerも用いずに高い精度が実現できてしまったので、結局高い精度の為に必要な要素って何なんだろう？となる。 • 本研究は上記の問に対し、MetaFormerという形で一つの答えを与える。（2021年11月）

9 目次 1. 研究の背景 2. MetaFormerとは 3. PoolFormerとは 4. PoolFormerに関する実験 5. まとめ

10.

10 MetaFormer • 本研究ではMetaFormerという概念を提案する。 • MetaFormerは特定のモデルを指すのではなく、 1. Embedding 2. Tokenの混合 3. Chennel毎のMLP の3要素をからなる左図のモデルの総称である。 • ViTやMixerはこのMetaFormerに属するモデルであり、本研究ではViTやMixer等のモデルの成功要因はMetaFormer であると主張している。

11.

11 MetaFormer系のモデル • 前スライドでViT等のTransformerやMixer等のMLPモデルはMetaFormerに属すると説明した。 • これらのモデルは、左図に示す様に「Tokenの混合」がAttentionであるか、空間方向のMLPであるかの違いで説明できる。 • 本研究は「Tokenの混合が行われる」事が重要であり、 AttentionかMLPかは本質的な問題ではないと主張。 • CNNにおいて重要なのは畳み込みであり、ResNetか EfficientNetかは本質ではないのと同じ様な考え。

12.

12 MetaFormerの定式化 1. MetaFomer系のモデルでは、まず入力画像 𝑰 に対しEmbeddingを行う。 𝑋 = InputEmb 𝐼 この際に入力画像を𝑁個のパッチに分割し、それぞれが一つのTokenとして Embeddingされ、出力 𝑋 ∊ ℝ𝑁×𝐶 を得る（𝐶はTokenの次元数）。 2. 次に得られた 𝑿（𝑵個のToken）に対し、正則化・Tokenの混合を行う。 𝑌 = TokenMixer Norm 𝑋 +X TransformerではこのTokenMixerがAttention、MLP系モデルではこのTokenMixer がSpatialMLP（空間方向のMLP）となる。 3. 最後に、 𝒀 に対して以下で表される正則化・Token毎の変換を行う。 𝑍 = σ Norm 𝑌 𝑊1 𝑊2 + Y なお、上記変換は𝑊1 ∊ ℝ𝐶×𝑟𝐶, 𝑊2 ∊ ℝ𝑟𝐶×𝐶 をパラメータ、 σを活性化関数とする二層MLPである（左図のChannel MLP）。 4. 2, 3を多層に積み上げることで深いネットワークを構成する • 途中の層で再度Embeddingを行うタイプのモデルも存在する

13.

13 （補足）階層構造 • ViTやMixerではEmbeddingの際に、𝑋 ∊ ℝ𝑁×𝐶 と𝑁 個のTokenを一列に並べるが、 Pyramid 𝐻 𝑊 × ×𝐶 𝑛 𝑛 Vision Transformer [5] や、後述のPoolFormerでは 𝑋 ∊ ℝ の様にToken同士の位置関係を保持し、局所的な演算を可能としている（計算量の観点で有利）。 • またこのようなモデルでは、大域的な特徴量を獲得する為に、下図の例の様に段階的に空間方向の解像度を落としていく階層構造が用いられる（これはCNNと同様である）。 • 空間方向の解像度を落とす際に、再度Embeddingが行われる図は[5]より引用

14.

14 MetaFormerのまとめ • ViTやMixer等のCNNを用いずとも高い精度を実現できるモデルが登場 • 一方で、高い精度を実現した本質的要因が不明瞭に • ViTやMixer等の Embedding、Tokenの混合、Chennel毎のMLP の3要素を持つ非CNN 系モデルをMetaFormerとして一般化し、このMetaFormerの構造が高精度達成の本質的な要因であると主張。 • MetaFormerにおけるTransformerとMLP系モデルの違いは、Tokenの混合方式の違いとして説明でき、AttentionやMLPは高精度達成の本質ではないと主張。

15.

15 目次 1. 研究の背景 2. MetaFormerとは 3. PoolFormerとは 4. PoolFormerに関する実験 5. まとめ

16.

16 PoolFormer • ここまで「高精度の本質はMetaFormerである」と説明してきたが、あくまで「高精度を達成したモデルがMetaFormerに含まれる」という事しか示しておらず、MetaFormerの優位性を主張するにはやや弱い。 • 単にTransformerとMLPベースのモデルが優れているだけかもしれない。 • そこでMetaFormerの構造自体の優位性を示す為に、MetaFormerに属するモデルで極力余計な要素の少ないシンプルなもので精度検証を行う。 • 上記を受けて、極力シンプルなものとして提案されたモデルこそがTokenの混合にPoolingを用いたPoolFormerである。 • ノンパラメトリックで学習を必要としないPoolingだが、平均等の代表値の計算を通じて Tokenの混合の役割を果たすことが出来る。

17.

17 PoolFormerのモデル構造１ • PoolFormerでは、局所的なTokenの代表値を計算するPoolingを行うので、 Token同士の位置関係を保持する必要があり、以下の様な階層構造を取っている（詳しくはスライド13）。 • 具体的には以下の4階層構造であり、Stage1のEmbeddingでは入力画像の縦と横の解像度をそれぞれ4分の1に、Stage2以降のEmbeddingでは2分の1にする。 • 各Stageは下図のPoolFormerブロックの繰り返しで構成され、全体のブロック数を𝐿とすると、順番に 𝐿Τ6 , 𝐿Τ6, 𝐿Τ2, 𝐿Τ6 の繰り返しを持つ。

18.

18 PoolFormerのモデル構造２ • 左の表に具体的なPoolFormerのパラメータを示す。 • Patch Embeddingは畳み込み演算を用いて実装され、 Stage1は7×7のストライド4、それ以外は3×3のストライド2である。 • Poolingの窓サイズは3×3、ストライドは1であり、平均値Pooling（正確には平均値から、自身の値をひいたもの）を用いる。 • 活性化関数は GELU、正則化は Group Normalization • モデルのサイズはS12からM48まで存在する。

19.

19 PoolFormerのまとめ • PoolFormerは、Tokenの混合をPoolingによって行うMetaFormerに属するモデルである。 • MetaFormerの枠組みの有効性を示す為、極力余計な要素の少ないシンプルなモデルを用いたい、というモチベーションで設計された。 • 局所的なTokenの代表値の計算であるPooling演算を行う為、PoolFormerは Token同士の位置関係を保持しており、更に大域的な特徴量を捉えるための（CNNで見られるような）階層構造を導入している。

20.

20 目次 1. 研究の背景 2. MetaFormerとは 3. PoolFormerとは 4. PoolFormerに関する実験 5. まとめ

21.

21 実験（画像分類） • 画像分類用データセットImageNet-1Kに対する実験を行う • 大規模データセットを用いだ事前学習等は行わない • 学習の詳細条件は論文を参照 • 公式のPytorch実装、及び学習済みモデルが公開 https://github.com/sail-sg/poolformer • 比較対象として以下のモデルも用いる • CNN系のモデル：RSB-ResNet [6] • Transformer：ViT [2], DeiT [4], Pyramid Vision Transformer (PVT) [5] • MLP：MLP-Mixer [3], ResMLP [7], Swin-Mixer [8], g-MLP [9]

https://github.com/sail-sg/poolformer

22.

22 実験結果（画像分類） • ImageNet-1Kに対する以下の結果（計算量・モデルサイズと精度の関係性）が得られた。 • 計算量・モデルサイズの両方の観点で、PoolFormerが比較に用いたその他のモデルよりも優れていることがわかる。 • PoolFormerは非常にシンプルなMetaFormerでありながら高い性能を発揮することが確かめられた為、MetaFormerは画像認識精度を高める為の有効な枠組みであると言えそうだ。

23.

23 実験結果（Ablation Study） • Poolingを除去（恒等変換とする）した場合、精度が77.2⇒74.3と低下。 • Tokenの混合が無くなりMetaFormer の条件を満たしていない。 • 階層構造やEmbeddingに際する畳み込みは残っているので、ある程度の精度を保ってはいる。 • Stage3,4のPoolingをAttentionとすると、多少計算コストは増える一方、それ以上に精度が向上する。 • MetaFormerの枠組み内でのアーキテクチャの改善余地あり。

24.

24 実験（物体検出） • 物体検出用データセットCOCO2017に対する実験を行う。 • モデルのバックボーンにImageNet PretrainのPoolFormer、比較用にResNet [10]を用い、 DetectorはRetinaNet [11]のアーキテクチャを用いた。 • 結果としてPoolFormerの精度がResNetの精度を上回った。

25.

25 実験（Instance Segmentation） • COCO2017のInstance Segmentaion用のデータを用いて同じ様に実験を行う。 • モデルアーキテクチャは Mask R-CNN [12]に基づく。 • 結果としてPoolFormerの精度がResNetを上回った。

26.

26 実験（Semantic Segmentation） • Semantic Segmentation用データ ADE20K を用いた実験を行う。 • アーキテクチャはSemantic FPN [13]を用いた。 • モデルのバックボーンにはImageNet Pretrain のPoolFormer、比較用にResNet [10], ResNeXt [14], Pramid Vision Transformer [5]を用いた。 • 結果として、PoolFormerの精度が最も高い精度を達成した。

27.

27 実験のまとめ • 画像分類、物体検出、Instance Segmentation、Semantic Segmentationに対して Poolformerを用いた実験を行った。 • 全てのタスクにおいて、PoolFormerは比較対象となるモデルよりも優れた計算コストと精度のトレードオフを実現した。 • PoolFormerは非常にシンプルなMetaFormerでありながら高い性能を発揮することが確かめられた為、MetaFormerは画像認識精度を高める為の有効な枠組みであると言えそうだ。

28.

28 目次 1. 研究の背景 2. MetaFormerとは 3. PoolFormerとは 4. PoolFormerに関する実験 5. まとめ

29.

29 まとめ • 近年の画像認識において、非CNN系のTransformerやMLP系のモデルが高い精度を達成している要因が、 Embedding、Tokenの混合、Chennel毎のMLP の3要素を持つ MetaFormerにあると主張。 • TransformerとMLPの違いは、Tokenの混合方式の違いに過ぎない • Poolingを用いてTokenの混合を行う非常にシンプルなモデルであるPoolFormerを定義、複数の画像認識タスクにおいて従来のモデルを上回る性能を実現したことで、MetaFormer の枠組みの優位性を示した。 • 今後の展望として、PoolFormerを自己教師あり学習や自然言語処理タスク等に応用し、より広い範囲でMetaFormerの強さを示していきたいと考えている。

30.

30 引用 1. Yu, Weihao, et al. "Metaformer is actually what you need for vision." arXiv preprint arXiv:2111.11418 (2021). 2. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020) 3. Tolstikhin, Ilya, et al. "Mlp-mixer: An all-mlp architecture for vision." arXiv preprint arXiv:2105.01601 (2021). 4. Touvron, Hugo, et al. "Training data-efficient image transformers & distillation through attention." International Conference on Machine Learning. PMLR, 2021. 5. Wang, Wenhai, et al. "Pyramid vision transformer: A versatile backbone for dense prediction without convolutions." arXiv preprint arXiv:2102.12122 (2021). 6. Wightman, Ross, Hugo Touvron, and Hervé Jégou. "Resnet strikes back: An improved training procedure in timm." arXiv preprint arXiv:2110.00476 (2021). 7. Touvron, Hugo, et al. "Resmlp: Feedforward networks for image classification with data-efficient training." arXiv preprint arXiv:2105.03404 (2021). 8. Liu, Ze, et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv preprint arXiv:2103.14030 (2021). 9. Liu, Hanxiao, et al. "Pay Attention to MLPs." arXiv preprint arXiv:2105.08050 (2021). 10. He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

31.

31 引用 11. Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision. 2017. 12. He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017. 13. Kirillov, Alexander, et al. "Panoptic feature pyramid networks." Proceedings of the IEEE/CVF Conference on Computer Vision an d Pattern Recognition. 2019. 14. Xie, Saining, et al. "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.