【DL輪読会】Patches Are All You Need? （ConvMixer）

194 Views

October 15, 21

deep learning

スライド概要

2021/10/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.7K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.7K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.8K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.1K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.5K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Patches Are All You Need? （ConvMixer）小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Patches Are All You Need? （ConvMixer） https://openreview.net/pdf?id=TVHS5Y4dNvM (ICLR2022 査読中) 著者： Anonymous authors 概要： • • • 選定理由： • 入力画像に対して、パッチサイズに分割しエンベディングすることは、Attention 機構と同じくらい重要であると提唱。入力画像をパッチ単位に分割するだけのCNNをベースとしたシンプルなモデル ConvMixer を開発。シンプルなモデルにもかかわらず、ImageNet-1Kにて、 ResNet 、ViT、MLP-Mixer、といったモデルを上回る精度を達成。 MLP、Conv、Transformerなど、それぞれ「良いモデルにはどのような機構が必要なのか？」を理解したい。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://openreview.net/pdf?id=TVHS5Y4dNvM

１. 導入背景 • 画像処理の世界は長らくCNNベースのモデルが主流であった。（ResNet やVGG など） • 自然言語処理の世界では、Attention機構を利用したTransformerベースのモデルが目覚ましい性能を発揮し、現在ではTransformerをベースに設計することがデファクトスタンダードであると言える。 • Vision Transformer（ViT）をはじめとしてTransformer を利用したモデルが画像処理の世界でも作られるようになった。それらは特に巨大なデータセットで優れた性能を発揮したことで大きな注目を集めている。 • 本論文は、そうした潮流が前提としている Transformer の骨格である Attention 機構が重要であるという論に対して疑問を投げかけたことで新たな可能性を提示。 • Attention 機構ではなく、Transformer を画像に対して利用するために必要な「画像をパッチ単位に分割すること」が重要であると仮定し、それらを実証するために、入力画像をパッチ単位に分割すること以外は普通のCNNモデルとほとんど変わらない ConvMixer を開発。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

２. 先行研究 Vision Transformer（ViT, Dosovitskiy et al. 2020） • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として扱うことで画像処理にTransformerを適用することに成功。 • Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことを成功。 • 最先端のCNN型モデルよりも優れた結果（もしくは同程度）を出したうえで、学習に必要な計算コストを大幅に減少。画像パッチ（9つのパッチ）として入力 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2010.11929.pdf 5

https://arxiv.org/pdf/2010.11929.pdf

２. 先行研究 MLP-Mixer: An all-MLP Architecture for Vision （ Tolstikhin et al. 2021） • 畳み込み層やTransformerのような Attention機構を使わず、MLPだけで⾼精度の画像分類を実現。 • 入力画像を画像パッチに分割し、それらのパッチを、チャンネル方向及び空間方向に関してMLPで変換する。 • 従来のCNNは、 (1)特定の空間位置での特徴、(2)異なる空間位置間での特徴、あるいはその両方を一度に混合する層で構成されている。 • MLP-Mixerの背景にある考え方は、特定の位置ごとの操作(channel-mixing)と、ロケーションをまたいだ操作（tokenmixing）を明確に分けることにある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2105.01601.pdf 6

https://arxiv.org/pdf/2105.01601.pdf

３. 手法 ConvMixer の概要入力画像をパッチサイズp に分割し、Patch Embeddingを行う。 ConvMixer Layer 自体は Depthwise ConvolutionやPointwise Convolutionのシンプルな畳み込みで構成。パッチサイズ：𝑝 カーネルサイズ：𝑝 埋め込み次元：ℎ ストライド：𝑝 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 入力チャンネル数：𝑐𝑖𝑛 出力チャンネル数：ℎ 7

３. 手法 ConvMixer のモデル詳細パッチエンベディング Patch embedding パッチサイズがｐ，エンベディング次元がｈ、ストライドｐ、カーネルサイズｐ、アウトプット次元がｈのような畳み込みと同じ。なお、通常よりも大きいカーネルサイズが深さ方向の畳み込みでは有効であることが確認されている。 ConvMixer ConvMixer は基本的にDepthwise Convolution と Pointwise Convolution を利用したものになる。加えて、 ResNet などで使われる残差接続と、Batch Normalizationが適用されている。最終的に、SoftMax分類機にわたすサイズｈの特徴量ベクトルを取得するためにGlobal Average Poolingを行っている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

10.

11.

３. 手法 ConvMixer のモデル概要 ViTとの共通事項１．パッチ単位で処理すること。２．解像度とサイズの表現を各層を通して維持すること。３．連続する層で表現をダウンサンプリングしないこと。４．情報の空間的融合からチャンネル単位の融合を切り離すこと。 ViT との相違点 Transformerを利用せず、一般的な畳み込みのみ利用。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

３. 手法 ConvMixer のパラメータ ConvMixer で重要となるパラメータは以下の４つ。 (1) (2) (3) (4) パッチエンベッディングの次元。深さd（ConvMixerレイヤーの繰り返し数）。パッチサイズp（モデルの内部解像度を制御する）。深さ方向の畳み込みレイヤーのカーネルサイズk。 ConvMixer-h／dのように、ConvMixer に隠れた次元と深さの名前をつけている。ここでは、元の入力サイズnをパッチサイズpで割ったものを内部解像度としているが、ConvMixer は可変サイズの入力にも対応している。 ConvMixer のポイント • MLPs と Self-Attention は距離のある空間的位置を効果的に調整する＝任意の大きさの受容野になるということが有用であるとされていますが、ConvMixer も同じように、大きなカーネルサイズの畳み込みを利用することで、距離のある空間的位相を効果的に調整することが可能となっている。 • Transfomrer系は理論的により柔軟で、より大きな受容野でコンテンツを意識した挙動が可能であることがメリットであるが、CNNベースのモデルには、画像タスクと⾼いデータ効率性という点で大きなメリットがある。 • ConvMixer は畳み込みの基本的な処理をしているだけであり、このことは畳み込みネットワークの従来のピラミッド型のプログレッシブダウンサンプリング設計とは対照的に、パッチ表現自体の効果も垣間見ることができることを指摘している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

14.

４. 実験 ImageNet-1Kを用いた実験実験のセットアップデータセット：ImageNet-1K データ拡張：RandAugment、mixup、CutMix、 random erasing、勾配ノルムクリッピング最適化関数：AdamW（学習率スケジュールラーも利用） • • • • 結果 ConvMixer-1536/20 with 52M parameters：81.37% （なお、ｋ＝９→ｋ＝３にすると、１％精度が下がる） ConvMixer-768/32 with 21M parameters：80.16% シンプルなモデルにもかかわらず、ImageNet-1Kにて、 ResNet 、 ViT、MLP-Mixer、といったモデルを上回る精度を達成。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

５. まとめ結論 • ConvMixerは最初に「パッチ単位のエンベディング」をすることにより、通常のCNNで段階的に行われるダウンサンプリングを一度に実行できるため、内部解像度がすぐに低下し、有効な受容野サイズが増加して、離れた空間情報を簡単に混合（＝Mixer）できるようになる。そのため、パッチエンベディングの使用も、強力で重要なポイントであるといえる。 • ConvMixer はネットワークを通じて、同じサイズ、シェイプを維持する等方的アーキテクチャ。（等方的とは、ある対象の性質や分布が方向に依存しないこと。）系統的には、MobileNetに近いもので、ConvMixerのほうがよりシンプルになっているといえる。シンプルなパッチエンベディングを備える「等方性」アーキテクチャ自体が、ディープラーニングの強力なベースであることを論文は示唆している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

Appendix 参考文献 • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, et al. Mlp-mixer: An all-mlp architecture for vision. arXiv preprint arXiv:2105.01601, 2021. • Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020. • Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Stand-alone self-attention in vision models. arXiv preprint arXiv:1906.05909, 2019. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16