[DL輪読会]Pay Attention to MLPs （gMLP）

1.1K Views

May 28, 21

#deep learning #Deep Learning #MLP #Transformer Architecture #Attention Mechanism #Natural Language Processing

スライド概要

2021/05/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Pay Attention to MLPs （gMLP）小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Pay Attention to MLPs （gMLP）（https://arxiv.org/abs/2105.08050）著者： Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le （Google Research, Brain Team）概要： • • • 選定理由： • Transformer型アーキテクチャが実際はどの程度不可欠なものかをMLP型アーキテクチャと比較して確認した研究論文。 Attention機構はCV（画像処理）ではほぼ必要性がなく、NLP(自然言語処理)でも特定のタスク以外では必要性が低いことが確認された。 NLPの特定の分野ではAttention機構の有効性が確認されており、gMLPとAttention機構を組み合わせたaMLPでBERTを超える精度を記録することが出来た。 MLPモデルが再評価されている傾向があり、「結局どういう機構が良いモデルに必要なのか？」を理解したいと思ったから。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://arxiv.org/abs/2105.08050

１. 導入背景 • Transformerは革新的なモデルでNLPのデファクトスタンダートになった。 • 現在ではViT（Vision Transformer）の発表などでCVでもデファクトスタンダートになりつつある。 Q．実際にTransformer、特にAttention機構は本当に必要不可欠なものなのか？ Attention機構が実現しているものの中で特に重要なコンセプトである。 ①再帰型ではない（＝並列処理できる）。 ②トークン間の空間情報を取得する。ということをほかのアーキテクチャでも表現可能であった場合、 Attention機構を用いる必要性はどこまで存在するのか？ Attention機構が可能にしているコンセプトを表現できるゲート付きMLP（gMLP）と Transformer型モデルの精度を比較し、MLPの有用性を確認していく。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

２. 先行研究 Language Modeling with Gated Convolutional Networks (Dauphin et al. 2016) • 自然言語処理の分野ではRNNが一般的だが、LSTMのようなゲート機構付きの CNNを提案。 • RNNに比べわずかに精度は劣るが、並列化できるため大幅な高速化を達成。 • ゲート機構の付いた活性化関数（Gated Linear Unit, GLU)が収束に必要なエポック数の削減に貢献していることを確認。 Gated Linear Unit (GLU) • 1 ブロック内では、入力を2つに分岐 (コピー) し、それぞれ畳み込み層 𝐴 = 𝐸 ∗ 𝑊 + 𝑏 と 𝐵 = 𝐸 ∗ 𝑉 + 𝑐 で長期依存を捉える。 • GLU 層 𝐻 = 𝐴 ⊙ 𝜎 ( 𝐵 ) でゲーティング (上層へ送る情報を制御) する。また、ブロックの入力から出力を残差接続する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/1612.08083.pdf 5

https://arxiv.org/pdf/1612.08083.pdf

２. 先行研究 Vision Transformer（ViT, Dosovitskiy et al. 2020） • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として扱うことで画像処理にTransformerを適用することに成功。 • Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことを成功。 • 最先端のCNN型モデルよりも優れた結果（もしくは同程度）を出したうえで、学習に必要な計算コストを大幅に減少。画像パッチ（9つのパッチ）として入力 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2105.01601.pdf 6

https://arxiv.org/pdf/2105.01601.pdf

２. 先行研究 MLP-Mixer: An all-MLP Architecture for Vision （ Tolstikhin et al. 2021） • 畳み込み層やTransformerのような Attention機構を使わず、MLPだけで高精度の画像分類を実現。 • 入力画像を画像パッチに分割し、それらのパッチを、チャンネル方向及び空間方向に関してMLPで変換する。 • 従来のCNNは、 (1)特定の空間位置での特徴、(2)異なる空間位置間での特徴、あるいはその両方を一度に混合する層で構成されている。 • MLP-Mixerの背景にある考え方は、特定の位置ごとの操作(channel-mixing)と、ロケーションをまたいだ操作（tokenmixing）を明確に分けることにある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2105.01601.pdf 7

https://arxiv.org/pdf/2105.01601.pdf

２. 先行研究 Attention機構とMLP Attention機構のメリット • 入力データの表現に基づいた動的なパラメータの決定によって、より有効な帰納バイアスを導入できる。 ※帰納バイアス：学習データに現れないデータを予測するために必要となる制約。 MLPのメリット • 静的なパラメータの決定により任意の関数を表現できる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

３. 手法 gMLPのモデル概要 • Spatial Gating Unit（SGU）を搭載したgMLPアーキテクチャ。 • Attention機構が実現しているコンセプトのうち、特に“トークン間の空間情報を取得する”を獲得するために、様々な工夫が行われている。 • gGLP-blockをL層積み重ねることで適切な特徴量を獲得している。 Spatial Gating Unit （SGU） Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

３. 手法 gMLPのモデル詳細 • • gMLP-blockは、(1) 線形射影と活性化関数を組み合わせて出力した値に対して、 (2) Spatial Gating Unit（SGU）を用いることで、トークン間の空間情報を取得している。その後、再び(3) 線形射影を行うことで必要な特徴量を獲得している。 Transformerのようにポジションエンベディング層を利用していない点がポイント。Transformerではポジションエンベディング層を利用することで、画像や文章のトークンがそれらのどこからきたのかを把握していたが、gMLPではSGU がそのような情報を取得してくれる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 𝑍 = 𝜎 𝑋𝑈 1 𝑍෨= 𝑠 𝑍 𝑌= 𝑍෨𝑉 2 3 𝑋 ∈ 𝑅 𝑛×𝑑 𝑛：データの長さ 𝑑：データの次元 σ： GeLU（活性化関数） U・𝑉：チャネル方向に沿った線形射影（Transformer のFFNs部分と同じ） 10

11.

３. 手法 Spatial Gating Unit データ長の行列を持つWを用いて線形射影。 𝑓𝑤,𝑏 𝑍 = 𝑊𝑍 + 𝑏 4 𝑋 ∈ 𝑅𝑛×𝑑 𝑛：データの長さ 𝑊 ∈ 𝑅 𝑛×𝑛 𝑏：バイアス項 ⊙ ：要素ごとの積（アダマール積）上記に、もとの入力（Z）と空間的に転移された入力（fw,b(Z)）同士の要素積を取ることで、より適切な空間情報を獲得。 𝑠 𝑍 = 𝑍 ⊙ 𝑓𝑤,𝑏 𝑍 𝑧1、𝑧2：𝑧をチャネル方向に沿うように２つにしたもの 5 上記にGLUsなどで使われている技法として入力値を分割して利用する手法を組み込む。 𝑠 𝑍 = 𝑍1 ⊙ 𝑓𝑤,𝑏 𝑍2 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6 11

12.

４. 実験画像分類 • • • 「gMLP-Ti」、「gMLP-S」、「gMLP-B」の３つのモデルを用意。 ImageNetを利用した画像分類タスクの精度を、Vision Transformer（ViT）とDeiT、CNNモデルと比較。 gMLPはDeiTなどと同様に強く過学習してしまう傾向が見られたため、DeiTと同様の手法を用いた正則化が行われているが、基本的にそれ以外の精度を向上させるようなチューニングは避けている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

４. 実験画像分類 • DeiTとあまり変わらない結果が得られた。また、 gMLPは直前に提出されたほかのMLP系の新モデルよりもよい精度を出している。 • このことから、gMLPはTransformer同様のデータ効率性があると考えることができる。 • 既存のCNNモデルの方がよい精度を出しているということも注目に値する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

４. 実験画像分類 • 下記の右図で示されているようにgMLPの空間射影行列を可視化したところ、CNNのような局所不変性と空間不変性が確認された。すなわち、各空間射影行列では、データ駆動型の不規則な（非正方形な）カーネルを用いて畳み込みを実行することを効果的に学習しているとも言える。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

16.

４. 実験自然言語処理スケーラビリティ • TransfomerとgMLPのモデルサイズを大きくしたときの性能の変化を確認。 • Perplexityに関しては両者はほぼ同じような精度を出していると言える。それだけでなく、あるモデル容量からgMLP の方が良くなっているとも言える。 • ただし、SST-2ではgMLPの方が精度が良いのにもかかわらず、MNLI-ｍではTransformerの方がよい結果を出している。このことから、Attention機構を用いることでNLPの一部のタスクでは有効に働くことが考えられる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

４. 実験【補足】SST-2とMNLI-mについて SST（Stanford Sentiment Treebank）：感情分析（Sentiment Analysis（SA））タスク • 文章がどの感情を示しているものかを分類するタスク。 • SSTはRotten Tomatoes の映画レビューから構成した構文解析木のことで、ツリーの各ノードに negative(1) 〜 positive(25) までの25段階評価が振られている。なお、SST-2はそれをNegativeと Positiveの２段階に単純化したもの。 MNLI（Multi-Genre Natural Language Inference）：自然言語理解 (General Language Understanding Evaluation（GLUE）)タスク • 前提文Tが仮説文Hを含意するか否かを判定するタスク。 • MNLIはテキスト含意情報で注釈が付けられた433kの文のペアを含むコーパスのことで、話し言葉や書き言葉など様々なジャンルをカバーし、SNLIより一般化評価が可能になっている。（MNLI-m はMultiNLI Matched、 MNLI-mm はMultiNLI Mismatchedを意味している。） Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

４. 実験自然言語処理スケーラビリティ • TransformerもgMLPも精度の違いはあるが、モデル容量を大きくすることで精度が向上傾向にあることがわかる。これはTransformer系の強みともされていたスケーラビリティがgMLPにもある可能性があることを示している。 • gMLPの精度の問題もTransformerと同様にモデル容量を大きくすることで解決することが可能であると考えられる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

４. 実験自然言語処理 Attention機構の有用性 • Attention機構は特定のタスク、今回であればMNLIなどには有効である可能性があり、それを確かめるために、gMLPにAttention機構を接続したモデルaMLPを用いて精度確認を実施。 • Self-Attention機構は、トークン間というよりも文レベル間の関係性を取るのに有用でないかと考えられる。 gMLPでもトークン間の空間情報を取ってくることはできていたと考えられるため、追加するAttention機構は比較的小さい典型的なmulti-head attentionを接続。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

21.

４. 実験自然言語処理評価 • 英語のC4データセットを使い、すべてバッチサイズ256、最大長512、100万回のトレーニングステップという条件で各モデルの精度を確認。 • より長い文章への対応力を測るために、 SQuAD（Stanford Question Answering Dataset）質問回答タスクデータセットも新たに用いて評価。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

４. 実験自然言語処理評価結果 • 論文に掲載されたもともとのBERTbaseよりもgMLPlargeの方がよい精度を出すことがSQuADv1.1で出来ている。これはスケールを大きくすれば、gMLPのようなAttention機構を持たないモデルでもNLPの様々なタスクでも Transformer系と互角に戦える可能性があることを示している。 • Attention機構を加えたaMLPはすべての指標でTransformer系を超えている。精度上の問題は、gMLPのスケールを大きくすることで解決することができるが、実用上ではこの小さなAttention機構を加えるという作業は精度改善を行える手法ということが言える。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

５. まとめ結論 • • • • • Google Brainから流行しているTransformer型アーキテクチャ(具体的にはAttention機構)が実際はどの程度不可欠なものかをMLP型アーキテクチャと比較して確認した研究論文。 Attention機構はCV（画像処理）ではほぼ必要性がなく、NLP(自然言語処理)でも特定のタスク以外では必要性が低いことが確認された。 NLPの特定の分野ではAttention機構の有効性が確認されており、gMLPとAttention機構を組み合わせた aMLPでBERTを超える精度を記録することが出来た。ゲート機構備えたMLP（gMLP）はTransformerと同様にスケーラビリティがあるため、精度上の問題はモデル容量を大きくすることで解決できると考えられる。 Transformerの研究だけでなく、MLPの研究を推進することを提言している。所感 • • Transformer型アーキテクチャが主流となると思われた中での、MLPの再脚光は興味深い。一方、“スケーラビリティがあるから精度上の問題は解決できる”と言われても、まだAttention機構に頼ることになりそう。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

Appendix 参考文献 • [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017. • [2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2018. • [7] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai,Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al.An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021. • [8] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020. • [19] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all-mlp architecture for vision. arXiv preprint arXiv:2105.01601, 2021. • [24] Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional networks. In ICML, 2017. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24