[DL輪読会]Are Pre-trained Convolutions Better than Pre-trained Transformers?

109 Views

July 02, 21

#deep learning #pre-trained convolution #pre-trained transformer #NLP #Japanese

スライド概要

2021/06/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Are Pre-trained Convolutions Better than Pre-trained Transformers? (ACL 2021)” Itsuki Okimura, Matsuo Lab, B4 http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ 1. 2. 3. 4. 5. 6. 7. 8. 書誌情報概要問題意識先⾏研究提案⼿法実験結果議論まとめ 2

1 書誌情報 • 論⽂名: Are Pre-trained Convolutions Better than Pre-trained Transformers? • 出典: ACL 2021 (https://arxiv.org/abs/2105.03322) • 著者: Yi Tay, Mostafa Dehghani, Jai GuptaらGoogle Researchのチーム • 選んだ理由: 最近活発なTransformerアーキテクチャに対する問題提起 3

https://arxiv.org/abs/2105.03322

2 概要 • Transformerにおけるself-attention層をconvolution層に変更した CNNベースの事前学習モデルを従来の事前学習モデルと⽐較 • 7つの下流タスクで⽐較した結果, CNNベースの事前学習モデルは従来の事前学習モデルに匹敵する, もしくは上回る性能を発揮すると主張 • また,ランタイム、スケーラビリティの点で従来のTransformer ベースの事前学習に⽐べCNNベースの事前学習に優位性があることを指摘 • 事前学習とTransformerアーキテクチャは分けて議論すべきと主張 4

3 問題意識 NLPにおいて事前学習モデルとTransformerアーキテクチャはセットで扱われている • 近年NLPでは, BERT, GPT-n, T5といった事前学習済みモデルが発表されてきた • Transformerをベースにしていない最近の事前学習済みモデルはほとんど存在しない (*) Q: 異なるアーキテクチャの帰納バイアスでも同様に事前学習の恩恵を享受できるのか? 計算効率に優れ、局所的に動作し、再帰型ではないCNNを用いて実験 5

4 先⾏研究 Pay Less Attention with Lightweight and Dynamic Convolutions (ICLR 2019) • 各特徴量次元ごとにCNNを適⽤する先⾏研究（Depthwise convolution）に対し, チャンネルの次元にわたってCNNの重みを共有することで更にパラメータを削減するLightweight convolution, さらにその拡張として、タイムステップごとにCNNの重みを動的に計算する Dynamic convolutionを提案 • self-attentionを⽤いずに機械翻訳で⾼い精度を⽰すことに成功(WMT En-Deの BLEUスコア当時3位) https://arxiv.org/pdf/1901.10430.p df 6

https://arxiv.org/pdf/1901.10430.p

4 先⾏研究 Depthwise convolution • 各チャンネルごとに独⽴のパラメータで畳み込みを⾏うConvolution ' 𝐷𝑒𝑝𝑡ℎ𝑤𝑖𝑠𝑒𝐶𝑜𝑛𝑣 𝑋, 𝑊!,: , 𝑖, 𝑐 = 2 𝑊!,$ 3 𝑋 $%& ()$* ')& + ,! https://qiita.com/koreyou/items/3 28fa92a1d3a7e680376#fn4 7

https://qiita.com/koreyou/items/3

4 先⾏研究 Lightweight convolution • チャンネルをH個ごとのグループにわけ、グループごとに共通のパラメータで depthwise convolutionを⾏う ' 𝐿𝑖𝑔ℎ𝑡𝑤𝑒𝑖𝑔ℎ𝑡𝐶𝑜𝑛𝑣 𝑋, 𝑊 !, , 𝑖, 𝑐 = 2 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑊 !, - ,: $%& - ,$ 3𝑋 ()$* ')& + ,! https://qiita.com/koreyou/items/3 28fa92a1d3a7e680376#fn4 8

https://qiita.com/koreyou/items/3

4 先⾏研究 Dynamic convolution • ⼊⼒された特徴量から、Lightweight convolutionのパラメータを動的に計算する 𝐷𝑦𝑛𝑎𝑚𝑖𝑐𝐶𝑜𝑛𝑣 𝑋, 𝑖, 𝑐 = 𝐿𝑖𝑔ℎ𝑡𝑤𝑒𝑖𝑔ℎ𝑡𝐶𝑜𝑛𝑣 𝑋, 𝑓 𝑋! ",: , 𝑖, 𝑐 ここで𝑓 𝑋! = ∑(%&' 𝑋!,% 𝑊",!,% https://qiita.com/koreyou/items/3 28fa92a1d3a7e680376#fn4 9

https://qiita.com/koreyou/items/3

10.

4 先⾏研究 Dilated convolution • 間隔の開いたカーネルから畳み込みを⾏うConvolution * 𝐷𝑖𝑙𝑎𝑡𝑒𝑑𝐶𝑜𝑛𝑣 𝑋, 𝑊%,: , 𝑖, 𝑐 = 9 𝑊%,) : 𝑋!+,)- *+' ,% )&' 10

11.

5 提案⼿法 CNNアーキテクチャの事前学習モデル • TransformerのQ, K, Vの変換の代わりにGLU(gated linear unit)層へ self-attention層の代わりにconvolution層へ変更し, seq2seqで事前学習を⾏う • ⽤いるConvolutionはLightweight convolution, Dynamic convolution (それぞれfilter size=7), Dilated convolution (12層のfilter size=[4, 4, 7, 7, 15, 15, 15, 15, 31, 31, 31])のいずれか • トークン単位のクロスエントロピーから損失を最適化 11

12.

6 実験結果 • T5をベースとした畳み込みモデルとTransformerモデルの両⽅で事前学習を⾏ったものと⾏わないものを⽤意 • 事前学習にはColossal Cleaned CommonCrawl Corpus(C4)を⽤い, 524kステップ, 128のバッチサイズで学習 • 毒性検出(CIVIL COMMENTS, WIKI TOXIC), センチメント分類(IMDb, SST-2, S140), トピック分類(AGNews), 質問分類(TREC)ら7つのタスクでFine-tuning • 事前学習の有無とそれぞれのモデルの下流タスクでのスコアから事前学習が与える影響を調査 12

13.

6 実験結果 • 幅広いドメインの7つのタスクにおいて、 (1)事前に学習されていない畳み込みは競争⼒があり、頻繁に事前に学習されていないTransformerを上回る (2)事前に学習された畳み込みは7つのタスクのうち6つで事前に学習された Transformerを上回る 13

14.

6 実験結果 • (3)事前に学習した畳み込みモデルの中では, Dilated convolutionと Dynamic convolutionがLightweight convolutionよりも優れている • (4) 事前学習なしで（相対的に）良い性能を発揮するモデルが事前学習を⾏うと必ずしも最⾼の性能を発揮するとは限らない 14

15.

7 議論苦手なタスク • 複数の⽂章間の関係をモデル化するタスクが困難 – ⻑距離依存を捉えるself-attentionに相当する機構がないため？ (例)SQuAD: パラグラフと質問が与えられ, 正しい回答を⽣成する⽂書読解タスク - 事前学習済みTransformer F1 90% - 事前学習済みCNN F1 70% Multi NLI: 2つの⽂の含意関係を判定するタスク - 事前学習済みTransformer Accuracy 84% - 事前学習済みCNN Accuracy 75% - エンコーダーに2つの⽂のcross-attention層を補強すると83%まで到達 *Dual Encoderにすると良いのではと主張するが、個別のタスクのためにEncoderのアーキテクチャを変えるのは微妙な気がする 15

16.

7 議論系列長が長くなっても学習速度が遅くならない • self-attentionは系列⻑Nに対し計算量𝑂 𝑁 , に対し convolutionは計算量𝑂 𝑁 で済む • convolutionは⼀貫して⾼速であるだけでなく(系列⻑が短くても), Transformerよりも優れたスケーリングが可能 • FLOPs効率は配列が⻑くなっても悪化しない 16

17.

7 議論議論のまとめ - 良い点 - ランタイムやスケーラビリティなどは優れている - 悪い点 - 複数の相互の⽂章の配列の関係のモデル化が困難 CNNベースのアーキテクチャがTransformerベースのアーキテクチャを置き換える必要があるという主張するわけではなく, より広い選択肢を持ってアーキテクチャを探索する必要性を提⽰事前学習とアーキテクチャは分けて議論すべきと主張 17

18.

8 まとめ • Transformerにおけるself-attention層をconvolution層に変更した CNNベースの事前学習モデルを従来の事前学習モデルと⽐較。 • 7つの下流タスクで⽐較した結果, CNNベースの事前学習モデルは従来の事前学習モデルに匹敵する, もしくは上回る性能を発揮すると主張。 • また,ランタイム、スケーラビリティの点で従来のTransformer ベースの事前学習に⽐べCNNベースの事前学習に優位性があることを指摘 • 事前学習とTransformerアーキテクチャは分けて議論すべきと主張 18

19.

感想 • classificationには強そうだが, 幅広いタスクだときつそう • 層を増やして, ⼊⼒の系列⻑全てを⾒ることができるとどうなるのか • 複数の⽂章間の関係を捉えるのが苦⼿な割に, 既存研究では要約タスクも割とできているのが不思議 ->既存の事前学習モデルの要約は全体の⽊構造を軽視しているのかも 19

20.

DEEP LEARNING JP [DL Papers] “Are Pre-trained Convolutions Better than Pre-trained Transformers? (ACL 2021)” Istuki Okimura, Matsuo Lab, B4 http://deeplearning.jp/

http://deeplearning.jp/