[DL輪読会]Big Bird: Transformers for Longer Sequences

1.4K Views

September 16, 20

#deep learning #deeplearning #NLP #genomics #transformer #BigBird

スライド概要

2020/09/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Big Bird: Transformers for Longer Sequences” Takuya MATSUDATE http://deeplearning.jp/

http://deeplearning.jp/

目次 • • • • • • • 書誌情報概要背景提案手法理論的分析実験まとめ 2

書誌情報 Big Bird: Transformers for Longer Sequences (arXiv:2007.14062) Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed Google Research https://arxiv.org/abs/2007.14062 3

https://arxiv.org/abs/2007.14062

概要 1. Transformerベースのモデルのシーケンス長さに対する二次の計算量の依存性を線形にまで減らすスパースな注意機構によるモデルBigBirdを提案 2. Transformerの持つシーケンス-シーケンス関数のUniversal approximatorとTuring完全の特性を、BigBirdも維持することを示す 3. より長い入力( ~ 8x)を扱えるようになり、質問応答や要約など比較的長い入力をもつ NLPタスクや、ゲノミクスデータの分析で性能の向上を確認 4

背景 Transformerの(完全な)Attentionはシーケンスの長さに対し2次の計算量とメモリを必要とする ● 一般的に利用可能なハードウェアでは、概ね512トークンの長さまで ● 長い文脈を必要とするタスクへの直接の適用を難しくする ○ 質問回答や文書要約など 5

先行研究 Transformerの二次の依存性を緩和する方法が模索されてきた ● 何らかの方法で、文書中から重要な短い文章を選び出す選び出す処理の扱いが難しい。学習も難しい。 ● より小さなAttentionを作る ○ Sparse factorizations (of Attention matrix) ○ Reformer (Kitaev+, ICLR 2020) ■ 似たトークン間のみでAttentionを作る (LSHによる近傍点探索) ○ Longformer (Beltagy +, arXiv 2020) ■ Local windowed attention + Global attention ■ BigBirdの直接の先行研究 6

Generalized attention mechanism 入力に対して Query : アテンションを計算する対象 Key Value (のスタック) 7

Generalized attention mechanism Attentionを隣接行列としてみる 8

Generalized attention mechanism BERT ● 全ての要素が1 ● それぞれが全ての入力に対し注意を計算 ● 入力の長さに対して2次の計算コスト 9

10.

Graph sparsiﬁcation problem 計算量の削減は隣接行列のスパース化 ● 既存のスパース化の手法が使える ? 10

11.

先行研究 (Longformer) Window attention + Global attention → Longformer * (*) I. Beltagy, M. E. Peters, and A. Cohan., arXiv 2020 11

12.

提案手法 Random attention + Window attention + Global attention → BigBird 12

13.

Random attention • Random graphによるComplete graphの近似から着想 – Erdös-Rényi モデル • 各Queryは r 個のKeyをランダムに選ぶ 13

14.

Window attention • Locality of reference – “あるトークンに対する重要な情報は、隣接するトークンから導き出される” という現象 – NLP, Computational biologyで見られる • Small world graphの生成モデルを類用 – 一方で、Watts-Strogatz モデルのエッジの消去などの処理はハードウエアでは難しい • クエリ位置 i に対し、i − w/2 から i + w/2 までの位置の Keyを対象にする – w はWindow幅 14

15.

Global attention • Global Token – シーケンス内のすべてのトークンに寄与し、すべてのトークンの寄与を受ける – 理論的解析からも重要性が認識された • Universal Approximatorの証明にスターグラフの構造が使われる 0 ... • 2つの導入方法を検討 – Big Bird - ITC (Internal Transformer Construction) シーケンスの中からGlobal Tokenを選ぶ – Big Bird - ETC (Extended Transformer Construction) シーケンスに新たなトークンを結合し、Global Tokenとして使用する。いわゆる “CLS” トークン 15

16.

BigBird : 3つのAttentionの組み合わせ構築ステップ 1. g 個のGlobal Token と全てのトークンを接続 (Global attention) 2. それぞれのクエリに対し、ランダムに r 個の Key を接続 (Random attention) 3. それぞれのクエリ位置から幅 w でKeyを接続 (Window attention) 実際には、このようなスパースな構造だとGPUでは効率的に計算できないため、いくつかの工夫を施して使用する (Appendix D., Block化, Gather演算回数の最小化) 16

17.

Sparse attention v.s. Full attention Sparse attentionの能力について、2つの側面で理論的検討を行った 1. Encoder単体としての能力 • Transformerはシーケンス-シーケンス関数のUniversal approximatorであると示された (Yun et al., ICML 2020) • Sparse attentionを持つBigBirdもUniversal approximatorと示せる – Global attentionによるスターグラフの構造をもつことが重要 17

18.

Sparse attention v.s. Full attention 2. Encoder-Decoderモデルの能力 • Turing 完全性～任意のアルゴリズムを実装する能力をもつこと • TransformerのEncoder-Decoderモデルは、特定の(非現実的な)仮定のもとにTuring完全であることが示される (Pérez et al., ICLR 2019) • 同じ仮定のもとでBigBirdのEncoder-DecoderモデルもTuring完全が示せる – 基本的にはPérezの証明と同じ流れ。Attentionがスパースになる部分の工夫が示されている。 18

19.

実験 • 長い入力シーケンスを扱えるようになり、長いコンテキストを必要とするタスクでの性能の改善が期待される • 2つの領域で性能を確認 – 自然言語処理 • Encoderのみのタスク • Encoder-Decoderによるタスク – ゲノミクス 19

20.

自然言語処理 / 事前学習 • BERT, RoBERTaと同様にBigBirdの事前学習を行う – マスクされたトークンの予測など – RoBERTaの学習済みモデルからWarm-upする形で用意 – 入力の最大長は4096 • 現実的な 16GB memory/chip、バッチサイズ 32-64 に対する最大長 • 学習には4つのデータセットを使用 (Table 2) • BPC(Bits per character)ではBigBird-ETCが最も良い性能 (Table 3) 20

21.

自然言語処理 / Question Answering Question Answering タスク • 参照文に対し、与えられた質問文への回答を選ぶタスク • 必要なのはエンコーダーのみ • 4つのデータセットで実験 BigBird-ETCが一貫して良い性能を発揮する 21

22.

自然言語処理 / Question Answering 各データセット特化のモデルとの比較 ● BigBird側もタスクに合わせて新たな正則化など調整を実施 ● NaturalQ 以外のSotaモデルはアンサンブルが行われている ○ BigBirdは単一モデル ● Fusion-in-DecoderはBigBirdと似たアテンションの構造を持つ 22

23.

自然言語処理 / Document Classiﬁcation Document Classification タスク • 文章のクラス分けを行うタスク • 必要なのはエンコーダのみ • 5つのデータセットで実験 • より長い文書(Arxiv)とより少ないデータ(Hyperpartisan) 下で改善がみられる • 短い文章 / 豊富なデータ量がある場合には有意なゲインは無い 23

24.

自然言語処理 / Summarization Summarization タスク • テキスト文書の短く正確な要約を作成するタスク • Encoder-Decoder構成によるテキスト生成 • 3つのデータセットで実験 • 事前学習には要約タスク特化の手法Pegasus(Zhang+, ICML 2020)も使用 • 出力の文章は短文であるとして、Encoder側のみにSparse Attentionを使用 24

25.

自然言語処理 / Summarization BigBirdにより大幅な改善が見られた 25

26.

ゲノミクス / 事前学習 • 長いシーケンスが一度に扱えるようになったことから、DNAシーケンスの分析での効果が期待される – DNAの多くの機能が極めてシーケンスの中で非局所的(highly non-local)に存在 • DNAフラグメントに対し事前学習を行う – Byte Pair Encodingを作成する • 1トークンの平均で8.78塩基対 – BigBirdによりBPC(Bits per char)も改善がみられた 26

27.

ゲノミクス / Promoter Region Prediction Promoter Region Prediction • 与えられたDNAフラグメントがPromoterかそうでないかに分類するタスク – Promoter領域の判別の遺伝子制御学では重要 • 学習済みのBigBirdをFine-tuningし分類を行った • 報告された最高のモデルを凌駕し、ほぼ完全な性能を発揮 27

28.

ゲノミクス / Chromatin-Proﬁle Prediction Chromatin-Profile Prediction • 与えられたNon-coding領域のDNAを、919クラスのChromatin-Profileに分類する – Non-coding領域の機能的効果の解明に寄与 • 919個の二値分類器を共同で学習 • Chromatin-Profile (919クラス) – Transcription factors (TF) : 690 クラス – DNase I sensitivity (DHS) profiles : 125 クラス – Histone-mark (HM) profiles : 104 クラス • HMに対するパフォーマンスが有意に向上 – 他に比べ長いレンジの相関があると知られている 28

29.

まとめ (ほぼ再掲) 1. Transformerベースのモデルのシーケンス長さに対する二次の計算量の依存性を線形にまで減らすスパースな注意機構によるモデルBigBirdを提案した – Random Attention + Window Attention + Global Attention 2. Transformerの持つシーケンス-シーケンス関数のUniversal approximatorとTuring完全の特性を、BigBirdも維持することを示した – Global Tokenの導入が重要な役割を持った 3. より長い入力( ~ 8x)を扱えるようになり、質問応答や要約など比較的長い入力をもつ NLPタスクや、ゲノミクスデータの分析で性能の向上を確認した 29

30.

31.

予備 (Block化) 31

32.

予備 (計算効率化) 32

33.

予備 (Summarization) 33