[DL輪読会]Big Bird: Transformers for Longer Sequences

263 Views

September 16, 20

スライド概要

2020/09/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Big Bird: Transformers for Longer Sequences” Takuya MATSUDATE http://deeplearning.jp/

2.

目次 • • • • • • • 書誌情報 概要 背景 提案手法 理論的分析 実験 まとめ 2

3.

書誌情報 Big Bird: Transformers for Longer Sequences (arXiv:2007.14062) Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed Google Research https://arxiv.org/abs/2007.14062 3

4.

概要 1. Transformerベースのモデルのシーケンス長さに対する二次の計算量の依存性を線形 にまで減らすスパースな注意機構によるモデルBigBirdを提案 2. Transformerの持つシーケンス-シーケンス関数のUniversal approximatorとTuring完 全の特性を、BigBirdも維持することを示す 3. より長い入力( ~ 8x)を扱えるようになり、質問応答や要約など比較的長い入力をもつ NLPタスクや、ゲノミクスデータの分析で性能の向上を確認 4

5.

背景 Transformerの(完全な)Attentionはシーケンスの長さに対し2次の計算量とメ モリを必要とする ● 一般的に利用可能なハードウェアでは、概ね512トークンの長さまで ● 長い文脈を必要とするタスクへの直接の適用を難しくする ○ 質問回答や文書要約など 5

6.

先行研究 Transformerの二次の依存性を緩和する方法が模索されてきた ● 何らかの方法で、文書中から重要な短い文章を選び出す 選び出す処理の扱いが難しい。学習も難しい。 ● より小さなAttentionを作る ○ Sparse factorizations (of Attention matrix) ○ Reformer (Kitaev+, ICLR 2020) ■ 似たトークン間のみでAttentionを作る (LSHによる近傍点探索) ○ Longformer (Beltagy +, arXiv 2020) ■ Local windowed attention + Global attention ■ BigBirdの直接の先行研究 6

7.

Generalized attention mechanism 入力 に対して Query : アテンションを計算する対象 Key Value (のスタック) 7

8.

Generalized attention mechanism Attentionを隣接行列としてみる 8

9.

Generalized attention mechanism BERT ● 全ての要素が1 ● それぞれが全ての入力に対し注意を計算 ● 入力の長さに対して2次の計算コスト 9

10.

Graph sparsification problem 計算量の削減は隣接行列のスパース化 ● 既存のスパース化の手法が使える ? 10

11.

先行研究 (Longformer) Window attention + Global attention → Longformer * (*) I. Beltagy, M. E. Peters, and A. Cohan., arXiv 2020 11

12.

提案手法 Random attention + Window attention + Global attention → BigBird 12

13.

Random attention • Random graphによるComplete graphの近似から着想 – Erdös-Rényi モデル • 各Queryは r 個のKeyをランダムに選ぶ 13

14.

Window attention • Locality of reference – “あるトークンに対する重要な情報は、隣接するトークンから導き出 される” という現象 – NLP, Computational biologyで見られる • Small world graphの生成モデルを類用 – 一方で、Watts-Strogatz モデルのエッジの消去などの処理はハー ドウエアでは難しい • クエリ位置 i に対し、i − w/2 から i + w/2 までの位置の Keyを対象にする – w はWindow幅 14

15.

Global attention • Global Token – シーケンス内のすべてのトークンに寄与し、すべてのトークンの寄 与を受ける – 理論的解析からも重要性が認識された • Universal Approximatorの証明にスターグラフの構造が使わ れる 0 ... • 2つの導入方法を検討 – Big Bird - ITC (Internal Transformer Construction) シーケンスの中からGlobal Tokenを選ぶ – Big Bird - ETC (Extended Transformer Construction) シーケンスに新たなトークンを結合し、Global Tokenとして使用 する。いわゆる “CLS” トークン 15

16.

BigBird : 3つのAttentionの組み合わせ 構築ステップ 1. g 個のGlobal Token と全てのトークンを接続 (Global attention) 2. それぞれのクエリに対し、ランダムに r 個の Key を接続 (Random attention) 3. それぞれのクエリ位置から幅 w でKeyを接続 (Window attention) 実際には、このようなスパースな構造だとGPUでは効率的に計算で きないため、いくつかの工夫を施して使用する (Appendix D., Block化, Gather演算回数の最小化) 16

17.

Sparse attention v.s. Full attention Sparse attentionの能力について、2つの側面で理論的検討を行った 1. Encoder単体としての能力 • Transformerはシーケンス-シーケンス関数のUniversal approximatorであると示された (Yun et al., ICML 2020) • Sparse attentionを持つBigBirdもUniversal approximatorと示せる – Global attentionによるスターグラフの構造をもつことが重要 17

18.

Sparse attention v.s. Full attention 2. Encoder-Decoderモデルの能力 • Turing 完全性 ~ 任意のアルゴリズムを実装する能力をもつこと • TransformerのEncoder-Decoderモデルは、特定の(非現実的な)仮定のもとにTuring完全であるこ とが示される (Pérez et al., ICLR 2019) • 同じ仮定のもとでBigBirdのEncoder-DecoderモデルもTuring完全が示せる – 基本的にはPérezの証明と同じ流れ。Attentionがスパースになる部分の工夫が示されている。 18

19.

実験 • 長い入力シーケンスを扱えるようになり、長いコンテキストを必要とするタスクでの性能 の改善が期待される • 2つの領域で性能を確認 – 自然言語処理 • Encoderのみのタスク • Encoder-Decoderによるタスク – ゲノミクス 19

20.

自然言語処理 / 事前学習 • BERT, RoBERTaと同様にBigBirdの事前学習を行う – マスクされたトークンの予測など – RoBERTaの学習済みモデルからWarm-upする形で用意 – 入力の最大長は4096 • 現実的な 16GB memory/chip、バッチサイズ 32-64 に対する最大長 • 学習には4つのデータセットを使用 (Table 2) • BPC(Bits per character)ではBigBird-ETCが最も良い性能 (Table 3) 20

21.

自然言語処理 / Question Answering Question Answering タスク • 参照文に対し、与えられた質問文への回答を選ぶタスク • 必要なのはエンコーダーのみ • 4つのデータセットで実験 BigBird-ETCが一貫して良い性能を発揮する 21

22.

自然言語処理 / Question Answering 各データセット特化のモデルとの比較 ● BigBird側もタスクに合わせて新たな正則化など調整を実施 ● NaturalQ 以外のSotaモデルはアンサンブルが行われている ○ BigBirdは単一モデル ● Fusion-in-DecoderはBigBirdと似たアテンションの構造を持つ 22

23.

自然言語処理 / Document Classification Document Classification タスク • 文章のクラス分けを行うタスク • 必要なのはエンコーダのみ • 5つのデータセットで実験 • より長い文書(Arxiv)とより少ないデータ(Hyperpartisan) 下で改善がみられる • 短い文章 / 豊富なデータ量がある場合には有意なゲインは無い 23

24.

自然言語処理 / Summarization Summarization タスク • テキスト文書の短く正確な要約を作成するタスク • Encoder-Decoder構成によるテキスト生成 • 3つのデータセットで実験 • 事前学習には要約タスク特化の手法Pegasus(Zhang+, ICML 2020)も使用 • 出力の文章は短文であるとして、Encoder側のみにSparse Attentionを使用 24

25.

自然言語処理 / Summarization BigBirdにより大幅な改善が見られた 25

26.

ゲノミクス / 事前学習 • 長いシーケンスが一度に扱えるようになったことから、DNAシーケンスの分析での効果 が期待される – DNAの多くの機能が極めてシーケンスの中で非局所的(highly non-local)に存在 • DNAフラグメントに対し事前学習を行う – Byte Pair Encodingを作成する • 1トークンの平均で8.78塩基対 – BigBirdによりBPC(Bits per char)も改善がみられた 26

27.

ゲノミクス / Promoter Region Prediction Promoter Region Prediction • 与えられたDNAフラグメントがPromoterかそうでないかに分類するタスク – Promoter領域の判別の遺伝子制御学では重要 • 学習済みのBigBirdをFine-tuningし分類を行った • 報告された最高のモデルを凌駕し、ほぼ完全な性能を発揮 27

28.

ゲノミクス / Chromatin-Profile Prediction Chromatin-Profile Prediction • 与えられたNon-coding領域のDNAを、919クラスのChromatin-Profileに分類する – Non-coding領域の機能的効果の解明に寄与 • 919個の二値分類器を共同で学習 • Chromatin-Profile (919クラス) – Transcription factors (TF) : 690 クラス – DNase I sensitivity (DHS) profiles : 125 クラス – Histone-mark (HM) profiles : 104 クラス • HMに対するパフォーマンスが有意に向上 – 他に比べ長いレンジの相関があると知られている 28

29.

まとめ (ほぼ再掲) 1. Transformerベースのモデルのシーケンス長さに対する二次の計算量の依存性を線形 にまで減らすスパースな注意機構によるモデルBigBirdを提案した – Random Attention + Window Attention + Global Attention 2. Transformerの持つシーケンス-シーケンス関数のUniversal approximatorとTuring完 全の特性を、BigBirdも維持することを示した – Global Tokenの導入が重要な役割を持った 3. より長い入力( ~ 8x)を扱えるようになり、質問応答や要約など比較的長い入力をもつ NLPタスクや、ゲノミクスデータの分析で性能の向上を確認した 29

31.

予備 (Block化) 31

32.

予備 (計算効率化) 32

33.

予備 (Summarization) 33