[DL輪読会]It's not just size that maters small language models are also few shot learners

>100 Views

September 10, 21

スライド概要

2021/09/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (EACL, 2021) It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners (NAACL, 2021) Kazuki Fujikawa 1

2.

サマリ • 書誌情報 – Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference • EACL 2021 – It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners • NAACL 2021, Outstanding Long Papers • 著者 – Timo Schick, Hinrich Schütze • 概要 – 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPETを提案 (EACL2021) – PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認 (NAACL2021) 2

3.

アウトライン • • • • • 背景 関連研究 提案手法 実験・結果 考察 3

4.

アウトライン • • • • • 背景 関連研究 提案手法 実験・結果 考察 4

5.

背景 • Transformer を Fine-tuning するアプローチは様々なNLPタスクで有効 – 事前学習で言語モデルを学習した上で、Head を目標タスク用に置き換えて 再学習を行うアプローチ – 目標タスクを解かせるためには、十分な教師ありデータを準備する必要がある • GPT-3 の登場で、Priming というアプローチが提案された – 少ない教師データで目標タスクを解くアプローチ – モデルの大きさ・教師データのトークン数に対する制約など、実用に課題も持つ (詳細は後述) GPT-3の課題を解決するモデルを考えたい 5

6.

アウトライン • • • • • 背景 関連研究 提案手法 実験・結果 考察 6

7.

関連研究: GPT-3 [Brown+, NeurIPS2020] • 少ない教師データで目標タスクを解くための新たな対応法: Priming – 大規模なコーパスで学習したTransformer言語モデルをそのまま利用 – 目標タスクの再学習は行わず、以下のテキストを入力に、続きを出力させる • • • task description: 問題設定 example: 目標タスクの教師情報 prompt: 目標タスクの推論対象 – 目標タスクの推論を促すテンプレートを設計する必要がある(Prompt engineering) • 以下課題(例)を持つ – – GPT-3 自体が超巨大モデルであり、一般的な計算環境では扱うことが困難 教師データをモデルの入力に加えるため、教師データが増えるとスケールしない (一般的にTransformerへのトークン数は多くて2048 tokenなどに限られる) 7

8.

アウトライン • • • • • 背景 関連研究 提案手法 実験・結果 考察 8

9.

提案手法: PET / iPET [Shick+, EACL2021] • 目標タスクをMLMの穴埋め問題に変換(PET: Pattern-Exploiting Training) – タスク毎に Pattern-Verbalizer Pair(PVP)を準備 • • Pattern P(x): 目標タスクを穴埋め問題に変換するパターン(テンプレート) verbalizer v(y): 目標タスクのラベルを単語に変換するマッピング – 少量サンプルの穴埋め問題(CELoss)で Fine-tuning • 複数のPVPで独立にモデルを構築 – 複数モデルを蒸留して1つの分類器を作成 • 教師無しデータ D に対して複数モデルの出力平均(アンサンブル)を疑似ラベルとして付与 9

10.

提案手法: PET / iPET [Shick+, EACL2021] • 少量データに対する再学習は不安定 → 複数のアプローチで安定化 – 教師なしデータ D に対する疑似ラベル・知識蒸留を繰り返す(iPET) – • 教師なしデータからサンプリングされるテキスト・PVPの選び方に対する分散を小さくする 破滅的忘却を防ぐため、教師無しデータの MLMLoss 最小化を同時に解かせる 10

11.

提案手法: 複数トークン対応 [Shick+, NAACL2021] • PET・iPETの課題: 予測対象が1トークンであることを前提としている – トーカナイザが terrible → terri + *ble と分割する場合、v(y) で terrible に変換できない • 複数トークンを予測対象とする場合を定式化 【推論】 ● 分割されたトークンを1つずつ挿入した場合の スコア積を取る 【訓練】 ● 推論時と同等にしたいが、分割されたトークン数分の z’ を準備するのはコストがかかる ● z の状態で全てのLossを計算してしまう 11

12.

アウトライン • • • • • 背景 関連研究 提案手法 実験・結果 考察 12

13.

実験 • SuperGLUEタスク [Wang+, 2019] タスク名 概要 パターン例 回答例 BoolQ [Clark+, 2019] 文章: p を読んで、後の問い: q に 答えるタスク (QAタスク) p. Question: q? Answer: _. p. Based on the previous passage, q? _. Based on the following passage, q? _. p yes, true no, false CB [De Marneffe+, 2019] RTE [Dagan+, 2006] p が正しい場合、必ず h が正しく なるかどうかを推定するタスク (含意認識タスク) h? | _. p “h”? | _. “p” h? | _, p “h”? | _, “p” yes no maybe COPA [Gordon+, 2012] 文章: p は、c1, c2 のどちらと 因果関係があるかを推定するタスク (因果推論タスク) “c1” or “c1”? p, so _. c1 or c1? p, so _. c1 or c2 そのまま WiC [Pilehvar and CamachoCollados, 2019] 2文 s1, s2 間で、単語 w が同じ 意味で使われているかどうかを 推定するタスク (語義曖昧解消タスク) “s1” / “s2”. Similar sense of “w”? _. s1 s2 Does w have the same meaning in both sentences? _ yes no 13

14.

実験 • SuperGLUEタスク [Wang+, 2019] タスク名 概要 パターン例 回答例 WSC [Levesque+, 2011] 文: s 中の代名詞: p が指す 名詞: n を推定するタスク (共参照解析) s The pronoun ‘*p*’ refers to _. s In the previous sentence, the pronoun ‘*p*’ refers to _. 該当する名詞を 抜き出して回答 MultiRC [Khashabi+, 2018] 文章: p を読んで、後の問い: q に 対する回答: a が正しいかどうかを 答えるタスク (QAタスク) p. Question: q? Is it a ? _. p. Question: q? I the correct answer “a”? _. yes/true no/false ReCoRD [Zhang+, 2018] 文章: p 中の、空欄: q に当てはまる 単語を、候補: a から選ぶタスク (穴埋め問題) タスク自体が穴埋め問題であるため、 タスクの文章: p, 空欄: q を そのまま利用 回答候補のうち 正しい単語を 回答 14

15.

実験結果: 定量評価 • PET, iPETのSuperGLUEに対する精度をGPT-3と比較 – PET, iPET: 事前学習モデルにALBERTを採用 – GPT-3と比較して、少ないパラメータ数で巨大モデルに匹敵する性能を示している – COPA, WSC, ReCoRDでマルチトークン化対応を実施 • 回答をそのまま出力する形式に必要とされた 15

16.

アウトライン • • • • • 背景 関連研究 提案手法 実験・結果 考察 16

17.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 17

18.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 18

19.

考察1: 提案法のパターンの有効性検証 • PETの枠組みで、以下のパターンを利用した場合の実験を実施 – p ours: 提案法のパターン – p GPT-3: GPT-3で利用されたプロンプト – p comb: ours, GPT-3 の組み合わせ • 結果 – CB, MultiRC では ours, RTEでは GPT-3 • → タスクに適したパターンを考案することは、タスクの性能に直結する – パターンを増やすことは、性能改善につながる(p comp) 19

20.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 20

21.

考察2: 教師なしデータ利用法の有効性検証 • 知識蒸留の影響を調べるため、以下の性能を比較 – PET (p ours/comb) ¬ dist: 複数PVPで得たモデルのアンサンブル(下図: (2)) – PET (p ours/comb): 教師なしデータに対する疑似ラベルで蒸留したモデル(下図 (3)) • 結果 – 蒸留なしのアンサンブルの方が性能は高い結果 – 蒸留は性能を上げるためではなく、最終モデルのパラメータを減らす目的で実施 21

22.

考察2: 教師なしデータ利用法の有効性検証 • 蒸留を複数回繰り返すことの有用性を検証 – iPETの各世代のスコア平均と標準偏差をグラフ化(下図) • 結果 – MultiRC以外の3タスクで、iPETによる性能向上を確認 – 試行に対する標準偏差も、4世代目でほぼゼロになった • 少数データに対するFine-tuningに対する学習の不安定さも排除できた 22

23.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 23

24.

考察3: 教師ありデータ利用法の有効性検証 • パターンを利用した学習法の有効性を確認するため、以下を比較 – – – – – PET: 提案法 unsupervised: 全PVPを利用、Fine-tuning無しのアンサンブル supervised: パターンを利用せず、Transformerにclassifier headを配置 PET (XLNet): 提案法のバックボーンをXLNetに変更したもの Priming (XLNet): XLNetを使って Priming で Few-shot 推論したもの • 結果 – PETが unsupervised, supervised, priming を大きく上回る結果 – MultiRCでは長文を入力するため、priming で推論することができなかった • 32件の訓練データをプライミングで与えるためには10,000トークン以上のシーケンス長に 対応する必要がある – プライミングと比較して、推論時のシーケンス長が短い点もPETの有用性の一つ 24

25.

まとめ • 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPET を提案 [EACL2021] – PET: Pattern-Verbalizer Pair (PVP) を利用した学習フレームワークを提案 – iPET: 知識蒸留を複数繰り返すことでFine-tuingの安定性を向上 • PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する 優位性を確認 [NAACL2021] – 巨大なGPT-3に匹敵する性能を少ないパラメータ数で実現 – Maskトークンが複数に分割される場合に対しても対処可能にした 25

26.

References • Schick, Timo, and Hinrich Schütze. "Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference.” In EACL 2021. • Schick, Timo, and Hinrich Schütze. "It's Not Just Size That Matters: Small Language Models Are Also FewShot Learners.” In NAACL 2021. • Brown, Tom B., et al. "Language models are few-shot learners." In NeurIPS 2020. • Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." In NeurIPS 2019. 26