[DL輪読会]It's not just size that maters small language models are also few shot learners

1.

Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (EACL, 2021) It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners (NAACL, 2021) Kazuki Fujikawa 1

2.

サマリ • 書誌情報 – Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference • EACL 2021 – It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners • NAACL 2021, Outstanding Long Papers • 著者 – Timo Schick, Hinrich Schütze • 概要 – 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPETを提案（EACL2021） – PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認（NAACL2021） 2

3.

アウトライン • • • • • 背景関連研究提案手法実験・結果考察 3

4.

アウトライン • • • • • 背景関連研究提案手法実験・結果考察 4

5.

背景 • Transformer を Fine-tuning するアプローチは様々なNLPタスクで有効 – 事前学習で言語モデルを学習した上で、Head を目標タスク用に置き換えて再学習を行うアプローチ – 目標タスクを解かせるためには、十分な教師ありデータを準備する必要がある • GPT-3 の登場で、Priming というアプローチが提案された – 少ない教師データで目標タスクを解くアプローチ – モデルの大きさ・教師データのトークン数に対する制約など、実用に課題も持つ（詳細は後述） GPT-3の課題を解決するモデルを考えたい 5

6.

アウトライン • • • • • 背景関連研究提案手法実験・結果考察 6

7.

関連研究: GPT-3 [Brown+, NeurIPS2020] • 少ない教師データで目標タスクを解くための新たな対応法: Priming – 大規模なコーパスで学習したTransformer言語モデルをそのまま利用 – 目標タスクの再学習は行わず、以下のテキストを入力に、続きを出力させる • • • task description: 問題設定 example: 目標タスクの教師情報 prompt: 目標タスクの推論対象 – 目標タスクの推論を促すテンプレートを設計する必要がある（Prompt engineering） • 以下課題（例）を持つ – – GPT-3 自体が超巨大モデルであり、一般的な計算環境では扱うことが困難教師データをモデルの入力に加えるため、教師データが増えるとスケールしない（一般的にTransformerへのトークン数は多くて2048 tokenなどに限られる） 7

8.

アウトライン • • • • • 背景関連研究提案手法実験・結果考察 8

9.

提案手法: PET / iPET [Shick+, EACL2021] • 目標タスクをMLMの穴埋め問題に変換（PET: Pattern-Exploiting Training） – タスク毎に Pattern-Verbalizer Pair（PVP）を準備 • • Pattern P(x): 目標タスクを穴埋め問題に変換するパターン（テンプレート） verbalizer v(y): 目標タスクのラベルを単語に変換するマッピング – 少量サンプルの穴埋め問題（CELoss）で Fine-tuning • 複数のPVPで独立にモデルを構築 – 複数モデルを蒸留して1つの分類器を作成 • 教師無しデータ D に対して複数モデルの出力平均（アンサンブル）を疑似ラベルとして付与 9

10.

提案手法: PET / iPET [Shick+, EACL2021] • 少量データに対する再学習は不安定 → 複数のアプローチで安定化 – 教師なしデータ D に対する疑似ラベル・知識蒸留を繰り返す（iPET） – • 教師なしデータからサンプリングされるテキスト・PVPの選び方に対する分散を小さくする破滅的忘却を防ぐため、教師無しデータの MLMLoss 最小化を同時に解かせる 10

11.

提案手法: 複数トークン対応 [Shick+, NAACL2021] • PET・iPETの課題: 予測対象が1トークンであることを前提としている – トーカナイザが terrible → terri + *ble と分割する場合、v(y) で terrible に変換できない • 複数トークンを予測対象とする場合を定式化【推論】 ● 分割されたトークンを1つずつ挿入した場合のスコア積を取る【訓練】 ● 推論時と同等にしたいが、分割されたトークン数分の z’ を準備するのはコストがかかる ● z の状態で全てのLossを計算してしまう 11

12.

アウトライン • • • • • 背景関連研究提案手法実験・結果考察 12

13.

実験 • SuperGLUEタスク [Wang+, 2019] タスク名概要パターン例回答例 BoolQ [Clark+, 2019] 文章: p を読んで、後の問い: q に答えるタスク（QAタスク） p. Question: q? Answer: _. p. Based on the previous passage, q? _. Based on the following passage, q? _. p yes, true no, false CB [De Marneffe+, 2019] RTE [Dagan+, 2006] p が正しい場合、必ず h が正しくなるかどうかを推定するタスク（含意認識タスク） h? | _. p “h”? | _. “p” h? | _, p “h”? | _, “p” yes no maybe COPA [Gordon+, 2012] 文章: p は、c1, c2 のどちらと因果関係があるかを推定するタスク（因果推論タスク） “c1” or “c1”? p, so _. c1 or c1? p, so _. c1 or c2 そのまま WiC [Pilehvar and CamachoCollados, 2019] 2文 s1, s2 間で、単語 w が同じ意味で使われているかどうかを推定するタスク（語義曖昧解消タスク） “s1” / “s2”. Similar sense of “w”? _. s1 s2 Does w have the same meaning in both sentences? _ yes no 13

14.

実験 • SuperGLUEタスク [Wang+, 2019] タスク名概要パターン例回答例 WSC [Levesque+, 2011] 文: s 中の代名詞: p が指す名詞: n を推定するタスク（共参照解析） s The pronoun ‘*p*’ refers to _. s In the previous sentence, the pronoun ‘*p*’ refers to _. 該当する名詞を抜き出して回答 MultiRC [Khashabi+, 2018] 文章: p を読んで、後の問い: q に対する回答: a が正しいかどうかを答えるタスク（QAタスク） p. Question: q? Is it a ? _. p. Question: q? I the correct answer “a”? _. yes/true no/false ReCoRD [Zhang+, 2018] 文章: p 中の、空欄: q に当てはまる単語を、候補: a から選ぶタスク（穴埋め問題）タスク自体が穴埋め問題であるため、タスクの文章: p, 空欄: q をそのまま利用回答候補のうち正しい単語を回答 14

15.

実験結果: 定量評価 • PET, iPETのSuperGLUEに対する精度をGPT-3と比較 – PET, iPET: 事前学習モデルにALBERTを採用 – GPT-3と比較して、少ないパラメータ数で巨大モデルに匹敵する性能を示している – COPA, WSC, ReCoRDでマルチトークン化対応を実施 • 回答をそのまま出力する形式に必要とされた 15

16.

アウトライン • • • • • 背景関連研究提案手法実験・結果考察 16

17.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認（GPT-3 vs PET） 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認蒸留を複数回繰り返すことの有効性検証（iPET） 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 17

18.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認（GPT-3 vs PET） 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認蒸留を複数回繰り返すことの有効性検証（iPET） 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 18

19.

考察1: 提案法のパターンの有効性検証 • PETの枠組みで、以下のパターンを利用した場合の実験を実施 – p ours: 提案法のパターン – p GPT-3: GPT-3で利用されたプロンプト – p comb: ours, GPT-3 の組み合わせ • 結果 – CB, MultiRC では ours, RTEでは GPT-3 • → タスクに適したパターンを考案することは、タスクの性能に直結する – パターンを増やすことは、性能改善につながる（p comp） 19

20.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認（GPT-3 vs PET） 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認蒸留を複数回繰り返すことの有効性検証（iPET） 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 20

21.

考察2: 教師なしデータ利用法の有効性検証 • 知識蒸留の影響を調べるため、以下の性能を比較 – PET (p ours/comb) ¬ dist: 複数PVPで得たモデルのアンサンブル（下図: (2)） – PET (p ours/comb): 教師なしデータに対する疑似ラベルで蒸留したモデル（下図 (3)） • 結果 – 蒸留なしのアンサンブルの方が性能は高い結果 – 蒸留は性能を上げるためではなく、最終モデルのパラメータを減らす目的で実施 21

22.

考察2: 教師なしデータ利用法の有効性検証 • 蒸留を複数回繰り返すことの有用性を検証 – iPETの各世代のスコア平均と標準偏差をグラフ化（下図） • 結果 – MultiRC以外の3タスクで、iPETによる性能向上を確認 – 試行に対する標準偏差も、4世代目でほぼゼロになった • 少数データに対するFine-tuningに対する学習の不安定さも排除できた 22

23.

考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認（GPT-3 vs PET） 2. 教師なしデータ利用法の有効性検証 • • 蒸留の必要性・影響の確認蒸留を複数回繰り返すことの有効性検証（iPET） 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 23

24.

考察3: 教師ありデータ利用法の有効性検証 • パターンを利用した学習法の有効性を確認するため、以下を比較 – – – – – PET: 提案法 unsupervised: 全PVPを利用、Fine-tuning無しのアンサンブル supervised: パターンを利用せず、Transformerにclassifier headを配置 PET (XLNet): 提案法のバックボーンをXLNetに変更したもの Priming (XLNet): XLNetを使って Priming で Few-shot 推論したもの • 結果 – PETが unsupervised, supervised, priming を大きく上回る結果 – MultiRCでは長文を入力するため、priming で推論することができなかった • 32件の訓練データをプライミングで与えるためには10,000トークン以上のシーケンス長に対応する必要がある – プライミングと比較して、推論時のシーケンス長が短い点もPETの有用性の一つ 24

25.

まとめ • 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPET を提案 [EACL2021] – PET: Pattern-Verbalizer Pair (PVP) を利用した学習フレームワークを提案 – iPET: 知識蒸留を複数繰り返すことでFine-tuingの安定性を向上 • PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認 [NAACL2021] – 巨大なGPT-3に匹敵する性能を少ないパラメータ数で実現 – Maskトークンが複数に分割される場合に対しても対処可能にした 25

26.

References • Schick, Timo, and Hinrich Schütze. "Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference.” In EACL 2021. • Schick, Timo, and Hinrich Schütze. "It's Not Just Size That Matters: Small Language Models Are Also FewShot Learners.” In NAACL 2021. • Brown, Tom B., et al. "Language models are few-shot learners." In NeurIPS 2020. • Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." In NeurIPS 2019. 26

[DL輪読会]It's not just size that maters small language models are also few shot learners

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト