【DL輪読会】Scaling Laws for Neural Language Models

369 Views

February 19, 21

スライド概要

2021/02/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Scaling Laws for Neural Language Models” (2020) Itsuki Okimura, PSI B3 http://deeplearning.jp/ 1

2.

アジェンダ 1. 2. 3. 4. 5. 6. 7. 8. 書誌情報 Scaling Law 概要 設定 結果 その他の結果 まとめ その後 2

3.

1 書誌情報 • 論文名: Scaling Laws for Neural Language Models • 出典:arXiv https://arxiv.org/abs/2001.08361 • 著者: Jared Kaplan, Sam McCandlish, Tom Henighanら OpenAIのチーム • 選択理由:AGIの実現をミッションとするOpenAIがScaling Lawに初めて 言及したGPT-3, DALL・Eなどの大規模モデルを作る動機のような論文 Transformerアーキテクチャの他分野への一般化 3

4.

2 Scaling Law Scaling Law :べき乗則 𝑓 𝑥 = 𝑎𝑥 𝑘 Ex.万有引力, クーロン力, ジップの法則, … 両辺で対数をとると log 𝑓(𝑥) = klog 𝑥 + log(𝑎) となり, 直線関係の式となる。 性質:スケール不変性 独立変数𝑥のスケールを変化させても, 関数のスケーリングの比例に帰結する 𝑓 𝑐𝑥 = 𝑎 𝑐𝑥 𝑘 = 𝑐 𝑘 𝑓(𝑥) ∝ 𝑓(𝑥) どのスケールでも同じような秩序が存在する 4

5.

2 Scaling Law ここ数年OpenAIはScaling Lawに関する論文と大規模モデルを 交互に発表している GPT-2 (2019 Feb) GPT-3 (2020 May) Scaling Laws for Neural LM (2020 Jan) DALL·E CLIP (2021 Jan) Scaling Laws for Autoregressive GM (2020 Oct) ??? Scaling Laws for Transfer (2021 Feb) https://deeplearning.hatenablog.com/entry/scaling_law参考に作成 5

6.

2 Scaling Law 本発表ではGPT-2とGPT-3の間に発表された論文について紹介 GPT-2 (2019 Feb) GPT-3 (2020 May) Scaling Laws for Neural LM (2020 Jan) DALL・E CLIP (2021 Jan) Scaling Laws for Autoregressive GM (2020 Oct) ??? Scaling Laws for Transfer (2021 Feb) 6

7.

3 概要 問題意識 自己回帰型言語モデル:それまでの単語から次の単語を予測する確率モデル 𝑃 𝑤𝑛+1 𝑤1 , ⋯ , 𝑤𝑛 Ex. GPT, GPT-2 数ある語彙の中からある単語を選ぶタスクであるので, クロスエントロピーが性能の指標となる。 →この性能はモデルアーキテクチャ, モデルのサイズ, モデルを訓練するために使用される計算能力, および この訓練プロセスで利用可能なデータに依存するのでは? 7

8.

3 概要 • Transformer言語モデルにおける損失をモデルアーキテクチャ, モデルのサイズ, モデルを訓練するための計算能力,およびこの訓練プロセスで利用可能なデータへの依存性を 様々な条件で変えて検証。 • 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。 • 具体的には, 他の2つにボトルネックがない場合,学習のための計算能力C, データセットのサイズD,モデルのパラメータ数N(embedding除く)と性能の間で べき乗則が観測された。 8

9.

3 概要 他にも • オーバーフィッティングの普遍性:パラメータ数NとデータサイズDの内片方が固定されていると 片方を増加させても, パフォーマンスにペナルティを受ける。 このペナルティはN0.74/Dに依存する。 (パラメータ数を8倍にすると, データ数を5倍にする必要がある) • 訓練の普遍性:訓練曲線は予測可能な力則に従うもので, そのパラメータはモデルサイズにほぼ依 存しない。訓練曲線の初期部分を外挿することで, より長く訓練した場合に達成される損失をおお よそ予測することが可能。 • サンプル効率:大規模モデルは小規模モデルよりもサンプル効率が高く, より少ない最適化ステッ プとより少ないデータ・ポイントで同じレベルの性能に到達する。 • 大規模モデルの効率性:計算リソースが固定されている場合, 非常に大規模なモデルを学習するこ とで最適な性能が達成できる。 • 最適バッチサイズ:これらのモデルを学習するための理想的なバッチサイズは損失の累乗で表さ れ, 勾配ノイズスケールを測定することで決定可能。 9

10.

4 設定 主要なパラメーター L: テストデータにおける言語モデルのクロスエントロピー損失 N: 語彙とPositional Embeddingを除くパラメーター数 C ≈ 6NBS: embedding以外の計算能力の推定値(B: バッチサイズ, S: ステップ数) 単位PF-days(= 1015 × 24 × 3600 = 8.64 × 1019 fpo) D:トークン単位のデータセットサイズ 10

11.

4 設定 パラメーターの概算方法 Transformerにおいて𝑑𝑎𝑡𝑡𝑛 = 𝑑𝑓𝑓 4 = 𝑑𝑚𝑜𝑑𝑒𝑙 より 2 N ≈ 12𝑛𝑙𝑎𝑦𝑒𝑟 𝑑𝑚𝑜𝑑𝑒𝑙 またバックワードパスの計算量は一般にフォーワードパスの2倍となるため C ≈ 6N 11

12.

4 設定 学習手順 デコーダーのみのTransformerモデルで 1024トークンのコンテキストで平均化されたクロスエントロピー損失を Adamオプティマイザを用いて最適化、 1024トークンの512シーケンスのバッチサイズで、2.5 × 105ステップでモデルを学習 実験設定 言語モデルのスケーリングを特徴づけるために モデルサイズN(768 ~ 1.5 × 1019), データセットサイズD(22 × 106 ~23 × 109), 形状(深さ、幅、アテンションヘッド、フィードフォワード次元など) を変化させ, 様々なモデルを訓練。 12

13.

4 設定 データセット Webtext2(Webから収集された96GBのテキストと1.62 × 1010 語を含む 20.3Mのドキュメント)をトークナイズし、一部をテストデータとして確保。 Books Corpus, Common Crawl, 英語版Wikipedia, および一般に公開されている インターネット書籍についてもテストを行う。 13

14.

5 結果 性能はモデルサイズNに大きく依存する Embeddingを含んだパラメーター数を軸にとると性能はレイヤー数に依存するように見えるが, Embeddingを除いたパラメーター数を軸にとると2層以上のモデルは一つの直線に帰着する 14

15.

5 結果 訓練セットと異なる分布のデータセットにおける性能 訓練データ以外のデータセットにおいてもパラメータ数の推移とともに滑らかな改善 15

16.

5 結果 同様に計算リソースC, データセットサイズDにも性能は依存 16

17.

5 結果 モデルの形状はそれほど性能に影響を与えない Nを固定しフィードフォワード比(𝑑𝑓𝑓 /𝑑𝑚𝑜𝑑𝑒𝑙 ), パラメータ アスペクト比(𝑑𝑚𝑜𝑑𝑒𝑙 /𝑛𝑙𝑎𝑦𝑒𝑟)アテンション ヘッド次元(𝑑𝑚𝑜𝑑𝑒𝑙 /𝑛ℎ𝑒𝑎𝑑 )を変えLossを比較したが, 性能はあまり変化しない 17

18.

6 その他の結果 LSTMとの比較 LSTMはコンテキストの初期に位置するトークンに対してはTransformerと同様の性能を示すが, それ以降のトークンに対してはTransformerの性能に及ばない 18

19.

6 その他の結果 大規模モデルのサンプル効率 大規模モデルは目的とする性能に対して, より少ないサンプル数によって到達する 19

20.

6 その他の結果 矛盾点 • そもそも, 自然言語のクロスエントロピーは0にはならない。 • データサイズDと計算リソースC間にはオーバーフィッティングを避けるための制約条件が存在し, L(Cmin)で予測される性能は最終的にL(D)の力則で設定された下限値に達する。 20

21.

7 まとめ • 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。 – 他の2つにボトルネックがない場合,学習のための計算量C, データセットのサイズD, モデルのパラメータ数Nと性能Lの間でべき乗則が観測された。 • 言語モデルにおけるLossの下限値は存在するため, その点に到達する前までに べき乗則は崩壊するはず。 – ただ, その計算量とモデルサイズまでは現時点では何桁も離れている。 21

22.

8 その後 GPT-3のLoss Scaling Lawをモチベーションとして OpenAIはGPT-2の100倍以上の パラメーターを持つGPT-3を発表。 GPT-3の論文内でも Lossと計算リソースのべき乗則は 102のオーダーで続いていることが 示された。 一方で, もっとも大きいモデルを 示す黄色の曲線は少し外れる。 なんとも言えないらしい。。 22

23.

8 その後 Scaling Laws for Autoregressive Generative Modeling GPT-3の論文内で示唆された マルチモーダルへの展開 言語モデルで見られた 計算リソース, モデルサイズに関する Scaling Lawを生成的画像・動画モデリン グ・マルチモーダル・数式といった ドメインの自己回帰型生成モデルにまで 拡大 Text2Image→DALL·E 23

24.

8 その後 Scaling Laws for Transfer Zero-shot, Few-shotではなく Fine-tuneに関する論文 Fine-tuneにおいて事前学習することで 同じ損失を達成するまでに 減らすことができるデータ量𝐷𝑇 について, ファインチューニングで使用したデータ量𝐷𝐹 , 事前学習モデルのパラメータ数𝑁の間で 以下のべき乗則が観測された。 𝐷𝑇 ∝ 𝐷𝐹 𝛼 𝑁𝛽 下流のタスクにおいても モデルサイズの重要性を示す 24

25.

8 その後 ??? • Bidirectional化??? – GPT-3論文内で示唆 • 強化学習でのFine-tuning??? – GPT-3論文内で示唆 – Fine-Tuning Language Models from Human Preferences(2019) • 多言語化??? – T5→mT5的な 25

26.

参考文献 Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361. Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., ... & McCandlish, S. (2020). Scaling laws for autoregressive generative modeling. arXiv preprint arXiv:2010.14701. Hernandez, D., Kaplan, J., Henighan, T., & McCandlish, S. (2021). Scaling Laws for Transfer. arXiv preprint arXiv:2102.01293. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., ... & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593. Ryobot(2021) ” OpenAIが発見したScaling Lawの秘密” https://deeplearning.hatenablog.com/entry/scaling_law 26

27.

DEEP LEARNING JP [DL Papers] “Scaling Laws for Neural Language Models” (2020) Itsuki Okimura, PSI B3 http://deeplearning.jp/