【DL輪読会】Scaling Laws for Neural Language Models

369 Views

February 19, 21

deep learning

スライド概要

2021/02/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.9K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.1K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.7K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Scaling Laws for Neural Language Models” (2020) Itsuki Okimura, PSI B3 http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ 1. 2. 3. 4. 5. 6. 7. 8. 書誌情報 Scaling Law 概要設定結果その他の結果まとめその後 2

1 書誌情報 • 論文名： Scaling Laws for Neural Language Models • 出典：arXiv https://arxiv.org/abs/2001.08361 • 著者： Jared Kaplan, Sam McCandlish, Tom Henighanら OpenAIのチーム • 選択理由：AGIの実現をミッションとするOpenAIがScaling Lawに初めて言及したGPT-3, DALL・Eなどの大規模モデルを作る動機のような論文 Transformerアーキテクチャの他分野への一般化 3

https://arxiv.org/abs/2001.08361

2 Scaling Law Scaling Law ：べき乗則 𝑓 𝑥 = 𝑎𝑥 𝑘 Ex.万有引力, クーロン力, ジップの法則, … 両辺で対数をとると log 𝑓(𝑥) = klog 𝑥 + log(𝑎) となり, 直線関係の式となる。性質：スケール不変性独立変数𝑥のスケールを変化させても, 関数のスケーリングの比例に帰結する 𝑓 𝑐𝑥 = 𝑎 𝑐𝑥 𝑘 = 𝑐 𝑘 𝑓(𝑥) ∝ 𝑓(𝑥) どのスケールでも同じような秩序が存在する 4

2 Scaling Law ここ数年OpenAIはScaling Lawに関する論文と大規模モデルを交互に発表している GPT-2 (2019 Feb) GPT-3 (2020 May) Scaling Laws for Neural LM (2020 Jan) DALL·E CLIP (2021 Jan) Scaling Laws for Autoregressive GM (2020 Oct) ??? Scaling Laws for Transfer (2021 Feb) https://deeplearning.hatenablog.com/entry/scaling_law参考に作成 5

https://deeplearning.hatenablog.com/entry/scaling_law

2 Scaling Law 本発表ではGPT-2とGPT-3の間に発表された論文について紹介 GPT-2 (2019 Feb) GPT-3 (2020 May) Scaling Laws for Neural LM (2020 Jan) DALL・E CLIP (2021 Jan) Scaling Laws for Autoregressive GM (2020 Oct) ??? Scaling Laws for Transfer (2021 Feb) 6

3 概要問題意識自己回帰型言語モデル：それまでの単語から次の単語を予測する確率モデル 𝑃 𝑤𝑛+1 𝑤1 , ⋯ , 𝑤𝑛 Ex. GPT, GPT-2 数ある語彙の中からある単語を選ぶタスクであるので, クロスエントロピーが性能の指標となる。 →この性能はモデルアーキテクチャ, モデルのサイズ, モデルを訓練するために使用される計算能力, およびこの訓練プロセスで利用可能なデータに依存するのでは？ 7

3 概要 • Transformer言語モデルにおける損失をモデルアーキテクチャ, モデルのサイズ, モデルを訓練するための計算能力,およびこの訓練プロセスで利用可能なデータへの依存性を様々な条件で変えて検証。 • 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。 • 具体的には, 他の2つにボトルネックがない場合,学習のための計算能力C, データセットのサイズD,モデルのパラメータ数N(embedding除く)と性能の間でべき乗則が観測された。 8

3 概要他にも • オーバーフィッティングの普遍性：パラメータ数NとデータサイズDの内片方が固定されていると片方を増加させても, パフォーマンスにペナルティを受ける。このペナルティはN0.74/Dに依存する。 (パラメータ数を8倍にすると, データ数を5倍にする必要がある) • 訓練の普遍性：訓練曲線は予測可能な力則に従うもので, そのパラメータはモデルサイズにほぼ依存しない。訓練曲線の初期部分を外挿することで, より長く訓練した場合に達成される損失をおおよそ予測することが可能。 • サンプル効率：大規模モデルは小規模モデルよりもサンプル効率が高く, より少ない最適化ステップとより少ないデータ・ポイントで同じレベルの性能に到達する。 • 大規模モデルの効率性：計算リソースが固定されている場合, 非常に大規模なモデルを学習することで最適な性能が達成できる。 • 最適バッチサイズ：これらのモデルを学習するための理想的なバッチサイズは損失の累乗で表され, 勾配ノイズスケールを測定することで決定可能。 9

10.

4 設定主要なパラメーター L: テストデータにおける言語モデルのクロスエントロピー損失 N: 語彙とPositional Embeddingを除くパラメーター数 C ≈ 6NBS: embedding以外の計算能力の推定値(B: バッチサイズ, S: ステップ数) 単位PF-days(= 1015 × 24 × 3600 = 8.64 × 1019 fpo) D:トークン単位のデータセットサイズ 10

11.

4 設定パラメーターの概算方法 Transformerにおいて𝑑𝑎𝑡𝑡𝑛 = 𝑑𝑓𝑓 4 = 𝑑𝑚𝑜𝑑𝑒𝑙 より 2 N ≈ 12𝑛𝑙𝑎𝑦𝑒𝑟 𝑑𝑚𝑜𝑑𝑒𝑙 またバックワードパスの計算量は一般にフォーワードパスの2倍となるため C ≈ 6N 11

12.

4 設定学習手順デコーダーのみのTransformerモデルで 1024トークンのコンテキストで平均化されたクロスエントロピー損失を Adamオプティマイザを用いて最適化、 1024トークンの512シーケンスのバッチサイズで、2.5 × 105ステップでモデルを学習実験設定言語モデルのスケーリングを特徴づけるためにモデルサイズN(768 ~ 1.5 × 1019), データセットサイズD(22 × 106 ~23 × 109), 形状(深さ、幅、アテンションヘッド、フィードフォワード次元など) を変化させ, 様々なモデルを訓練。 12

13.

4 設定データセット Webtext2(Webから収集された96GBのテキストと1.62 × 1010 語を含む 20.3Mのドキュメント)をトークナイズし、一部をテストデータとして確保。 Books Corpus, Common Crawl, 英語版Wikipedia, および一般に公開されているインターネット書籍についてもテストを行う。 13

14.

5 結果性能はモデルサイズNに大きく依存する Embeddingを含んだパラメーター数を軸にとると性能はレイヤー数に依存するように見えるが, Embeddingを除いたパラメーター数を軸にとると2層以上のモデルは一つの直線に帰着する 14

15.

5 結果訓練セットと異なる分布のデータセットにおける性能訓練データ以外のデータセットにおいてもパラメータ数の推移とともに滑らかな改善 15

16.

5 結果同様に計算リソースC, データセットサイズDにも性能は依存 16

17.

5 結果モデルの形状はそれほど性能に影響を与えない Nを固定しフィードフォワード比(𝑑𝑓𝑓 /𝑑𝑚𝑜𝑑𝑒𝑙 ), パラメータアスペクト比(𝑑𝑚𝑜𝑑𝑒𝑙 /𝑛𝑙𝑎𝑦𝑒𝑟)アテンションヘッド次元(𝑑𝑚𝑜𝑑𝑒𝑙 /𝑛ℎ𝑒𝑎𝑑 )を変えLossを比較したが, 性能はあまり変化しない 17

18.

6 その他の結果 LSTMとの比較 LSTMはコンテキストの初期に位置するトークンに対してはTransformerと同様の性能を示すが, それ以降のトークンに対してはTransformerの性能に及ばない 18

19.

6 その他の結果大規模モデルのサンプル効率大規模モデルは目的とする性能に対して, より少ないサンプル数によって到達する 19

20.

6 その他の結果矛盾点 • そもそも, 自然言語のクロスエントロピーは0にはならない。 • データサイズDと計算リソースC間にはオーバーフィッティングを避けるための制約条件が存在し, L(Cmin)で予測される性能は最終的にL(D)の力則で設定された下限値に達する。 20

21.

7 まとめ • 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。 – 他の2つにボトルネックがない場合,学習のための計算量C, データセットのサイズD, モデルのパラメータ数Nと性能Lの間でべき乗則が観測された。 • 言語モデルにおけるLossの下限値は存在するため, その点に到達する前までにべき乗則は崩壊するはず。 – ただ, その計算量とモデルサイズまでは現時点では何桁も離れている。 21

22.

8 その後 GPT-3のLoss Scaling Lawをモチベーションとして OpenAIはGPT-2の100倍以上のパラメーターを持つGPT-3を発表。 GPT-3の論文内でも Lossと計算リソースのべき乗則は 102のオーダーで続いていることが示された。一方で, もっとも大きいモデルを示す黄色の曲線は少し外れる。なんとも言えないらしい。。 22

23.

8 その後 Scaling Laws for Autoregressive Generative Modeling GPT-3の論文内で示唆されたマルチモーダルへの展開言語モデルで見られた計算リソース, モデルサイズに関する Scaling Lawを生成的画像・動画モデリング・マルチモーダル・数式といったドメインの自己回帰型生成モデルにまで拡大 Text2Image→DALL·E 23

24.

8 その後 Scaling Laws for Transfer Zero-shot, Few-shotではなく Fine-tuneに関する論文 Fine-tuneにおいて事前学習することで同じ損失を達成するまでに減らすことができるデータ量𝐷𝑇 について, ファインチューニングで使用したデータ量𝐷𝐹 , 事前学習モデルのパラメータ数𝑁の間で以下のべき乗則が観測された。 𝐷𝑇 ∝ 𝐷𝐹 𝛼 𝑁𝛽 下流のタスクにおいてもモデルサイズの重要性を示す 24

25.

8 その後 ??? • Bidirectional化??? – GPT-3論文内で示唆 • 強化学習でのFine-tuning??? – GPT-3論文内で示唆 – Fine-Tuning Language Models from Human Preferences(2019) • 多言語化??? – T5→mT5的な 25

26.

参考文献 Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361. Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., ... & McCandlish, S. (2020). Scaling laws for autoregressive generative modeling. arXiv preprint arXiv:2010.14701. Hernandez, D., Kaplan, J., Henighan, T., & McCandlish, S. (2021). Scaling Laws for Transfer. arXiv preprint arXiv:2102.01293. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., ... & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593. Ryobot(2021) ” OpenAIが発見したScaling Lawの秘密” https://deeplearning.hatenablog.com/entry/scaling_law 26

https://deeplearning.hatenablog.com/entry/scaling_law

27.

DEEP LEARNING JP [DL Papers] “Scaling Laws for Neural Language Models” (2020) Itsuki Okimura, PSI B3 http://deeplearning.jp/

http://deeplearning.jp/