【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

309 Views

August 24, 22

#deep learning #Deep Learning #Transformers #NLP #Pre-training #Fine-tuning

スライド概要

2022/8/5
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Scale Efficiently: Insights from Pre-training and Finetuning Transformers” (ICLR2022) Okimura Itsuki, Matsuo Lab, M1 http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ 1. 2. 3. 4. 5. 6. 書誌情報概要背景問題意識実験追加実験 2

１書誌情報タイトル： Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers 出典： ICLR2022 https://openreview.net/pdf?id=f2OYVDyfIB 著者： Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzler (Google Research & Deepmind) 選んだ理由：べき乗則の再検討みたいなもので気になった 3

https://openreview.net/pdf?id=f2OYVDyfIB

2 概要 • Transformer言語モデルでの上流で観察されるべき乗則が下流のタスクにどのように影響するのかは不明であった． • そこで多様な形状のT5ベースのモデルについて上流の言語モデリングと下流でのタスクの性能を検証し，上流タスクでの性能は下流タスクでの性能を保証しないことを示した． • また，下流タスクの性能はモデルの形状に影響を受け，層が深く幅が狭い DeepNarrowなモデルの学習効率が優れていることも示した． • DeepNarrowなモデルの優位性は他のNLPタスクで学習した場合や ViTでFew-shot学習を行った場合においても観察された． 4

3 背景言語モデルにおけるべき乗則(Scaling law) Transformer言語モデルにおいて，言語モデルの損失とその他のパラメータの関係を検証言語モデルのクロスエントロピー損失Lと計算能力C，データセットサイズD，パラメータ数Nの間でべき乗則が観察された *べき乗則…ある観測量が別の観測量の対数に比例するモデルの形状の影響は軽微出典: https://arxiv.org/pdf/2001.08361.pdf 5

3 背景より最適なべき乗則一定の計算予算において言語モデリングを学習するのに最適なモデルのパラメータを検証前述のべき乗則ではモデルサイズに対しデータセットが不足しており，モデルサイズと学習トークン数は等しい割合で拡張されるべきと主張提案したモデルChinchillaは既存のモデルより少ないパラメータで多くのデータを学習することで，性能が上回る出典: https://arxiv.org/pdf/2203.15556.pdf 6

4 問題意識べき乗則においていまだ不明な点は存在する性能はモデルサイズによってスケールする →固定された比率でスケールさせるべきなのか？上流の性能がべき乗則に従う →下流タスクでの性能は上流のべき乗則に従うのか？ 7

5 実験多様な形状のモデルについて、上流と下流でのタスクの性能を検証 T5ベースアーキテクチャの様々なモデルサイズで層の深さなどモデルの形状を変化させたモデルでの性能を検証する． Ex. NL16-Base 上流 C4で学習した言語モデリングタスクでの損失下流 GLUE / SuperGLUE / SQuADでの正解率 8

5 実験上流タスクでの性能は下流タスクでの性能を保証しないパラメータ数と上流，下流それぞれの性能をプロットしたのが右図上流での性能はモデルサイズと強い相関があるのに対し、 SuperGLUEでの微調整後の下流の性能では相関は消失する形状設定が適切でない場合には，下流のタスクでの性能が著しく低下する場合も存在するため，事前学習による損失は誤解を招く可能性がある． 9

10.

5 実験モデルのアーキテクチャパラメータの与える下流タスクへの影響は異なるモデルの次元(DM)，隠れ層の次元(FF)，ヘッド数(NH)，レイヤー数(NL)をそれぞれ操作した際の上流と下流での性能を調査．上流と下流でスケーリングの効果が異なる場合が存在する．(ex. FF2K, NH8) レイヤー数(NL)は隠れ層の次元(FF)よりも性能に対して効率的に寄与する． →DeepNarrow(深くて次元が狭い)なモデルが(パレート)効率的？ 10

11.

5 実験 DeepNarrowモデルは効率的に同性能を達成できるモデルの深さを優先的に増やした DeepNarrowなモデルとそれより一段階パラメータ数の大きいモデルの性能を評価．モデルの深さを優先的に増やした DeepNarrowなモデルは少ないパラメータ，少ない計算量，早い速度でそうでないモデルと同程度の性能を達成できる． Ex. 標準的なXLモデルを， 36層のlargeモデルで62%のパラメータ節約し，２倍に高速化し，低いFLOPsコストでアウトパフォームすることができる． 11

12.

5 実験深さによる効率性の向上にも限界は存在する深さを増やした場合のスモールモデル，ベースモデル，ラージモデルの性能の推移をプロットしたのが右図．深さを増やしたモデルはそうでないモデルよりもパレート効率的であるが，徐々にその効果は先細りしていき，32~36層程度で収束する．多層化による勾配消失は本実験では見られなかったらしい 12

13.

6 追加実験他のNLPタスクでもDeepNarrowなモデルの優位性は観察できる同様のことが他のデータセットでも生じるか確認するため， DeepNarrowなT5スモールモデルと T5ベースモデルで12種類のNLPのタスクにファインチューニングを行った結果を示す． DeepNarrowなT5スモールモデルは T5ベースモデルと比較して14%少ないパラメータと10%少ないFLOPSを実現し， 12個のタスクのうち，11個のタスクでT5モデルを上回る，または同率のスコアを示す． 13

14.

6 追加実験 ViTでもDeepNarrowなモデルの優位性は観察できる同様のことが他のモダリティでも起こるかを検証するため，ViTでの事前学習後の Few-shot性能を比較． DeepNarrowなViT-Sモデルは， ViT-Bモデルと比較してより良いパレート効率を示す．特に、L = 24の場合，15%少ないパラメータ、 11%少ないFLOPsでより良いFew-shot精度を達成した． 14

15.

まとめ • Transformer言語モデルでの上流で観察されるべき乗則が下流のタスクにどのように影響するのかは不明であった． • そこで多様な形状のT5ベースのモデルについて上流の言語モデリングと下流でのタスクの性能を検証し，上流タスクでの性能は下流タスクでの性能を保証しないことを示した • また，下流タスクの性能はモデルの形状に影響を受け，層が深く幅が狭い DeepNarrowなモデルの学習効率が優れていることも示した． • DeepNarrowなモデルの優位性は他のNLPタスクで学習した場合や ViTでFew-shot学習を行った場合においても観察された． 15

16.

感想確かにpplがそのまま下流タスクに反映されるとか，モデル形状が下流に全く影響与えないとは考えにくい評価の難しい対話モデルなどはpplを性能の指標とする場合もあったので，良い言語モデルとはなんなのか考えさせられる Decoderモデルだけでなく， Encoder-Decoderモデルでも上流ではべき乗則が見られたのは少し面白い上流と下流を対比したグラフとして、縦軸に性質の異なるメトリクスを使っているのは少しズルい？ 16

17.

DEEP LEARNING JP [DL Papers] “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” (ICLR 2021 workshop) Okimura Itsuki, Matsuo Lab, B4 http://deeplearning.jp/

http://deeplearning.jp/