【DL輪読会】Scaling laws for single-agent reinforcement learning

128 Views

February 17, 23

スライド概要

2023/2/10
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Scaling laws for single-agent reinforcement learning” 1 東京大学工学系研究科 稲富翔伍 http://deeplearning.jp/

2.

1.Intro 書誌情報 2 論文名 Scaling laws for single-agent reinforcement learning 著者 Jacob Hilton, Jie Tang, John Schulman (Open AI) 投稿 arXiv 31st Jan. 2023 概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見 られた • 計算予算と最適なモデルサイズの関係もべき乗則に従う 2023/02/10

3.

1.Intro べき乗則 3 Test Loss べき乗則(Scaling Laws) 深層学習でのべき乗 則モデルサイズや計算コストをかければ性能がべき乗則に従い 増える。 OpenAIの大規模モデル Scaling Laws for Neural Language Models - Kaplanら(2020) Okimuraさん輪読資料より https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l anguage-models Scaling Laws RL分野でのブレイクスルーが接 2023/02/10

4.

1.Intro 生成モデルとRLのべき乗則 4 生成モデル(ここではGPTのような自己回帰型の言語生成モデル) Loss:クロスエントロピー誤差が用いられる。 モデルサイズ・計算コストに対して、テスト時の滑らかなLoss減少が見られた(Smooth power laws)。 強化学習 RLではクロスエントロピー誤差は用いられないため別の性能指標が必要。 - サッカーなどの対戦型ゲームで用いられるイロレーティングは、計算量に対するべき乗則に従い滑らかに変化する指 標。 一方、すべてのRLにおいて滑らかに変化する“自然な”指標があるわけではない。 例:物を集めるゲームでは、ある一定の能力を獲得すると、急激にポイントが増加する。 アナロジー:生成モデルでの、“自然な“指標以外のべき乗 そこで、性能指標“Intrinsic performance”を導入。 則 「計算予算が一定のときのテスト時ロスが最小となる最適モ - 計算量に基づいた指標 デルサイズは、計算予算のべき乗則に従う。」 =計算予算を倍に増やすなら、モデルサイズも倍にすれば よい。 これを用いて、モデルサイズや環境とのインタラクション量が性能に対してどのような関係か調べる。 結論:べき乗則に従い性能増加する! 2023/02/10

5.

2.Scaling laws without cross-entropy loss Intrinsic performance - RLでべき乗則を示すには 5 “自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。 スコア5-10の間(下図黄枠)で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増 加。 性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。 定義:「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に 到達するように学習させるために必要な最小の計算量」 → 定義が難解であるため学習曲線のグラフで理解 Star pilot 2023/02/10

6.

2.Scaling laws without cross-entropy loss Intrinsic performanceのグラフの読み方(輪読者の解釈) ・ (b)では(a)の縦軸をIntrinsic performanceに変えた。 ・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。(定義の読み替え) ・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。 → Efficeint Frontierに接する点が重要 ・ Power law asymptote(漸近線)は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている ・ モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている 2023/02/10 6

7.

2.Scaling laws without cross-entropy loss Intrinsic performanceに対するべき乗則 ・ 計算量に対する最適なモデルサイズ Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。 I:Intrinsic performance, N:モデルサイズ(パラメタ数), E:環境とのインタラクション, その他は正の定数 ※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。 べき乗則:式(1)の解釈 十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。 十分なモデルサイズである場合、IはEのべき乗則に従う。 計算量に対する最適なモデルサイズ:(1)から導出される補題 1 ある一定の計算予算(計算量)の制限における最適なモデルサイズは、計算予算のべき乗則に 従う。 2023/02/10 7

8.

3.Experimental Setup 実験環境・アルゴリズム等の条件 1. Procgen Benchmark 8 2. Dota2 1vs1のMOVAゲーム PPO LSTMのサイズを様々変 更 3. MNIST Star pilot Fruit Bot 2023/02/10 Coin Run 数字を当てられたらreward1が得られる。 各ゲームにEasy, Hard の2種のモード GAE(Generalized Advantage Estimation) のパラメータを変更することで、Horizon length (未来のどこまでを考慮するか)の影響を調べる PPG-EWMA CNNのサイズを様々変 更 PPO-EWMA CNNのサイズを様々変更 強化学習でなくても解けるが、強化学習の枠組みに落とし込 んで学習させる。

9.

4.Results べき乗則の成立 ・ 2つの指数の関係 “Main Result” 2つの指数の関係 2023/02/10 式(1) 9 は学習初期を除いて、様々な環境・モデルサイズに対して成 立。

10.

4.Results 計算量と最適なモデルサイズの関係 10 補題1(再掲) 指数 の値 Procgen 0.40~0.65 MNIST 0.66~0.80 Dota 2 0.76 ※ここでは環境の実行コストは考慮しない →後で考 慮 ・理論的には、最適なハイパーパラメタと十分なランダムシード値を用いることで、指数(傾き)は0.5に近 づく。 - 今回の実験だけでは結論が出ない。 ・係数(グラフの切片に相当)については環境によって大きく違うことが分かる。 ・MNISTを除き、ある計算コストに対するRLの最適モデルサイズは生成モデルに比べ小さい。 -2023/02/10 RLタスクの方が、horizonの長いこと、パラメータ当たりのForwardのFLOPsが多いことが影響

11.

4.Results Forward pass のモデルサイズと計算量 2023/02/10 Forward pass を指標に用いることでスケーリングの関係が類似す る。 パラメタ毎のFLOPs(層の深さ)を考慮できるため。 11

12.

5.Discussion サンプル効率の外挿 ・ 環境の実行を考慮した最適モデルサイズ サンプル効率の外 挿 モデルサイズを無限大にすると、10^7.0モデル の最大性能まで、半分のインタラクションで到 達 2023/02/10 環境の実行を考量した最適モデルサイ ズ サンプル効率について議論するなら、環境の実行 コストを考慮する必要がある。 計算費用をかける際、モデルサイズが環境サイズ より小さい場合、非効率である。 12

13.

5.Discussion 計算量の予測のために Transformative AI(破壊的・強力なAI)を作るためには? - 人間の脳の理解によるパラメタ数決定と、学習を行うためのべき乗則が必要 ・べき乗則の指数は生成モデルと同程度 - 今回の実験ではばらつきがあったが、およそ0.5になるものと考えられる。 ・べき乗則の係数は数桁の差がある - Horizon lengthにより説明できる ・演算強度の違い(モデルのパラメタ毎のFLOPs)を考慮するためにはForward passのFLOPsを使用する ・サンプル効率はHorizon lengthのアフィン関数である。 ・べき乗則の指数の正確な予測は困難 2023/02/10 13

14.

まとめ • 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance を導入 • 計算量に基づく指標 • 定義は難解であるので、今回は学習曲線を用いた解釈を紹介 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見られた • 実験により、経験則の成立を確認 • 計算予算と最適なモデルサイズの関係もべき乗則に従う • べき乗則に影響を与える条件の整理 感想 • MNISTの実験を深く理解できず… • RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。 2023/02/10 14