[DL輪読会]Implementation Matters in Deep RL: A Case Study on PPO and TRPO (ICLR’20)

>100 Views

March 04, 20

#deep learning #Deep Learning #Reinforcement Learning #PPO #TRPO #Code-Level Optimization

スライド概要

2020/02/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Implementation Matters in Deep RL: A Case Study on PPO and TRPO (ICLR’20) Presenter: Masanori Misono (Univ. Tokyo) http://deeplearning.jp/ 2020/2/28 1

http://deeplearning.jp/

[beta]

書誌情報


Implementation Matters in Deep RL: A Case Study on PPO and TRPO

7!

Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry
Rudolph, Aleksander Madry (MIT)

%

ICLR’20 (Talk; 8, 8, 8)

URL

- https://openreview.net/forum?id=r1etN1rtPB
- https://github.com/implementation-matters/code-for-paper

:'

- TRPOPPO(+3&2(&6))#09
- .-,&685&(+41


/*

" 7!
 “A Closer Look at Deep Policy Gradients” (ICLR’20) ,
- https://openreview.net/forum?id=ryxdEkHtPS
- http://gradientscience.org/policy_gradients_pt1/

2020/2/28



$

2

研究の動機 • Deep RL手法はしばしば（教師有り学習手法と比べて）実行の結果が安定しない再現性が低い • 結局のところ何故そのアルゴリズムが機能するのか，何が重要なのかの理解が不十分 • ▶ 特にdeep policy gradient (TRPOとPPO) に関して調査 2020/2/28 3

TRPO vs. PPO TRPO PPO 2020/2/28 4

[beta]

OpenAI Baseline実装
• https://github.com/openai/baselines
• 以下の論文には書いていない最適化が含まれる (“code-level optimization”)
1. Value function clipping
2. Reward scaling

*8

3. Orthogonal initialization and layer scaling



4. Adam learning rate annealing

Adam%40

5. Reward Clipping

[-5,5][-10,10]

6. Observation Normalization

(50,

7. Observation Clipping

[-10,10]

8. Hyperbolic tan activations

policy

9. Global Gradient Clipping

$

2020/2/28

72

7


,-6

+&"

'/"

value network )#

912l2.!23



5

https://github.com/openai/baselines

どの最適化が実際に有効か? walker2d-v2 humanoid-v2 • 先述の手法うち1~4について有無(2^4=16通り)で実験 (時間的制約のため) 2020/2/28 6

この実験から分かること • 全ての組み合わせを試した訳ではないが，PPOにおいて 1) reword scaling 2) adam learning rate scaling 3) orthogonal initialization は重要 • このことは論文に書いてあるアルゴリズムだけでは分からない • より分析をするために，PPOの実装として先述のcode-level optimizationを全て省いたPPO-Mを利用して実験 2020/2/28 7

実験1: TRPOとPPOのTrust Region • PPO-MはKL値がiteration増加につれ発散 PPO-Mだけでは信頼区間が保てない 2020/2/28 8

PPO-NoClipcode-level optimization Hopper Humanoid 実験2: PPO clip有無 2020/2/28 nocliptrust region 9

10.

実験3: vs. TRPO w/ code-level optimization - code-level optimization TRPO/PPO - code-level optimization ! 2020/2/28 reward 10

11.

実験4: PPO vs no-clip - clip 2020/2/28 11

12.

まとめ • 実験的に，PPOの性能の優位性はclippingではなく，code-level optimizationによるものが示されたどのcode-level optimizationが，何故効くのかまでの理論的分析は無し • Deep RL手法をより理解するには，もっと構成要素をモジュラー化して，何がどれだけ性能に影響するのか分析する必要がある (著者の主張) 2020/2/28 12