【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介

234 Views

October 08, 21

#deep learning #Deep Learning #Spectral Normalisation #Reinforcement Learning #Adam #Atari

スライド概要

2021/10/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介 Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題目： Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspective 著者： Florin Gogianu, Tudor Berariu, Mihaela Rosca, Claudia Clopath, Lucian Busoniu, and Razvan Pascanu 採録： ICML2021 概要： Atariゲームを用いた数値実験価値関数の中間層を正規化しC51・RAINBOWを上回る性能を確認 MinAtarを用いた数値実験高性能を発揮するAdamのパラメータの幅を確認スペクトルノルムを用いてスケジューリングする手法を提案 ※ 注釈無しの図は本論文から抜粋英語表記は本論文と対応 2

背景強化学習の課題学習が不安定になりやすい高性能を発揮するパラメータの幅が狭く調整が難しい他分野での取り組み Generative Adversarial Network (GAN)では Spectral Normalisation (SN)によって安定した学習を実現[1] →強化学習にも適用することで課題解決につながると着想 [1] T. Miyato et al, "Spectral normalization for generative adversarial networks," 2018. 3

Spectral Normalisation 関数𝑓がリプシッツ連続を満たす𝑘（𝑘 ≥ 0）が存在（𝑘：リプシッツ定数）（例）線形写像𝑦 = 𝑊𝑥が1-リプシッツ（𝑘 = 1）とはが任意𝑥に対して成立 Spectral Normalisation（1-リプシッツ制約） 𝜌：行列𝑊の最大特異値 4

スペクトルノルムを用いた正規化の手法予備実験の結果すべての層にSNをかけると性能が低下 →ネットワーク全体が連続であることが最適とは限らない方針全体ではなく一部の層の連続性で性能が向上する可能性がある → SNの対象となる層を限定する本論文での表記 SN[-1]: 出力層をSN SN[-2]: 出力層の１つ前をSN （Pythonのリスト要素のインデックス） 5

Atariゲームを用いた数値実験① Atariの54種類のゲームで獲得したスコアの平均を比較 RAINBOW C51（Categorical DQN） C51 + SN[-2]（出力層の1つ前の層を正規化）中間層の正規化 →C51・RAINBOWを上回る性能を発揮 6

Atariゲームを用いた数値実験② C51以外のアルゴリズムを用いたスコアの平均を比較 DQN DQN + SN[-2]（出力層の1つ前の層を正規化） DQN + SN[-3] DQN + SN[-4] ※ハイパーパラメータは全て同一中間層のいずれかをSNすることで性能改善 → 強化学習でのSNの有効性を示唆 7

Atariゲームを用いた数値実験のまとめ DQNとC51の数値実験でSNの有効性を示唆 → 性能改善の要因調査が必要 ※最適化アルゴリズムはAdamを使用 8

性能改善の要因調査解明すべき点 SNは最適化の性能にどう影響しているか？実験内容 Adamのパラメータ（𝜂, 𝜀）、中間層の数、ユニット数を変化させて性能を確認学習環境はMinAtarを使用 Atariゲームの縮小版（10 x 10の解像度）以下４つのゲームを使用 Sequest, Breakout, Asterix, Space Invaders 9

10.

Adamのハイパーパラメータと性能の関係パラメータの組み合わせを変更し性能を確認高い性能を発揮パラメータ（𝜂・𝜀） 1) ベースラインのアルゴリズムより性能が向上 2) 高性能を発揮するパラメータの幅が広がる 3) 学習性能の頭打ちを回避 10

11.

SNの対象範囲と性能の関係 SNの対象とする層数を変更し性能を確認 DQN DQN + SN[-2]（出力層の1つ前の層を正規化） DQN + SN[-2,-3] DQN + SN[-2,-3,-4] DQN + SN[-2,-3,-4]は性能低下 → SNの対象とする層数は半分以下が望ましい（関連研究[2,3]の結果と同様の傾向を確認） [2] Y. Yoshida and M. Takeru, "Spectral norm regularization for improving the generalizability of deep learning,” 2017. [3] M. Cisse et al, "Parseval networks: Improving robustness to adversarial examples," 2017. 11

12.

提案手法 – SNと勾配計算の関係提案手法①（divOut） SNされていないネットワークに対し学習率𝜂をノルムでスケジューリング → SNと同等のパラメータ更新式導出の流れニューラルネットワーク MLP scaling SN + bias 重み行列𝑊𝑖 のSNとバイアス𝑏𝑖 をスケーリング， 𝜕ℒ → 𝛿𝐿 ≔ 𝜕𝑧 と定義すると𝜌−1 でスケーリングされる 𝐿 12

13.

提案手法 – SNと勾配計算の関係提案手法②（divGrad） SNされていないネットワークに対し勾配をノルムでスケジューリング例）Pytorch optimizer.step()の実行直前にweightの勾配をノルムで割る提案手法③（mulEps） SNされていないネットワークに対しAdamのパラメータ𝜀をノルムでスケジューリング → divGradの近似と近似して代入 13

14.

MinAtarを用いた数値実験提案手法の性能を確認３手法（divOut, divGrad, mulEps）はSNと同等の性能を発揮 divGradとmulEpsは全ての層に適用した場合でも高性能 → ノルムでスケジューリングすることでDQNの性能が向上 14

15.

まとめ Atariゲームを用いた数値実験 SNを強化学習の価値関数に適用中間層をSNすることでC51・RAINBOWを上回る性能を発揮 MinAtarを用いた数値実験高性能を発揮するAdamのパラメータの幅が広がる SNと勾配計算の関係を明確化 SNと同等以上の性能をノルムを用いたスケジューリングで実現 15