[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control

627 Views

September 04, 20

#deep learning #Deep Learning #Reinforcement Learning #Policy Optimization #Maximum a Posteriori #V-MPO

スライド概要

2020/09/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control Hiroki Furuta http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル: V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control • 著者: H. Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W. Rae, Seb Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, Nicolas Heess, Dan Belov, Martin Riedmiller, Matthew M. Botvinick • 所属: DeepMind • URL: https://arxiv.org/abs/1909.12238 • 概要: On-Policyの方策勾配法は, 勾配の分散の大きさやエントロピー正則化の調整で性能が制限されていた. 方策勾配法の代替として, EM アルゴリズムによる方策反復法のV-MPOを提案した. 2

https://arxiv.org/abs/1909.12238

研究背景 • 深層学習×強化学習によって様々な分野で人間を超えた ➢ Dota2[OpenAI 2018], Capture the Flag[Jaderberg+ 2019], StarCraftⅡ[DeepMind 2019], In-Hand Manipulation[OpenAI 2018]など • これらにはOn-Policyの方策勾配法ベースの手法が用いられてきた ➢ Proximal Policy Optimization(PPO)[Schulman+ 2017], Importance-Weighted ActorLearner Architecture(IMPALA) [Espeholt+ 2018]など • On-Policyの方策勾配法にはいくつか課題が存在 3

研究背景 • 特に高次元行動空間の場合, 方策勾配法は勾配の分散が大きいことがパフォーマンスを制約してしまう • また実装上, エントロピー正則化項のチューニングが重要となる • 方策勾配法とは別のアプローチとして, まず更新のターゲットとなる最適な方策を計算し, そのターゲット方策に近づける方向にパラメータを更新する方法がOff-Policyの手法で存在 ➢ Maximum a Posteriori Policy Optimisation (MPO)[Abdolmaleki+ 2018] ➢ 方策勾配法は, 方策勾配の方向に従って直接パラメータを更新する 4

https://arxiv.org/abs/1806.06920

問題設定 • 通常の強化学習と同じく, 状態𝑠, 行動𝑎, 初期状態分布𝜌(𝑠0 ), 遷移確率 𝑝(𝑠 ′ |𝑠, 𝑎), 報酬関数𝑟(𝑠, 𝑎), 割引率𝛾 ∈ [0, 1]からなるマルコフ決定過程 (MDP)の下で方策𝜋𝜃 (𝑎|𝑠)を最適化 ➢ 𝜃はニューラルネットワークのパラメータ • 強化学習は累積期待報酬を最大にする方策を見つける問題 5

V-MPOの大まかなPseudo Algorism V-MPOは以下を反復する方策反復法として考えられる • Policy Evaluation ➢ 状態価値関数𝑉(𝑠)を学習 • Policy Improvement ➢ EMアルゴリズムによって方策を改善 ➢ E-Step:更新のターゲットとなる最適な方策をKL制約の下で求める ➢ M-Step:ターゲット方策に近づく方向にKL制約の下でパラメータを更新する 6

関連研究 • パラメータの更新幅をKL制約によって制限 ➢ TRPO[Schuluman+ 2015], PPO[Schulman+ 2017]: V-MPOのE-StepのKL制約に相当 • 強化学習×EMアルゴリズム ➢ MPO[Abdolmaleki+ 2018]: Off-Policyバージョン, Q関数を用いる ➢ REPS[Peters+ 2010]: M-StepにKL制約を用いる, NNではうまく行ってない ➢ 他にもRWR[Peters+ 2007]などもEMアルゴリズムによる • Policy ImprovementがSPU[Vuong+ 2019]と類似 ➢ M-Stepの最適化の違いによりSPUのアルゴリズムはPPOに近い 7

Policy Evaluation • n-step先まで考慮したTD学習で状態価値関数𝑉(𝑠)を学習 • Policy Improvementで用いるAdvantage関数: • PopArt[van Hasselt+ 2016]による価値の正規化を用いる ➢ Taskごとに報酬のスケールが異なるMulti-taskの設定で提案された手法 8

https://arxiv.org/abs/1602.07714

Policy Improvement in V-MPO • 方策が改善すれば𝐼 = 1, 改善しなければ0のbinary変数𝐼を導入 • 𝐼 = 1で条件付けられた方策のパラメータ𝜃の事後分布(posterior distribution)を考える. ただし, • 次の等式において, 𝑋 → 𝐼, 𝑍 → 𝑠, 𝑎とする下界(Lower Bound) • E-stepで𝜓でKLを最小化, M-Stepで𝜃で下界を最大化して学習 KL 9

10.

E-Step • E-Stepでは下界がlog 𝑝𝜃 (𝐼 = 1)にできるだけ近づくように, つまりKL ダイバージェンスを最小化するような𝜓を選ぶ • つまり, 10

11.

E-Step • これは, state-actionの確率を方策が改善する確率で重み付けしているとみなせる • 直感的に考えると, それぞれの状態で高いadvantageの行動が選ばれているときに,方策が改善する確率は大きいはず 11

12.

E-Step • 厳密には,𝜓は次の制約付き最適化問題のラグランジュ関数を解くことで求められるラグランジュ関数 • E-Stepでは,𝜓について最適化, つまり温度(temperature)𝜂について最適化を行う(双対関数の最小化) 12

13.

M-Step • M-Stepでは事前分布の項log 𝑝(𝜃)を含めて下界の最大化を行う • 事前分布の項を考えずに, 𝜃に依存する項のみ取り出す →方策のパラメータ𝜃に関する, 重みつきの最尤推定のような形に書ける →方策勾配法とは異なった更新方法 13

14.

M-Step • 事前分布の項を次のように近似 ➢ 事前分布に平均𝜇 = 𝜃𝑜𝑙𝑑 , 分散Σ −1 = 𝛼𝐹(𝜃𝑜𝑙𝑑 )の正規分布を仮定した場合に相当 • よって, M-Stepでは次の制約付き最適化問題を解けばよいことになる • E-Step同様にラグランジュ関数を考えるが, M-Stepではラグランジュ乗数𝛼を座標降下法(Coordinate descent)によって最適化ラグランジュ関数 sgはstop gradientの意味 14

15.

実験: Multi-task DMLab-30/Atari-57 • Discrete ControlのMulti-taskの設定で比較 ➢ IMPALAはpopulation-based training(PBT)を用いてハイパラを調整 ➢ R2D2+は個々の環境で学習したもの 15

16.

実験: DMLab-30 • DMLab-30の4つのタスクに関して既存手法/人間と比較 16

17.

実験: Atari-57 • Atari-57の4つのタスクに関して既存手法(R2D2)と比較 ➢ LSTMの代わりにTransformer-XL(TrXL)を用いている 17

18.

実験: Continuous Control • Humanoid run(22-dim)/gaps(56-dim), MuJoCo Ant-v1, Walker2d-v1 でDDPG, SVG, MPO, PPO, SACらと比較 • Off-PolicyのMPOやSACは100倍以上サンプル効率が高いが, 最終的なパフォーマンスはOn-PolicyのV-MPOの方が高い 18

19.

まとめ • 方策勾配法の代替として, EMアルゴリズムによる方策反復法のV- MPOを提案した. • Discrete ControlのDMLab-30, Atari-57やMulti-taskの設定, Continuous Controlのそれぞれの実験で既存手法を上回る • EMアルゴリズムによる方策反復法のアプローチが, 既存の方策勾配法やActor-Criticの手法より良い可能性がある 19