[DL輪読会]Conservative Q-Learning for Offline Reinforcement Learning

2.3K Views

July 03, 20

#deep learning #Deep Learning #Reinforcement Learning #Conservative Q-Learning #Offline Learning #Distributional Shift

スライド概要

2020/07/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Conservative Q-Learning for Offline Reinforcement Learning Hiroki Furuta http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル: Conservative Q-Learning for Offline Reinforcement Learning • 著者: Aviral Kumar1, Aurick Zhou1, George Tucker2, Sergey Levine12 • 所属: 1UC Berkeley, 2Google Research, Brain Team • URL: https://arxiv.org/abs/2006.04779 • 概要: オフライン強化学習で、データセットと学習方策の distributional shiftによって起こる価値の過大評価を解決する Conservative Q-Learning (CQL)を提案した 2

https://arxiv.org/abs/2006.04779

研究背景 • 最近Offline RL(Batch RL, Fully Off-Policy RL)が流行っている ➢ ある挙動方策（複数の場合もある）によって集められたデータセットのみから学習方策を最適化、環境との相互作用はなし、実応用向き • BCQ[Fujimoto+ 2018], BEAR[Kumar+ 2019], BRAC[Wu+ 2019], AWR[Peng+ 2019], ABM[Siegel+ REM[Agarwal+ 2020] , MOReL[Kidambi+ 2020] , QR-DQN[Dabney+ 2018], , MOPO[Yu+ 2020], BREMEN[Matsushima+ 2020] 2020] • Offline RLではデータセットと学習方策のdistributional shiftが大きな問題となる ➢ 通常のOff-Policyの手法ではデータが増えて緩和される • 既存手法は学習方策が推定した挙動方策（データセットを集めた方策）から大きく離れないような制約をかけるが、不十分である 3

準備：問題設定 • 通常のMDP: • データセットD を集めた挙動方策: • 挙動方策の元でのdiscounted state-marginal distribution: • Q-Learningはベルマン最適作用素を繰り返し適用することでQ関数を学習する手法（actionが高次元の場合はCEMなどでmaxを計算） • Actor-Criticでは、 4

Distributional Shift • 挙動方策の下で集めたデータセットでQ関数と方策を交互に最適化 • Policy evaluationにおいて、学習方策に関する期待値をとってTarget Valueの値を計算 • 学習方策からはデータセットの分布外（OOD）のactionがサンプルされる可能性があり、OODのactionの価値が過大評価される Distributional Shiftの問題に繋がりうる 5

Conservative Off-Policy Evaluation • 特定の方策𝜇に関するQ-valueの期待値を最小化する項を追加 Policy evaluation ➢ 十分大きな𝛼の下で、 • データセットの方策に関するQ-valueの期待値を最大化する項を追加 Q-valueの期待値についてよりtightなバウンドとなる ➢ 十分大きな𝛼の下で、 Policy evaluation 6

Conservative Q-Learning for Offline RL • 価値関数に関する最適化問題に加えて、方策に関する最適化も考慮 • 上式によるQ-Learning (or Actor-Critic)をCQL(ℛ)と呼ぶ ➢ ℛは方策に関する正則化項で、事前分布ρとのKLやエントロピーℋを用いる 7

Variants of CQL • CQL(ℋ)の目的関数: 方策𝜇に関して、 • 𝑓 = 𝑄として前項の期待値の計算に代入するとCQL(ℋ)の目的関数が得られる 8

Gap Expanding • 十分に大きい𝛼の下で、 • CQLではデータセットの分布内の方策によるQ-valueの期待値と分布外の方策によるQ-valueの期待値の差が、真の価値関数による値の差よりも大きくなる • 分布外のQ-valueが低めに評価されるので、相対的に正確な分布内の Q-valueに基づいて方策を学習できる 9

10.

CQL vs BEAR(既存手法) • OODのQ関数の値とデータセット内のQ関数の値の差分布外の方策によるQ-valueの期待値が分布内の方策によるQ-valueの期待値より小さくなっている 10

11.

アルゴリズム • SACなど既存のQ-LearningやActor-Criticのコードに20行弱加えるだけの簡潔な修正で実現できる 11

12.

評価実験: 環境など • D4RL[Fu+ 2020] のベンチマーク環境で評価 ➢ MuJoCo Gym: HalfCheetah, Hopper, Walker2d ➢ AntMaze: MuJoCoのAntで迷路を解くタスク ➢ Adoit: 24-DoFのハンドを制御、ペン回し、釘打ち、ドア開け、ボールのpick & place ➢ Kitchen: 9-DoFのマニピュレーターで複数物体のマニピュレーション 12

13.

結果: MuJoCo Gym • Expertのパフォーマンスを100に正規化したスコア • 様々なデータセットで既存手法を上回る成績 13

14.

結果: D4RL • Expertのパフォーマンスを100に正規化したスコア • AdoitではKLによる正則化の方が良い(CQL(ρ)) 14

15.

結果：Discrete Action • 離散actionのAtariのゲーム環境にCQLを適用 • online DQN agentが集めた最初の1%(top)/10%(bottom)のデータ 15

16.

Analysis of CQL • (学習したQ関数の期待値) - (真の価値の期待値) • CQL(ℋ), CQL(データセットの方策による価値の最大化なし), Q関数のアンサンブル, BEAR(Offlineの既存手法)で比較 • 学習されるQ関数はtightな下界になっている参考: CQL(データセットの方策による価値の最大化なし) 16

17.

まとめ • オフライン強化学習で、データセットと学習方策のdistributional shiftによって起こる価値の過大評価を解決するConservative QLearning (CQL)を提案 • 真の価値関数の値のtightな下界を与えるQ関数を学習できる • データセットの分布内のactionのQ関数の期待値と分布外のactionのQ 関数の期待値の差が、真の価値関数による値の差よりも大きくなる性質によってdistributional shiftの問題を解決 17