[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS

>100 Views

March 23, 18

スライド概要

2018/02/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] 報酬�期待値から報酬�分布� Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

�� = ��報酬を期待値で�なく分布で�う / ● 一�的な�化学習��報酬�期待値だけ考える ● ��期待値をとる��分布 (‘value distribution’) を求める

��報酬を期待値で�なく分布で�える意味 ● ● 期待値�高い行動を��何も��ないしかし、、、分布�方が�しい場合もある�で�？ ○ ○ ○ 分布�方が�報�がある �れ値��を�けにくいリスク��い行動を��たい期待値�同じだけどリスク� 赤 > 緑引用)https://deepmind.com/blog/going-beyond-average-reinforcement-learning/

��化学習と��連 ● ��テク��ク�一つとして、少しずつ使われている ○ ○ ○ ○ A Distributional Perspective on Reinforcement Learning [Bellmare +, 2017] (DQN + distributional) Rainbow [Hessel +,2017] (DQN + distributional) D4PG [Barth-Maron +, 2017](DDPG + distributional) Reactor [Gruslys+, 2017] (ACERっぽい何か + distributional)

発表�� ● DQNに報酬�分布を�ち�んだ論文 ’A Distributional Perspective on Reinforcement Learning’ を�に、最近��について��ます ● 発表に出てくる論文 ○ ○ ○ ○ ○ Parametric Return Density Estimation for Reinforcement Learning A Distributional Perspective on Reinforcement Learning DISTRIBUTIONAL POLICY GRADIENTS (THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR REINFORCEMENT LEARNING) Distributional Reinforcement Learning with Quantile Regression

ベルマン方程式�おさらい ● ベルマン方程式 ● ベルマン作用素�縮小写像な�で�り�し適用するとn→∞で不動点に収束する

分布に拡張した場合�論点 ● ● ● 分布に何を用いるか分布間距離をどう測定するかベルマン方程式��動がどうなる�か

Parametric Return Density Estimation for Reinforcement Learning ● ベルマン方程式を分布(ガウス分布、ラプラス分布)�場合に拡張し、 KL-divergence最小化で分布間距離を近づけて更新 ● 分布を考慮したことでrisk-sensitiveな行動がとれる分布を考慮したことでこちらを見れる ��Q-learningで見る位置

A Distributional Perspective on Reinforcement Learning (ICML 2017) ● ● ● 分布版�ベルマン方程式が縮小写像になるかどうかをWesserstain距離を用いて分析 ��報酬�分布をガウス分布で�なくカテゴリカル分布でモデル化 DQNと組み合わせて実験

10.

Distributional Bellman Equation Q��ベルマン方程式�(見た��)自然な拡張

11.

Wesserstein距離 ● Wesserstein距離�定義 (U, V�確率��、 F, G�U, V��確率密度�� ) ● 意味 : 分布を移動させる�にどれくらいコスト(距離×確率密度)がかかるか

12.

Wesserstein距離 1 F G 0 曲線で囲まれた部分が(1次)Wesserstain距離

13.

Wesserstein距離がもつ望ましい性質 ● ● 分布版ベルマン作用素が縮小写像になっていることを�す�に使う例え�KL-divergenceで�これら�性質��り�たない

14.

分布版ベルマン作用素�Wesserstein距離において縮小写像 ��Wesserstain距離�性質を使って�明できる (定義) P1&P2を使う ● つまり、分布版ベルマン作用素��一�不動点Zπをもち、方策評価をすると正しく Zπに収束してくれる ● KL-divergenceなど��距離��で��り�たない�らしい�

15.

分布版最適ベルマン作用素�場合 ● まず用��定義. 最適価値分布�、�に期待値が最適なQ値に一致するだけでなく、最適方策�報酬分布に一致するも�とする ● 分布版最適ベルマン作用素�定義

16.

分布版最適ベルマン作用素によって期待値EZ�収束する ��最適ベルマン作用素�縮小写像 (append��明,期待値抜けてる？) 最適ベルマン作用素も縮小写像になってくれてそう？

17.

しかし、分布版最適ベルマン作用素�縮小写像でない ��、Z��最適Q値に収束するけど、Z自��最適方策�連続による報酬分布にまでしか収束しないということ

18.

最適ベルマン作用素が縮小写像にならない例上��例で�、

19.

Wesserstein距離による分析�まとめ ● 分布版�ベルマン作用素�Wesserstein距離において縮小写像 ○ ○ ● Wesserstein距離��で��り�たない (��Wesserstein距離で�かる�が良さそう？ ) 最適ベルマン作用素�場合�、期待値�最適値に収束してくれるが、分布自�� より大きな集合までしか収束しない

20.

��報酬分布�推定アルゴリズム ● カテゴリカル分布でモデル化する(�行��ガウス分布など) ● ● ● 表現力が高く、計算コストもほどほどカテゴリ��によって表現力が�化する弱点�、分布�最大値�最小値を�め�ちすること

21.

��報酬分布�推定アルゴリズム ● ● 分析から、(不��で�あるけど)Wesserstein距離が優れていそうしかし、Wesserstein loss�SGDで最適化すると勾配がbiased ○ ● Cramer GAN�論文で�ベル�ー�分布�場合�み�明があるそこで、Wesserstein�使用を��ーリステ�クスで��

22.

��報酬分布�推定アルゴリズム ● (c)で移動した分布を、(d)でもともと�binに分類する ● つまり��ント��ーで、結局KL-divergence最小化をしている

23.

結局、Wesserstein距離�どうなった�？ ● ● ● 使ってない ‘We note that, while these algorithms appear unrelated to the Wasserstein metric, recent work (Bellemare et al., 2017) hints at a deeper connection’らしいけど、よくわからなかったこ�点�後続��で少し��ーされている

24.

アルゴリズム ● ● 行動�定�Z�期待値�最大化するように行う(=ただ�Q-learningと同じ) こ�論文�主張�、たとえ期待値を最大化するように行動したとしても、学習を期待値�MSEで�なく分布間距離を�に行うことで性能が��するということ

25.

Atariで�実験結果 ��DQNシリーズよりも良い

26.

カテゴリ��いによる�� カテゴリを増やすと良い、少なすぎると表現力が足りなくてDQNより悪化する

27.

DISTRIBUTIONAL POLICY GRADIENTS(ICLR 2018) ● DDPGに��工夫を�め合わせたD4PG(Distributed Distributional DDPG)を提案、DDPG版�Rainbow的な論文 ● 用いた工夫 ● Atariで�なく連続値制御��実験をたくさんやっている ○ ○ ○ ○ multi-step return prioritzed experience replay distributional RL 分散学習(distributed)

28.

��実験�報酬�分布をど�分布でモデル化す�きか ● カテゴリカル分布>混合ガウス分布、 [Bellmare +, 2017]�主張を��する結果が得られた

29.

実験結果 ● multi-step > distributional > prioritized��に大きな効果 ● prioritized�1-step D3PG�場合大きく��ーマンスがdropする場合がある

30.

わかったこと ● ditributional RLがDDPGにも有効であることが実験で確かめられた ● 連続値制御タスクにも使える ● ただし効果�ほどほどだった(Rainbowを見る�りで�、DQNでもそう)

31.

THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR REINFORCEMENT LEARNING(ICLR 2018) ● actor-criticを��な工夫を用いて��、そ�一つとして報酬�分布を考慮した Retrace�分布版であるDIstributional Retraceを提案している ● D4PGに比�るとこ�論文で提案した�リ��ル�工夫がある ● 弱点として、実験が弱い ○ ○ ● Atari�み Rainbowが後から出てきて、良さがわかりづらくなった ��間がなかった�で�しく�論文�んでください

32.

Distributional Reinforcement Learning with Quantile Regression ● C51で諦めたWesserstein�最小化を、報酬分布をQuantile distributionでモデル化することで可能にした

33.

Quantile Distributionによる報酬分布�モデル化こっちを等間隔に分割 C51で�bin�分割� ● bin�最大、最小を�める��がなくなる、Projection Stepもいらない ● �論文で�これによりUnbiasedにWesserstein lossを最小化できると主張

34.

Quantile Regressionによる1-Wesserstein�unbiasedな最小化 ● ● 1-Wesserstein(赤部分)を最小化するQuatile distribution��で求められる分位点で�Quatile Regressionで求められる Quatile Regression loss�勾配�SGDでもunbiased

35.

中間点で1-Wessersteinが最小化される直感的な説明 z a b Δz zを左にずらしていくと、a*Δzが増え、b*Δzが減る増�分と減少分が�り合う�がち�うど中間点で、それより左�どちらに動かしても赤い部分��増える

36.

Quantile Projectionとベルマン作用素�縮小写像最適ベルマン作用素で�ない？

37.

アルゴリズム

38.

1-Wessersteinが学習とともに減っている ● Policy Iteration + MCで推定した擬似的な正解と報酬分布を比較 ● 1-Wessersteinがきちんと減っている(e)

39.

Atari�結果も��

40.

��まとめ ● ��期待値�みを考慮していた報酬�分布を考えることにより性能が�上する ● DQNだけでなく、actor-critic��適用も出てきた ● うまくいく��考�、収束性��論的な分析とアルゴリズム��発�まだ発�� 上 ● 分布を考慮している�に結局期待値に�づいて行動している、risk-sensitive RLなど��用もまだ

[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト