[DL輪読会]強化学習の再定式化について： Beyond Reward Based End-to-End RL

1.1K Views

November 13, 20

#deep learning #Reinforcement Learning #Representation Learning #Data Optimization #RL Algorithms #Summary

スライド概要

2020/11/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP 強化学習の再定式化について： Beyond Reward Based End-to-End RL [DL Papers] Presenter: Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

概要 • 通常の強化学習：期待報酬を最大化するような方策を得ることが目的 – Optimization：REINFORCE – Dynamic Programing：Q学習，TD Learning • 問題点 – – – – 報酬だけからの学習は多くの場合困難（特にスパースリワード）サンプル効率が悪い汎化性能も一般には高くない（特定タスクを解くだけでも大量のサンプルが必要）（総括すると）新しいタスクに簡単に適用できるような状況ではない • 報酬最大化という枠組み自体の再検討（再定式化）が必要では？ – => トピック１：表現学習の活用 – => トピック２：データ最適化（＋教師あり学習） 2

本発表に関係する文献表現学習 • • • • • • “CURL: Contrastive Unsupervised Representations for Reinforcement Learning”, ICML2020 “Decoupling Representation Learning from Reinforcement Learning”, ICLR2021 (Under review) “Unsupervised State Representation Learning in Atari”, NeurIPS2019 “Dynamics-Aware Embeddings”, ICLR2020 “Deep Reinforcement and Infomax Learning”, NeurIPS2020 “Data-Efficient Reinforcement Learning with Self-Predictive Representations”, ICLR2021 (Under review) データセット最適化（１つ目メイン） • • • • • “Reinforcement learning is supervised learning on optimized data”, Berkeley Blog “Hindsight Experience Replay”, NIPS2017 “Training Agents using Upside-Down RL”, arxiv “Reward-Conditioned Policies”, arxiv “Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement”, NeurIPS2020 3

前提知識のリンク集（知らなくてもある程度わかるように話す予定です） • 通常の強化学習 – 強化学習の基礎と深層強化学習 • 教師なし学習（自己教師あり学習）の進展 – [DL輪読会]相互情報量最大化による表現学習 – 最近の自己教師あり学習とcontrastive learningについて 4

表現学習の活用について 5

全体像 • 通常の強化学習 – 報酬を最大化 – End-to-Endで最適化 – Pixelからの学習は難しい（右図） • 表現学習を活用 – 報酬以外の学習信号を活用 – c.f. 世界モデル系の研究 https://bair.berkeley.edu/blog/2020/07/19/curl-rad/ 6

https://bair.berkeley.edu/blog/2020/07/19/curl-rad/

CURL: Contrastive Unsupervised Representations for Reinforcement Learning (ICML2020) Srinivas, Aravind, Michael Laskin, and Pieter Abbeel 全体像 • 正例の作り方 Momentum Encoder 対照推定による損失を追加 (CPCと同じinfoNCE) – 正例：同じ画像に異なるデータ拡張 – 負例：異なるデータ • • • • Momentum Encoderを利用 RLアルゴリズムはタスク依存で選べる画像ベースでやるより大幅に良い DreamerやSLACなどよりもよい 7

CURLの定性的な結果 8

CURL on Atari 9

10.

“Decoupling Representation Learning from Reinforcement Learning” (ICLR2021 Under Review) Stooke, Adam, Kimin Lee, Pieter Abbeel, and Michael Laskin 手法結果：DMControl 結果：DMLab • 時間方向を考慮した対照推定 (infoNCE) • Momentum Encoderを利用 • 様々な環境でUL（エンコーダを対照推定だけで学習）がRL （エンコーダを報酬で学習した場合）と比べて同程度 • Residual MLP:𝑝𝑡 = ℎ𝜓 𝑐𝑡 + 𝑐𝑡 => 報酬なしでエンコーダを学習できた（新規の主張） • SACやPPOと組み合わせ • DMLabでは細かい工夫を入れている 10

11.

Atariでの結果 • AtariでもULは多くの場合うまくいくが，breakoutやspace invadersでは微妙 – ただし，補助タスクとして使うとうまくいく（RL+UL) • 初期値の学習としてULを使うことも効果的 11

12.

Encoder Pre-training (DMControl) • エキスパート軌道（オフラインデータ）を使った事前学習における比較 – オフラインデータを使ってエンコーダを事前学習し，RLの学習時にはフリーズする • CURLやVAE-t（多分先を予測するVAE）と比較しても提案法が良いことが多い => 手法としてもおそらく良いものになっている 12

13.

Multi-Task Encoders (DMControl) • 上４つの環境のみでエンコーダを事前学習して別のタスクに転移 – つまり，HopperやPendulum，Fingerはエンコーダの学習に利用していない • なんと転移できる（！！！） – 特に報酬がスパースな場合，RLより良い 13

14.

Multi-Task Encoders (Atari) • Atariでは必ずしもうまくいくわけじゃない – 7-game: 自分以外の7個の環境で事前学習，8-game: 前環境で事前学習, 1-game: 同じ環境で事前学習 • 転移できるものとできないものがある（当たり前だが） • エンコーダを大きくするとある程度うまくいく（8-game wide） 14

15.

まとめとその他の研究の簡単な紹介 • 強化学習に表現学習を組み込む動き • • 報酬だけでなく，よい状態を学習してから学習する報酬をエンコーダの学習に使わなくても報酬ベースと同等以上の性能が出るような報告も • “Unsupervised State Representation Learning in Atari”, NeurIPS2019 • • 時間方向と空間方向どちらにも対照推定 Decouple論文でAtariの方でベンチマークとして使われている（ACTの方が良い） • “Dynamics-Aware Embeddings”, ICLR2020 • 将来を予測できるような抽象状態と抽象行動を学習，それを方策の学習に使う • “Deep Reinforcement and Infomax Learning”, NeurIPS2020 • • • 将来を予測するように（将来の状態についての情報をよく持つように）学習する未知の環境への適応可能性が上がる（継続学習ができる）．PacManで検証．複雑なタスクで性能が上がる．Procgenで検証． • “Data-Efficient Reinforcement Learning with Self-Predictive Representations”, ICLR2021 (Under review) • • 対照推定ではなく素直な先読み BYOL版という感じ（素直でよさそう） 15

16.

データ最適化 (+ 教師あり学習） 16

17.

元記事 https://bair.berkeley.edu/blog/2020/10/13/supervised-rl/ 17

https://bair.berkeley.edu/blog/2020/10/13/supervised-rl/

18.

教師あり学習としての強化学習：概念的な説明 18

19.

教師あり学習としての強化学習：形式的な説明期待報酬最大化の下界 ※ イェンセンの不等式方策の改善フェーズ与えられた軌道の元での教師あり学習データの最適化 τ~q() が高い報酬をとるようにqを変更（２項目は方策からの軌道との乖離を防ぐ役割） 19

20.

通常の強化学習の考え方との比較 20

21.

データ分布を最適化する方法 • アプローチ – 報酬の高い系列のみを残す – 軌道最適化 – 報酬で重みづけ • q自体も様々な形で表すことができる – 経験分布，生成モデル，etc… • 様々な手法がこの枠組みをとっているとみなすことができる – Advantage Weighted Regression, Self-Imitation Learning, MPO – （手法の詳細追ってないので割愛します） 21

22.

最近の流れ：マルチタスク化 • 得られた軌道が達成しているゴールを，達成したかったゴールだとみなす • すると，マルチタスクな状況ではある軌道が別のタスクにとって役立つということが起こる（つまり，Relabelingによりq(τ）を最適化できる • 参考：Hindsight Experience Replay （DL輪読会中村君資料，松嶋君資料） 22

https://www.slideshare.net/DeepLearningJP2016/dlhindsight-experience-replay-229768708?ref=https://deeplearning.jp/hindsight-experience-replayを応用した再ラベリングによる効率的な強/

23.

マルチタスクの考え方は単一タスクのRLにも拡張できる “Reward-Conditioned Policies” • 報酬で条件づけた方策を作る • 達成した報酬を，達成したかった報酬だと考える – すると，ある報酬を達成する軌道が手に入る • あとはこの軌道を達成するような方策を学習すればよい “Training Agents using Upside-Down Reinforcement Learning” • 報酬とそれを達成する時間（軌道の長さ）で条件づける • つまり報酬を予測するのではなくコマンドとして使う • あとは同様 23

24.

結果 • Upside Downの論文より • 報酬がスパースな場合に特にうまくいく 24

25.

後半まとめ • 強化学習を，教師あり学習の観点で再解釈する試み – 強化学習は最適化されたデータの上で教師あり学習をしている • 特に，再ラベリングによりデータ分布を最適化するような方法が出現している – Hindsight Experience Replay – Generalized Hindsight Experience Replay – Reward Conditioned Policy 25

26.

全体まとめ・感想 • 強化学習における – 前半：表現学習の活用 – 後半：教師あり学習としての再解釈 • どちらも画像領域での成功をより積極的に取り入れる動き – 報酬がスパースな場合への対応，マルチタスク，高速な適応など様々な恩恵が得られる可能性がある • 感想 – 世界モデルは両方のブリッジになるかもしれない（モデルを学習すること自体データ分布を作っているのと同じ） • 例えばモデルからMPCでサンプル作るとか？ – Control as InferenceやAction and Perception as Divergence Minimizationとの関係が気になる 26