[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination

106 Views

March 13, 20

スライド概要

2020/03/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Dream to Control: Learning Behaviors by Latent [DL Papers] Imagination Hiroki Furuta http://deeplearning.jp/

2.

書誌情報 • タイトル: Dream to Control: Learning Behaviors by Latent Imagination • 著者: Danijar Hafner12, Timothy Lillicrap3, Jimmy Ba1, Mohammad Norouzi2 • 所属: 1University of Toronto, 2Google Brain, 3DeepMind • 会議: ICLR2020, Spotlight • URL: https://openreview.net/forum?id=S1lOTC4tDS, https://arxiv.org/abs/1912.01603 • 概要: 画像入力でlong-horizonなタスクを潜在空間における想像(latent imagination)のみによって解く, モデルベース強化学習のアルゴリズム, Dreamerを提案 2

3.

研究背景 • 深層学習によって, 画像入力から将来の予測が可能な潜在空間のダイナミク スモデルを学習することが可能になった • ダイナミクスモデルから制御方策を獲得する方法はいくつか存在 ➢ 予測される報酬を最大化するようにパラメタ化した方策を学習 • Dyna[Sutton 1991], World models[Ha and Schmidhuber 2018], SOLAR[Zhang et al. 2018]など ➢ Online planning • PETS[Chua et al. 2018], PlaNet[Hafner et al. 2018]など • Neural Networkによるダイナミクスモデルでは勾配が計算できることを利 用してlong-horizonなタスクを解きたい ➢ 固定長のimagination horizon(ダイナミクズモデルから生成される軌道)における報酬 の最大化を図ると近視眼的な方策に陥りがちなため 3

4.

貢献 • 潜在空間での想像(latent imagination)のみにより, long-horizonなタスクの方策を学習 ➢ 潜在変数(state)から長期的な価値を推定し, 方策の更新にダイ 先行研究(PlaNet) とほぼ同じ ナミクスモデルを通した価値関数の勾配を直接利用する(後述) • DeepMind Control Suiteの画像入力のControl タスクで サンプル効率, 計算時間, 性能の面で, 既存のモデルベー ス/モデルフリーのべンチマークを上回った • 状態表現学習(Representation Learning)というよりは, 新規性 モデルベース強化学習の新たなアルゴリズムついての 論文 (本資料の図は断りがない限り論文より引用) 4

5.

準備: 問題設定 • 画像入力なので部分観測Markov Decision Process(POMDP)を仮定 ➢ 離散 time step 𝑡 ∈ 1; 𝑇 ➢ エージェントの出力する連続値action(ベクトル) 𝑎𝑡 ~ 𝑝 𝑎𝑡 𝑜≤𝑡, 𝑎<𝑡 ➢ 観測(今回は画像)と報酬(スカラー) 𝑜𝑡, 𝑟𝑡 ~ 𝑝 𝑜𝑡, 𝑟𝑡 𝑜<𝑡, 𝑎<𝑡 ) • 今回は環境は未知 ➢ 目標は期待報酬の和を最大化する方策を学習すること Ε𝑝 (∑𝑇𝑡=1 𝑟𝑡 ) DeepMind Control Suitから20 タスクを実験に使用(図はそのう ちの5つの例) 5

6.

準備: エージェント • モデルベース強化学習でimaginationから学習するエージェントは以 下の3つの要素を繰り返すことで学習する[Sutton, 1991] ➢ ダイナミクスモデルの学習 • 今回はlatent dynamics ➢ 方策の学習 • 今回は方策の更新にダイナミクスモデルを通した価値関数の勾配を直接利用 ➢ 環境との相互作用 • ダイナミクスモデルのデータセットを拡張するため 6

7.

アルゴリズム 7

8.

ダイナミクスモデルの学習: Latent dynamics Dreamerで用いるLatent dynamicsは3つのモデルからなる • Representation model 𝑝(𝑠𝑡 |𝑠𝑡−1, 𝑎𝑡−1, 𝑜𝑡 ) ➢ 観測𝑜𝑡 とaction 𝑎𝑡−1 からマルコフ性を仮定した連続値ベクトルのstate(潜在変 数) 𝑠𝑡 をエンコード • Transition model 𝑞(𝑠𝑡 |𝑠𝑡−1, 𝑎𝑡−1 ) ➢ 観測𝑜𝑡 によらない潜在空間上の遷移のモデル (latent imaginationに使用) • Reward model 𝑞(𝑟𝑡 |𝑠𝑡 ) ➢ state 𝑠𝑡 における報酬𝑟𝑡 の予測モデル (latent imaginationに使用) 8

9.

ダイナミクスモデルの学習: Reward Prediction ダイナミクスモデルの学習には代表的な3つのアプローチがある • Reward Prediction ➢ 前ページで説明したRepresentation model, Transition model, Reward model を, 行動と過去の観測で条件づけられた将来の報酬の予測から学習する方法 ➢ 大量で多様なデータがあればControl taskを解くのに十分なモデルが学習でき る(らしい) • Reconstruction • Contrastive estimation 9

10.

ダイナミクスモデルの学習: Reconstruction Reconstruction • PlaNet[Hafner et al. 2018]同様, 観測の画像の再構成によって学習 ➢ Observation modelは学習時のみ使用 ➢ Transition modelとRepresentation modelはRecurrent State Space Model(RSSM)で実装 ※PlaNetについて詳しくは谷口さんの過去の輪読資料を参照してください https://www.slideshare.net/DeepLearningJP2016/dllearning -lat ent-dynamicsfor-planning-from-pixels 10

11.

ダイナミクスモデルの学習: Latent dynamics Contrastive estimation • 画像の再構成以外の方法としてNoise Contrastive Estimation(NCE)に よる学習がある ➢ ReconstructionのObservation modelをState modelに置き換える Constructive Estimation Reconstruction ➢ 実験では3つの性能を比較 11

12.

Latent Imaginationによる方策の学習 • State 𝑠𝑡 (潜在空間)にはMDPを仮定 • 過去の経験の観測𝑜𝑡 からエンコードされた𝑠𝑡 をスタートとして, Transition model 𝑠𝜏 ~ 𝑞(𝑠𝜏 |𝑠𝜏, 𝑎𝜏 ), Reward model 𝑟𝜏 ~ 𝑞(𝑟𝜏 |𝑠𝜏 ), 方策 𝑎𝜏 ~ 𝑞 𝑎𝜏 𝑠𝜏 を順番に予測することで有限のhorizon 𝐻のimagined trajectoryを出力 12

13.

Latent Imaginationによる方策の学習 • Value model 𝑣𝜓 (𝑠𝜏 )で, 現在のstate 𝑠𝜏 以降のエージェントの期待報酬 を推定する • Neural Netで方策と価値関数を近似し, Actor Criticのような枠組みで 学習を進める • 方策の学習時にはReparameterization trickを使う 13

14.

Long Horizonな価値の推定 • Value model 𝑣𝜓 (𝑠𝜏 )を用いて, k-step先まで考慮した価値関数𝑉𝑁𝑘 と,異 なる長さ𝑘について指数的に重み付けして平均された価値関数𝑉𝜆 の値 の推定を行う(本論文の要点1) ➢ 𝑉𝑅 はValue modelを持たない価値関数(実験で𝑉𝜆 の効果を比較) ➢ (今回の実験では𝐻 = 15ぐらいでいいらしい) 14

15.

学習の目的関数 • 方策(Action model)と価値関数(Value model)の更新のために, imagined trajectory中の全てのstate 𝑠𝜏 について価値関数𝑉𝜆 (𝑠𝜏 )を計算 • Actor-Criticのようにそれぞれの目的関数について交互に更新 • 価値関数の方策のパラメータ𝜙に関する解析的な勾配が計算できる(本 論文の要点2) ➢ 𝑉𝜆 は報酬𝑟𝜏 とValue model 𝑣𝜓 から求まり, 報酬とValueはimagined state 𝑠𝜏 と imagined action 𝑎𝜏 から求まるため(全てNNでモデル化) 15

16.

既存研究との差分 • DDPG, SAC: 方策の目的関数にQ-valueを用いている点で異なる • A3C, PPO: これらは方策勾配のvarianceを下げるためにベースライン として価値関数を用いるが, Dreamerは直接価値関数を微分する • MVE[Feinberg et al. 2018] , STEVE[Buckman et al. 2018] : 複数ステップ先を考慮し たQ-learningをダイナミクスモデルを用いて行うが, ダイミクスモデ ルを通した微分を行わない点と, Dreamerは価値関数𝑉のみで学習する 点で異なる 16

17.

実験: ベースライン手法との比較 • 画像入力のPlaNet, D4PG, MDPで学習させたA3Cと比較 ➢ Dreamerはサンプル効率よくモデルフリーの手法に近い性能 ➢ 20taskの平均で823(PlaNetは332, D4PGは109stepで786) 17

18.

実験: 価値関数𝑉𝜆 の検証 • Dreamerはlong-horizonの信用割り当てが必要なAcrobotやHopperで もうまくいっている ➢ 長期性を考慮した価値関数𝑉𝜆 が効果的(Horizon 𝐻に対してもロバスト) 18

19.

実験: ダイナミクスモデルの比較 • 異なるダイナミクスモデルの目的関数について性能を比較 ➢ Reconstructionが最も良く, Contrastive estimationでも半分のタスクは解ける がReward predictionでは不十分 19

20.

まとめ • 潜在空間での想像(latent imagination)のみにより, long-horizonなタ スクの方策を学習する手法 Dreamerを提案 • ダイナミクスモデルとimagined trajectory全体を通して, 方策の価値 関数に関する勾配を直接計算 感想 ➢ ダイナミクスモデルや学習方法についての拡張性が高い ➢ 画像入力のロボットアームのタスクでも解けるのか気になる 20