[DL輪読会]Shaping Belief States with Generative Environment Models for RL

>100 Views

December 04, 19

スライド概要

2019/07/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Shaping Belief States with Generative Environment Models for RL [DL Papers] Presenter: Masahiro Suzuki, Matsuo Lab http://deeplearning.jp/ 1

2.

輪読内容について • Shaping Belief States with Generative Environment Models for RL – Karol Gregor, Danilo Jimenez Rezende, Frederic Besse, Yan Wu, Hamza Merzic, Aaron van den Oord – DeepMind在籍.⽣成モデル系や世界モデル系でおなじみの研究者たち • エージェントの視点と⾏動だけから,世界の不変的な構造を学習. • 選定理由︓ – これまで輪読した「世界モデルシリーズ」の続編感があったから • TD-VAE[Gregor+ 18]とは(似てるけど)それほど関係しない – Rezendeも世界モデル(Generative World Model)研究の1つと考えている. – Eslami(GQN 1st)も「カメラ位置が与えられない場合のGQN」として絶賛. • 注意︓ – 論⽂では例によって,⾊々話をすっ⾶ばしていきなりモデルが登場している. – なので,背景部分は発表者による補⾜です. 2

3.

提案法の概要図 TD-VAEの時よりはわかりやすい(が,明らかにGregorが描いたとわかる図) 3

4.

研究背景 • 様々なタスクを解くために,タスクに依存しない世界の構造を理解することは重要. – 教師なし学習や⾃⼰教師あり学習 – 理想的には,教師なし学習は,過去の観測情報から世界の不変な表現を学習してほしい. • 例︓複雑な⾵景の中を移動するエージェント – 環境がほぼ静的だとしても,エージェントからの観測は部分的なので,⼤幅に変動する. – この場合,獲得したい不変な表現は環境全体の地図に対応するはず. 𝑎 𝑎 𝑎 𝑎 4

5.

POMDPと信念状態 • 部分観測マルコフ決定過程(POMDP) – 環境の状態を直接的に観測できないMDP – 信念状態(belief-state)𝑏が重要な概念 • 信念𝑏は,過去の全ての観測と⾏動を集約する. 𝑎*+, 𝑠*+, 𝑎*+, 𝑎* 𝑠*+, 𝑠* 𝑏*+, 𝑥*+, • マルコフ性が成り⽴つので, 𝑥* 𝑎* 𝑠* 𝑏* 𝑥*+, 𝑥* 𝑏* = 𝑓(𝑏*+, , 𝑥* , 𝑎*+, ) • 𝑓にはRNNなどを⽤いる – 注︓⼀般に信念状態とは𝑝(𝑠|𝑏)のことを指すが,本発表では本論⽂の表記に合わせた. 5

6.

信念状態を利⽤した未来の予測 • 信念状態を使うことで,観測𝑥*/, の予測モデルは 𝑎*+, 𝑝 𝑥*/, 𝑥, , … , 𝑥* , 𝑎, , … , 𝑎*+, ) = 𝑝 𝑥*/, 𝑏* = 𝑓(𝑏*+, , 𝑎*+, , 𝑥* )) • 𝑠*+, 𝑏*+, と表現できる. 上の条件付き分布が求まれば,全ての観測と⾏動における同時分布は 𝑎* 𝑠* 𝑏* 𝑥*+, 𝑥* 𝑝 𝑥1 , … , 𝑥2/, 𝑥, , 𝑎, , … , 𝑎 2+, ) = 𝑝 𝑥1 𝑏, )𝑝 𝑥3 𝑏1 = 𝑓 𝑏, , 𝑎, , 𝑥1 𝑥*/, … 2 = 4 𝑝 𝑥*/, 𝑏* = 𝑓 𝑏*+, , 𝑎*+, , 𝑥* ) *5, のように,1ステップ先の予測モデルの積で表される. 6

7.

⻑期的⼀貫性の課題 • 現在の世界の信念が獲得されていることが望ましい. – しかし環境が複雑だと,⻑期的な時間依存関係をうまく獲得できないという課題がある [Fraccaro+ 19]. • これはモデルの容量の問題︖ – GQNでは,位置や視点で条件付けた深層⽣成モデルによって複雑な環境が学習できることを⽰した [Eslami+ 18]. -> 深層⽣成モデルは⼗分に世界を学習できる容量を持っている. とすると,原因は容量ではなく,信念状態の条件付けの失敗が原因なのではないか︖ 7

8.

深層⽣成モデルにおける条件付けの課題 • • 表現⼒が必要な深層⽣成モデルでは,⽣成モデルが条件付けられた情報を無視することがある. 例︓VAE – 表現⼒を上げるために,強⼒なデコーダ(PixelCNNなど)を⽤いる. – すると,デコーダのみでデータ分布を近似できるようになり,潜在変数𝑧が無視される現象が発⽣する 𝑝 𝑥 𝑧 ≈ 𝑝(𝑥) [He+ 19] – posterior collapseと呼ばれる • これを解決することが,VAEの⼤きな研究課題の⼀つ 8

9.

予測モデルにおける条件付けの課題 • 予測モデルを学習する場合,予測分布の同時分布の対数尤度を最⼤化する. 2 ℒ = : log 𝑝(𝑥*/,|𝑏* ) *5, • ⽬的関数の各因⼦は1ステップ先の予測なので,数ステップ(𝜅ステップ)前の観測と⾏動がわか れば,⾼精度で決定論的に1ステップ先を予測できてしまう. – つまり各因⼦で信念状態が無視されるようになる. 𝑝 𝑥*/, 𝑏* = 𝑝(𝑥*+>,…,* , 𝑎*+>+,, … ,*+, , 𝑏*+> ) ≈ 𝑝(𝑥*+>,…,* , 𝑎*+>+,, … ,*+,) • 結果的に,⽬的関数全体で信念状態がほとんど学習されなくなる. – ⻑期的な⼀貫性が獲得されなくなり,グローバルな環境の構造も獲得できなくなる. 9

10.

オーバーシューティングの導⼊ • そこで,1ステップ先ではなく数ステップ先の状態をシミュレートし,そこでの予測精度を最⼩化 する. =>オーバーシューティング 𝑎*+, 𝑎* 𝑠*+, 𝑏*+, 𝑠* 𝑎*/? 𝑎*/, 𝑠*, 𝑠*1 ・・・ 𝑠*?/, 𝑏* log 𝑝(𝑥*/? |𝑠*?/, ) 𝑥*+, • • 𝑥* 𝑥*/? オーバーシューティングの遷移には,信念状態とは別のRNNを利⽤. オーバーシューティングが⻑くなるにつれて,⽬標の観測の分布のエントロピーが⼤きくなる. – 決定論的な単峰分布から多峰分布になる. • ⽣成的予測モデル(generative predictive model)では,この効果が⼤きいと考えられる. 10

11.

オーバーシューティングの関連研究 • モデルベース強化学習では,プランニングにオーバーシューティングが有効であることは以前か ら知られている. – Learning awareness models [Amos+ 18] • 数ステップ未来を予測した後に再構成を学習 • モデルベースにおけるオーバーシューティングの初出︖ – PlaNet[Hafner+ 18] • 予測モデルの学習に潜在変数のオーバーシューティングを導⼊することで⻑期の予測に成功 • 詳しくは⾕⼝くん輪読のスライドへ – https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-for-planning-from-pixels • • 従来の研究は,エージェントの性能評価のみで表現の良さを判断 モデルの中で,環境のどのような部分が保持されているかを調べる研究はない. – また,本研究では3つの予測モデルでオーバーシューティングの有効性を確認している. 11

12.

信念状態からの⾼レベル表現の抽出 • ⼀⼈称視点からの観測と⾏動情報から,教師なしで⾼レベルな表現(⿃瞰図)を作ることは⾮常 に難しいタスク. – 既存の研究では,⼈の事前知識を導⼊していた. – ⼈間が解釈できる地図を作成することが主眼. • 𝑎 𝑎 𝑎 𝑎 本研究では,信念状態から位置や⽅向,環境のレイアウトをデコードすることを⽬指す. – そのため,⾼レベル表現は2次元の地図に限定されない. • デコードの際,エージェントの学習には⼲渉しない. – デコーダの学習は,エージェントからの勾配を切って学習 – 位置情報は1層MLP,地図はCNNで学習 12

13.

提案モデル全体のまとめ • • 緑︓環境の情報のエンコーダ ⻘︓信念状態 – ⽅策と価値関数が予測される(Agent Core) • オレンジ︓シミュレーション状態(SimCore) – ある信念状態から,与えられる⾏動を元に任意の未来を予測(オーバーシューティング). – 未来のシミュレーション状態から予測した観測の誤差を最⼩化. • 紫︓信念状態から,位置と地図をデコード 13

14.

実験 • • 実験では,1.環境の表現能⼒ と 2. RLの性能 について確認. 次の3つの軸で検証︓ 1. SimCoreの教師なし学習モデル(予測モデル)の選択 1. action-conditional CPC [Guo+ 18] (本研究とかなり似ている) 2. 決定論的予測モデル 3. ⽣成的予測モデル(ConvDRAW) 2. オーバーシューティングの⻑さ 3. LSTMのメモリアーキテクチャ 1. LSTMだけ 2. LSTM+Kanerva Kanerva machines[Wu+ 18].潜在変数に推論することでメモリを書き込む. 3. LSTM+slot based memory reconstructive memory agent (RMA)[Hung+ 18]で使われていたもの.過去のベクトルを全て保存する. • エージェントの学習 – 分散型RLのIMPALA[Espeholt+ 18]を利⽤ – モデルはエージェントと同時に学習(信念ネットワークを共有) 14

15.

実験1: Random City • Random City︓ – ランダムに⽣成された3D環境 – 上が⼀⼈称の視点,下が上からの図 • モデルアーキテクチャによる信念状態の学習の影響を確認. – 強化学習はせず,ランダムな⽅策と分析のための⽅策で学習 15

16.

実験結果 • 表現のデコード – エージェントが初めて⾒たものは地図上に表⽰される. – 新しい情報が⼊ってきてもこれまでの情報は消えずに保たれている. • ある程度環境内を回った後(170ステップ)にロールアウト – 実際の環境と⽐べて,正しくシミュレートできていることがわかる. 16

17.

実験結果 • 教師なし学習,オーバーシューティング⻑,メモリアーキテクチャでの組み合わせの⽐較. – オーバーシューティングを⻑くすると,デコード精度が向上 – contrastive lossは位置デコーマップを作成しなくても,ある時点について他の時点と区別するのは容易 だから︖ – ドの精度はいいが,マップはだめ – マップは⽣成的予測モデルが⼀番良い • 特にKanervaとの組み合わせが最強=>全て保存するのではなく,圧縮した表現が重要 17

18.

実験2:DeepMind Lab • DeepMind Labから4つのタスクを利⽤ – rat_goal_driven,rat_goal_doors,rat_goal_driven_large,keys_doors_random • 4つの実験で⽐較(SimCoreは⽣成的予測モデルを利⽤) – – – – • 通常のLSTMでRL(LSTM) LSTM+slot based memoryでRL(RMA) LSTMのRLとSimCoreを同時に学習(LSTM+SimCore) RMAのRLとSimCoreを同時に学習(RMA+SimCore) 結果︓ – モデルを追加することでスコアが改善されている. – 分散も⼩さくなっている. 18

19.

実験結果 • • 学習した環境でロールアウトできる. ちゃんと報酬のオブジェクトを覚えていて(妄想内で)到達している. 19

20.

実験3:Voxel environment • • Unity上の3次元グリッドにブロックがある環境, ⽬標︓5個の⻩⾊いブロックを「消費」すること. – ブロックの配置的に4つのレベル︓BridgeFood, Cliff, Food, HighFood – エージェントは⼀⼈称視点しか⾒れない. – エージェントは置けるブロックを持っている. 20

21.

実験結果 • SimCoreを⼊れた⽅が,少ない学習データ数で収束している 21

22.

実験結果 • 学習した環境をロールアウト 22

23.

実験4:Terrain • 64×64の⼿続き的に⽣成した地形 • • RLで学習している+⼊⼒画像サイズが⼤きいので,実験1ほどは綺麗に⽣成できていない. 下の3つはConvDRAWを学習して,条件付け⽣成 – 不確実性が⾼いほど,各サンプルの結果が異なる. 23

24.

動画 • https://youtu.be/dOnvAp_wxv0 24

25.

まとめ • RLのエージェントが複雑な環境の表現を学習する⼿法を提案した. – オーバーシュート+⽣成的予測モデルによって,世界の構造をほとんど事前に知らなくても,1⼈称視点 から安定した信念状態が学習できた. – モデルの信念状態をRLエージェントと共有すると,データ効率が⼤幅に向上する. • 今後の課題 – 現状,エージェントと⼀緒にモデルを学習すると,地図のデコードが難しくなるらしい. – 良い学習やメモリアーキテクチャによるさらなるスケールアップ. – プランニングへの応⽤. • 感想︓ – TD-VAE論⽂の後に,これだけの実験を回せるのはすごい • 実は結構細かいアーキテクチャ提案とかしてる. • その⼀⽅で細かいことは気にしない精神をすごく感じる. • 結局,世界モデル系研究はモデルの提案というより,どれだけ⼈を集めて実験回すかにかかってそう. 25