[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch

>100 Views

July 28, 17

deep learning

スライド概要

2017/7/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 26.4K

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 26.3K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13.4K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 12.6K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.5K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 10.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Learning model-based planning from scratch & Imagination-Augmented Agents for Deep Reinforcement Learning Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

論文情報 ● 2本ともDeepMindが発表した深層強化学習＋プランニングに関する論文 ● 11 July 2017発表で、現状arxivのみ ● モチベーション ○ ○ model-base大事プランニング大事 2

強化学習 ● エージェントの良いふるまいを学習したい ● 問題設定 environment P, R, γ a s, r agent Π, V notation: s : 状態 a : 行動 r : 報酬 P：遷移関数 (s×a→s) R : 報酬関数 (s×a→r) Π：方策(s→a) V : 価値関数(s → v) γ : 割引率環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す 3

強化学習とDeep Learning ● 方策や価値関数を表す強力な関数近似器 ○ ○ 画像など高次元の生データを状態入力として処理可複雑なタスクを解けるような方策、価値関数も近似可 state state NN policy NN value function action ● state value 複雑なタスクをNNで扱う際に生じる学習の不安定性や試行回数の多さを補うように強化学習アルゴリズムが発展 ○ ○ DQN, TRPO (安定性) GPS(サンプル効率 ) 4

プランニングって何 ● 外部環境のモデル(PとR)をもっておいて、先読みした結果を元にどう行動するか決める良さそう a 実環境 real world P：遷移関数 (s×a→s) R : 報酬関数 (s×a→r) のモデル (internal model) : 状態(s) : 行動(a) 5

最近の研究成果の多くは、プランニングを用いていない ● DQN, DDPG, TRPOなど、近年よく使われる深層強化学習アルゴリズムは、多くが環境の内部モデルをもたない (モデルフリー) 良さそう a 実環境 real world P：遷移関数 (s×a→s) R : 報酬関数 (s×a→r) のモデル (internal model) : 状態(s) : 行動(a) 6

ではどうしてるの？→ 経験から価値を推定する ● ある状態sで行動aをとるとどれくらい良さそうか（報酬を多く獲得できそうか）を経験をもとに推定していく ● 結果、状態sの観測に対し、試行錯誤の期間に試してみて良かった行動をとるようになる 7

モデルフリーができるのに、なんでプランニングしたいの ● モデルフリーだと異なる設定に一般化できない ○ ● モデルベースの方が、サンプル効率が良くなる ○ ● 目標が変化しても、学習期間に良かった行動を取り続ける特にDRLは試行回数が重い人間もやってるっぽい ○ ○ 神経科学の知見にも合う [Hassabis 2017] 経験的にも、プランニングしてるよね [Hassabis 2017] Hassabis, Demis, et al. "Neuroscience-Inspired Artificial Intelligence." Neuron95.2 (2017): 245-258. 8

なんでプランニングしないの→モデルが不正確 ● 多くのタスクでは、環境のモデルは未知 ○ ● 未知な場合は、経験を元に学習する ○ ● 囲碁などのゲームはあてはまらないしかし、学習しても誤差はある程度残る不正確なモデルを使うと、却ってダメな結果を導く ○ しかも、強化学習のように前の予測結果にさらにモデルを使用する問題設定だと、ステップが進むにつれて誤差が蓄積、拡大する内部モデルの予測軌道実際の軌道 9

10.

(Classical) Planning ● ● 多くは完全なモデルを与えられているか、単純なモデルで近似例 ○ ○ ○ ○ trajectory optimization model predictive control(MPC) Dyna [Sutton 1991] Monte Carlo Tree Search(MCTS) [Sutton 1991]Dyna, an integrated architecture for learning, planning, and reacting. ACM SIGART Bulletin, 2(4):160–163, 1991 10

11.

(Classical) Planning + DL ● モデルをNNで近似すれば複雑なダイナミクスでも扱えないだろうか？ ○ ● 例 ○ ○ ● 従来はlinear conbination feature, gaussian processなどで近似 trajectory optimization + DL ■ Embed to Control [Watter 2015] ■ Prediction and Control with Temporal Segment Models [Mishara 2017] model predictive control(MPC) + DL ■ Deep MPC [Lenz 2015] ■ Deep Video Prediction [Finn 2017] 十分な成功を収めているとは言い難い [Watter 2015] Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pages 2746–2754, 2015. [Mishara 2017]Mishra, Nikhil, Pieter Abbeel, and Igor Mordatch. "Prediction and Control with Temporal Segment Models." arXiv preprint arXiv:1703.04070 (2017). [Lenz 2015] DeepMPC: Learning deep latent features for model predictive control. In Robotics: Science and Systems, 2015. [Finn 2017]Deep visual foresight for planning robot motion. In IEEE International Conference on Robotics and Automation (ICRA), 2017 11

12.

ここまでのまとめ ● ● ● 近年のDRLの発展は目覚ましいが、その多くがモデルフリーモデルフリーは異なる設定での汎化性能に欠点があり、克服のためにはモデルベースのプランニングが鍵になりそうしかし、(NNのような強力な関数近似器を用いても)十分な正確性をもったモデルを学習するのは難しく、プランニング活用の壁になっている 12

13.

Imagination-Augmented Agents for Deep Reinforcement Learning 13

14.

不正確なプランニングをNNに解釈してほしい ● ● ● モデルを正確に推定するのは難しいので、代わりに不正確なプランニングから使える情報だけ抽出して、残りは無視してほしいどう抽出すればいいのかよくわからない→NNに投げて抽出してもらおうプランニングだけからは行動を決定できないので、モデルフリーRLも学習して、プランニングからの情報はそのcontext infromationとして活用しよう 14

15.

Model a. imagination core ○ ○ b. Single imagination rollout ○ ○ c. 内部モデルに相当する environment modelの構造は下図 1.がplanningに、2.がそれを解釈する部分に相当する 2. encoder は逆向きLSTM(あまり向きは大事じゃなかった ) Full I2A Architecture ○ ○ ○ planningとmodel-freeを統合する aggregaterは単純なconcat 最後に２つを入力にとる NN 15

16.

学習 a. imagination core ○ ○ b. Single imagination rollout ○ c. pre-trainする（その方が早いらしい） π_^はπを蒸留して得る普通のRL Full I2A Architecture ○ 普通のRL 16

17.

imagination rollout strategy ● 選択可能な各行動から１回ずつrolloutする ○ ○ つまり行動が離散の場合の戦略しか示されていないこの論文では ALEでしか実験してないので問題はない 17

18.

実験１：Sokoban ● ● ブロックを特定の位置まで運ぶパズルゲームプランニングが求められる特性をもつ ○ ○ ブロックは押すことしかできないので一部不可逆な移動が生じる毎回パズルの配置が異なる 18

19.

model-bath pathは有効、不完全なモデルも扱える ● ● ● ● I2A(提案手法)がstandard(I2Aのmodel-free pathのみ)を上回る copy-IAAはEMを元のoを返すものに置換したもの(parameter増の影響をみるため ) no reward IAAはobservationのみ予測 unroll depthは5がoptimalだった（ゲーム自体は平均50stepくらい） ● ● ● I2Aはpoor model(parameter落として精度下げた)でもタスク成功率が落ちない MCはencodingなし MCはmodelが良くてもstandardと同程度、 modelが悪いと性能に壊滅的な悪影響を与える 19

20.

MCTSより読みの効率良い、タスク間汎化も ● ● ● 完全なモデルを与える I2A@87とMCTS@87を比較すると読んだステップ数が１桁違う MCTSは読みを増やせばさらに性能をあげられるが、I2AもMC searchがつかえて、やはり高効率 ● ● 4boxでtrainした I2Aはstandardと比べて汎化 20

21.

実験２：MiniPacman ● ● ● 1つのモデルで異なるタスクに使える内部モデルを学習できるか実験タスクを変更してもEMは追加で学習しないそれでもI2Aがbaselineを上回る 21

22.

まとめ ● ● ● 不正確なプランニングをNNでうまく処理してmodel-free methodに取り込むことができた他のタスクに対して適用できるか、今後の発展に期待あと、step数で比較しているが、内部シミュレーションが入っていないので計算コストは増えている 22

23.

Learning model-based planning from scratch 23

24.

プランニングの構築の仕方自体も学習できないか ● ● 不正確性に対処できればプランニングは完成か？→ No! どこを読むか、どこで読みを打ち切るかはヒューリスティックに設計している ○ ● 読みを打ち切って行動してみるべきか、読むならどのノードから読みを始めるべきかは自由度がある、それにimaginationはタダじゃないどこを、どこまで読むか決定するメタなエージェントも一緒に学習したい 24

25.

METACONTROL FOR ADAPTIVE IMAGINATION-BASED OPTIMIZATION[Hamrick 2017] ● ● ICML 2017 本論文と近いアイデア ○ ○ ● meta controllerが、行動するか否か、どのモデルでプランを評価するかを決める計算コストの低いモデルを適合的に使いたいというモチベーション one-shot decision makingな問題 [Hamrick 2017]Metacontrol for adaptive imagination-based optimization, 2017 25

26.

Model ● Manager ○ 読みを打ち切るかどうか、どこから読み始めるか決める ■ ○ ● 現在状態とMemoryの出力を受け取る imagineとactで共通 Imagination ○ ○ ● これまでの行動や読みの履歴を入力 Controller ○ ○ ● 行動空間はact or not + 読み始め候補のnode数環境の内部モデル Interaction Networkを使う Memory ○ ○ 読みや行動の結果を文脈とともに記憶 LSTM 26

27.

Imagination Strategy ● ３つのimagination strategyを考えた ○ ○ ○ 1-step: 常に現在のノードから読みの続きを始める n-step: 常に最後のノードから読みの続きを始める tree: これまで読んだ任意のノードから読みを始めて良い 27

28.

学習 ● Manager ○ ● Controller ○ ● タスクに関する lossのみを使いSVG Imagination ○ ● タスクに関する lossと、imaginationにかかるコストを報酬にして REINFORCE 現実で行動した際のデータを使って教師あり学習 Memory ○ Controllerと同時に学習 28

29.

実験１：Spaceship task ● ● ● 目的の場所への到着を目指す惑星どうしの複雑な重力場があるコントロールにも一定のノイズ 29

30.

結果 A. B. C. D. E. 読みを増やすと良くなる imagination costを増やすと、読みを減らすよう学習できてる imagination costを増やすと、読みが減ってtotal costは増える imagination strategyは 1-step<n-step<tree D.に同じ下図は、生成されたimaginationとactionの軌道 30

31.

実験２：Discrete mazes ● ● ● ● 迷路を解くタスク discrete domainにも適用してみる perfect modelを与えているその他、meta controllerを与えてしまうなど、ちょっと怪しい 31

32.

結果 ● ● ● 上図：タスク中に現れたimagination strategyの割合,状況により様々な strategyがあり得る下図上 : 迷路同じでゴールが異なる。 imaginationによって異なるタスクにも汎化下図下：迷路もゴールも異なる場合 32

33.

まとめ ● ● ● ● プランニングの情報を用いて難しいcontinuous coutrolタスクの精度向上加えて、meta controllerがimaginationのコストを見ながら、どこから読むのか、いつまで読むのかを学習してくれる今後はより広範なタスクへの適用に期待 internal resource costをどう設計するかは謎 33

34.

おまけ）プランニングに関して、その他の方向性 34

35.

記号的推論、因果推論との統合 ● Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics[Kansky 2017] ○ ○ ○ ○ ICML 2017 AIベンチャー, vicariousの論文オブジェクト間の物理的な因果関係を獲得して、目標から逆向きに推論する計画問題を解く。物理法則が変化していない別タスクにzero shotで適応できる。 DLじゃない [Kansky 2017]Schema networks: Zero-shot transfer with a generative causal model of intuitive physics. Accepted at International Conference for Machine Learning, 2017, 2017. 35

36.

物理的な関係推論これまで難しかった環境の予測モデルができる？ ● ● ● Interaction Network[Battaglia 2016] NIPS 2016 物理的な運動推論ができる ● ● Visual Interaction Network[Watters 2016] 画像から物理的な運動推論が可能 []Battaglia 2016]Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pages 4502–4510, 2016 [Watters 2016]Visual interaction networks,” CoRR, vol. abs/1706.01433, 2017. [Online]. Available: http://arxiv.org/abs/ 1706.01433. 36

37.

さらにその先？ ● 既知の因果関係を組み合わせて、未知の因果関係を推測 ○ 0ショットで環境のモデルを獲得できる可能性がある 37

38.

まとめ ● ● ● ● プランニングの活用はRLにおいて大事 Imagination-Augmented Agents for Deep Reinforcement Learningでは、モデルにほぼ不可避な不正確性を扱う新しい方法を提案 Learning model-based planning from scratchでは、プランニングの構築自体を学習する枠組みを提案、新しい課題に着手しているその他にも、プランニングの新しい側面にチャレンジするための要素が少しずつでてきている 38