[DL輪読会]Value Iteration Networks

>100 Views

February 15, 17

スライド概要

2017/2/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Value Iteration Networks 2017/1/13 DL hacks 輪読 M1 塩谷碩彬

2.

論文情報 ● ● ● ● 題名 Value Iteration Networks 著者 Aviv Tamar , Yi Wu, Garrett Thomas, Sergey Levine, and Pieter Abbeel ○ Sergey Levine, Pieter AbbeelはGuided Policy Searchの著者 会議 NIPS2016 (Best Paper Award受賞) 分野 強化学習

3.

提案手法の要旨 ● 何ができるようになるのか? ○ ○ ● どうやって実現するのか? ○ ○ ○ ● 「計画しながら行動すること」を学ぶ 従来の「反応的な」方策に比べて、未知の環境に対してデータ効率良く汎化 プランニング計算を明示的に方策に組み込む プランニング部分は、 CNNで計算する 全体が微分可能な NNなので、back propagationでend to endに計算可 適用範囲は? ○ 状態、行動は連続値でも可

4.

問題意識 ● ● ● ● 従来のDRLは長期の報酬を考慮した行動計画の立て方を学習できているわけで はない 学習しているのはあくまで状態sと、「訓練データの環境において累積期待報酬が 最大になるような行動/価値関数」との対応付け 本来であれば、新しい環境に対しては学習した計画を適用するのではなく、再度、 計画自体を行う必要がある 過去の環境で学習した計画を適用する従来手法では、訓練データにない未知の環 境においてはうまくいかないことが予想される

5.

従来の方法では十分に汎化できていない ● ● 下のような2Dgrid-worldのタスクで実験 スタンダードなCNNのpolicyでは、訓練データにない未知の環境(右)ではうまく ゴールにたどりつかなかった train test

6.

解決方法 ● 本来であれば、新しい環境に対しては学習した計画を適用するのではなく、再度、 計画自体を行う必要がある →方策に計画計算を行う モジュールを導入し、計画の立て方も学習しよう Planning Module observation reactive policy observation reactive policy

7.

提案手法:Value Iteration Networks

8.

Planning Module ● ● ● 状態価値関数は計画に関するすべての情報を含んでいる value functionをreactive policyのfeatureとして入れる Planning Moduleもbackpropできないといけない 実はCNNで計算できる →

9.

Value Iteration ● ● MDPの最適方策は線形計画法または動的計画法で求められる 動的計画法で求める方法はValue IterationとPolicy Iterationがある Value Iteration ● ● n→∞で最適状態価値関数に収束する この下で、最適方策は下のように求められる

10.

CNNでValue Iterationを計算できる ● ● ● conv layerの各channelが各行動aに 対応するQ関数 次のVはmax pooling この計算をK回繰り返す

11.

Attention agent ● 計算したV*のうち、方策を求めるのに必要なのは次に移動する可能性のある状態 sの値のみ ● 例えばgrid-worldなら、上の黒塗りの状態のVだけで計算すれば良い →attentionを使おう!

12.

提案手法:Value Iteration Networks ● ● ● 方策中に計画計算を行う部分が導入された 全体が微分可能なNNなので、back propagationでend to endに計算可 フレームワークなので、’design’の余地がいくつか残っている

13.

実験 ● 実験の目的 ○ ○ ○ 通常のRLやILのアルゴリズムで planning部分の計算を効率よく学習できるか? 従来の「反応的な」方策より新しい環境に対して汎化しているか? (VINの’design’部分をどう設計するのがよいか?) について様々なタスクを通じて調べる ● 行った実験 ○ ○ ○ ○ Grid-World Domain Mars Rover Navigation Continuous Control WebNav Challenge

14.

実験1:Grid-World Domain ● ● ● ● 2次元迷路で障害物を避けゴールへ向かう PolicyはILで学習 VIN > CNN 特にDomainが大きい場合に顕著な差

15.

実験2:Mars Rover Navigation ● ● ● ● 火星の衛生画像を用いる 地形上で10度以上の仰角差があれば障害物とみなす 標高データは与えず、画像から推測する VINの最短経路予測タスクの成功率は 84.8%

16.

実験3:Continuous Control ● ● ● 連続状態空間、行動空間での物理シミュレーション policyはguided policy search (with unknown dynamics)で訓練 testではVIN > CNN

17.

実験4:WebNav Challenge ● ● エージェントは短い 4文のクエリーで指定されたゴールウェブページに向かってウェブサイトのリンクをナビ ゲートする web pageはWikipedia for Schools website

18.

まとめ ● 何ができるようになるのか? ○ ○ ● どうやって実現するのか? ○ ○ ○ ● 「計画しながら行動すること」を学ぶ 従来の「反応的な」方策に比べて、未知の環境に対してデータ効率良く汎化 プランニング計算を明示的に方策に組み込む プランニング部分は、 CNNで計算する(!) 全体が微分可能な NNなので、back propagationでend to endに計算可 適用範囲は? ○ 状態、行動は連続値でも可