[DL輪読会]Value Iteration Networks

187 Views

February 15, 17

#deep learning #強化学習 #Value Iteration Networks #プランニング #CNN #汎化性能

スライド概要

2017/2/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 45.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.6K

各ページのテキスト

Value Iteration Networks 2017/1/13 DL hacks 輪読 M1 塩谷碩彬

論文情報 ● ● ● ● 題名 Value Iteration Networks 著者 Aviv Tamar , Yi Wu, Garrett Thomas, Sergey Levine, and Pieter Abbeel ○ Sergey Levine, Pieter AbbeelはGuided Policy Searchの著者会議 NIPS2016 (Best Paper Award受賞) 分野強化学習

提案手法の要旨 ● 何ができるようになるのか？ ○ ○ ● どうやって実現するのか？ ○ ○ ○ ● 「計画しながら行動すること」を学ぶ従来の「反応的な」方策に比べて、未知の環境に対してデータ効率良く汎化プランニング計算を明示的に方策に組み込むプランニング部分は、 CNNで計算する全体が微分可能な NNなので、back propagationでend to endに計算可適用範囲は？ ○ 状態、行動は連続値でも可

問題意識 ● ● ● ● 従来のDRLは長期の報酬を考慮した行動計画の立て方を学習できているわけではない学習しているのはあくまで状態sと、「訓練データの環境において累積期待報酬が最大になるような行動/価値関数」との対応付け本来であれば、新しい環境に対しては学習した計画を適用するのではなく、再度、計画自体を行う必要がある過去の環境で学習した計画を適用する従来手法では、訓練データにない未知の環境においてはうまくいかないことが予想される

従来の方法では十分に汎化できていない ● ● 下のような２Dgrid-worldのタスクで実験スタンダードなCNNのpolicyでは、訓練データにない未知の環境（右）ではうまくゴールにたどりつかなかった train test

解決方法 ● 本来であれば、新しい環境に対しては学習した計画を適用するのではなく、再度、計画自体を行う必要がある →方策に計画計算を行うモジュールを導入し、計画の立て方も学習しよう Planning Module observation reactive policy observation reactive policy

提案手法：Value Iteration Networks

Planning Module ● ● ● 状態価値関数は計画に関するすべての情報を含んでいる value functionをreactive policyのfeatureとして入れる Planning Moduleもbackpropできないといけない実はCNNで計算できる →

Value Iteration ● ● MDPの最適方策は線形計画法または動的計画法で求められる動的計画法で求める方法はValue IterationとPolicy Iterationがある Value Iteration ● ● n→∞で最適状態価値関数に収束するこの下で、最適方策は下のように求められる

10.

CNNでValue Iterationを計算できる ● ● ● conv layerの各channelが各行動aに対応するQ関数次のVはmax pooling この計算をK回繰り返す

11.

Attention agent ● 計算したV*のうち、方策を求めるのに必要なのは次に移動する可能性のある状態 sの値のみ ● 例えばgrid-worldなら、上の黒塗りの状態のVだけで計算すれば良い →attentionを使おう！

12.

提案手法：Value Iteration Networks ● ● ● 方策中に計画計算を行う部分が導入された全体が微分可能なNNなので、back propagationでend to endに計算可フレームワークなので、’design’の余地がいくつか残っている

13.

実験 ● 実験の目的 ○ ○ ○ 通常のRLやILのアルゴリズムで planning部分の計算を効率よく学習できるか？従来の「反応的な」方策より新しい環境に対して汎化しているか？（VINの’design’部分をどう設計するのがよいか？）について様々なタスクを通じて調べる ● 行った実験 ○ ○ ○ ○ Grid-World Domain Mars Rover Navigation Continuous Control WebNav Challenge

14.

実験１：Grid-World Domain ● ● ● ● ２次元迷路で障害物を避けゴールへ向かう PolicyはILで学習 VIN > CNN 特にDomainが大きい場合に顕著な差

15.

実験２：Mars Rover Navigation ● ● ● ● 火星の衛生画像を用いる地形上で10度以上の仰角差があれば障害物とみなす標高データは与えず、画像から推測する VINの最短経路予測タスクの成功率は 84.8%

16.

実験３：Continuous Control ● ● ● 連続状態空間、行動空間での物理シミュレーション policyはguided policy search (with unknown dynamics)で訓練 testではVIN > CNN

17.

実験４：WebNav Challenge ● ● エージェントは短い 4文のクエリーで指定されたゴールウェブページに向かってウェブサイトのリンクをナビゲートする web pageはWikipedia for Schools website

18.

まとめ ● 何ができるようになるのか？ ○ ○ ● どうやって実現するのか？ ○ ○ ○ ● 「計画しながら行動すること」を学ぶ従来の「反応的な」方策に比べて、未知の環境に対してデータ効率良く汎化プランニング計算を明示的に方策に組み込むプランニング部分は、 CNNで計算する(!) 全体が微分可能な NNなので、back propagationでend to endに計算可適用範囲は？ ○ 状態、行動は連続値でも可