[DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

>100 Views

February 22, 17

#deep learning #Deep Learning #Q-Learning #Model-based Acceleration #東京大学 #松尾研究室

スライド概要

2017/2/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.6K

各ページのテキスト

Deep Learning JP 輪読 Continuous Deep Q-Learning with Model-based Acceleration 那須野薫東京大学松尾研究室 2017年1月6日

紹介する文献 • タイトル – Continuous Deep Q-Learning with Model-based Acceleration • 著者 – Shixiang Gu, Timothy Lillicrap, Ilya Sutskever, Sergey Levine • 発表 – 2016年3月 • 選択理由 – DRLで – Sample Efficiencyに – 取り組んでいるため。東京大学松尾研究室那須野薫 2017年1月6日 2

概要の訳（Google 翻訳ベース）モデルフリーの強化学習は、幅広い困難な問題にうまく適用され、最近は大規模なNN ポリシーや価値関数を扱うように拡張された。しかし、モデルフリーアルゴリズム(が必要とする)サンプルの複雑性は、特に高次元近似関数を使用する場合、物理系への適用を制限する傾向がある。本稿では、連続値による制御タスクのための深層強化学習(が必要とする)サンプルの複雑性を軽減するためのアルゴリズムと表現について説明する。我々は、このようなアルゴリズムの効率を改善するための2つの補完的な手法を提案する。まず、より一般的に使用されるpolicy gradientおよびactor criticの代わりに、正規化されたadvantage function（NAF）と呼ばれるQ-Learningアルゴリズムの連続値への変形を導出する。 NAFの表現を使用することで、experience replayによるQ-Learningを行動空間が連続値のタスクに適用でき、シミュレーションによる幅広いのロボット制御タスクのパフォーマンスが大幅に向上した。我々のアプローチの効率をさらに向上させるために、モデルフリー強化学習を加速するための学習済みのモデルの使用法を検討した。 iteratively refitted local linear modelsが特に効果的であり、そのようなモデルが適用可能な領域での学習が大幅に高速であることを示された。東京大学松尾研究室那須野薫 2017年1月6日 3

主な貢献 • 行動空間が連続値の問題において効果的なQ-learningを可能にするQ関数の表現を導出し評価した。 • 学習済みの(システムダイナミクスの)モデルをモデルフリーのQlearningに組み込むための、いくつかの選択肢を評価し、連続値の制御タスクで小さい効果があることを示した。 • 局所線形モデルと局所on-policyなimagination rolloutsを組み合わせることで、モデルフリーの連続値のQ-learningを加速させ、サンプルの複雑さを大幅に改善できることを示した。 • 上記のため、シミュレーションによる幅広いロボットタスクに対して、提案手法を適用し、従来手法と比較した。東京大学松尾研究室那須野薫 2017年1月6日 4

前提 • 既存手法 – DQN：行動空間が離散値、 Q-learning – DDPG：行動空間が連続値、Actor Critic • 今回 – NAF：行動空間が連続値、Q-learning 東京大学松尾研究室那須野薫 2017年1月6日 5

DDPG 方策更新のイメージ「あっちの方がいい」ただ、方策が壊れやすい。行きすぎてデータ点がないところまで行ってしまう等のためか。東京大学松尾研究室那須野薫 2017年1月6日 6

NAF単体 Aは常に負。 Qが最大となる方策uは常にμ となる。 P = 𝐿𝐿𝑇 Lは下三角行列、各成分は線形NNの出力で、特に対角成分はexp(x)にかけてある。 << expかける理由がわからない。わかる人いたら教えてください。 << どうやら正定値行列にするには対角成分がすべて正である必要があるらしい。方策更新のイメージ「ここら辺がいい」東京大学松尾研究室那須野薫 2017年1月6日 7

NAF + iLQG + Imagination Rollouts iLQG Exploration(あんまきかない) モデルMを使ってシミュレートして、fictional bufferにいれる。 fictional bufferとreplay bufferからサンプリングして、NNを学習。 system dynamicsをadditional bufferのデータで学習・更新東京大学松尾研究室那須野薫 2017年1月6日 8

実験結果 DDPGとNAFの比較東京大学松尾研究室那須野薫 2017年1月6日 9

10.

実験結果 Imagination RolloutsやiLQG Explorationの効果東京大学松尾研究室那須野薫 2017年1月6日 10