[DL輪読会]Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors

>100 Views

March 13, 20

スライド概要

2020/03/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors Reiji Hatsugai

2.

書誌情報と読もうと思った理由 • 題名 – Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors • 著者 – Rituraj Kaushik, Timothee Anne and Jean-Baptiste Mouret • 機関 – Inria, CNRS, Universit ́e de Lorraine, Nancy, France • Dynamixelとかを使ったロボットの研究室ぽい • https://www.resibots.eu/index.html • 投稿先 – Arxiv • 読もうと思った理由 – sim2realAIorgというtwitterアカウントで紹介されていて、Sim2Realをメタラーニン グで解いている論文だったため 2

3.

この論文で解こうとしているIssue • Model Based Reinforcement Learningにおいて、外部環境が多様に変化した 時に、その環境に適応する際の必要サンプル数の削減 3

4.

Issueのモチベーション • 前提 – ロボットと違い、動物は、骨折などで身体の一部の機能が損なわれたり、初めて雪の 上を歩くなどの未知の環境に放り込まれても、即座に適応することができる • 理由 – 動物は、ゼロから学習し直すということはせずに、過去の経験を元に素早く適応する ということができているから • 例:捻挫した時になんとか歩けるようになった経験を元にすることで、骨折した時も素早く状 況に適応して歩くことができる • モチベーション – ロボットの学習においても、動物のように、過去の経験を元に未知の環境に対して素 早く適応できるようにしたい 4

5.

どのようにしてこのIssueを解くのか • メタラーニングの活用 – メタラーニングとは、シンプルには、学習の仕方を学習すること • Learn to learn – 過去に未知の環境に放り込まれ、なんとか適応した経験から、新たな未知の環境に放 り込まれた時に素早く適応する学習方法を学ぶ 5

6.

先行研究 • Learning to Adapt: Meta-Learning for Model-Based Control – MAMLをMBRLに適用して、環境の変化に適応する – https://www.slideshare.net/DeepLearningJP2016/dllearning-to-adaptmetalearning-for-modelbased-control • MAML(Model Agnostic Meta-Learning) – 各環境に対して勾配法で学習を行い、得られたパラメータで計算されるロスを最小化 するように、学習を行う前のパラメータを最適化する • MBRL(Model Based Reinforcement Learning) – 環境のモデルをNNで表現し、そのモデルを用いて未来予測を行い、最適な行動を決 定する 6

7.

MAML(Model Agnostic Meta-Learning) • 勾配法で学習を行った後の性能が良くなる、初期値はどこなのかを探す • 勾配法の使えるアルゴリズムであれば適用可能 • 素直に計算すると二次の勾配計算が必要で、計算量・メモリ量ともに大きくな るが、一次に近似するもの(FOMAML)、勾配計算後パラメータとの移動平 均を取るもの(reptile)らの、それなりに同じ性能で、計算量・メモリ量が少 ないものもある – 本論文ではreptileが使用されている – 実装が簡便というのもある 7

8.

MBRL(Model Based Reinforcement Learning) • 現在状態と行動を受け取った時の、次状態をサンプルする確率モデルを学習に より獲得する – シンプルな教師あり学習が行われることが多い • 得られた確率モデルを用いて、行動を最適化 – MPC: ランダムな行動系列をM個用意し、Tステップ分確率モデルを用いて状態系列を 獲得し、その報酬を計算して、最も報酬が高くなったランダムな行動系列の最初の一 つを行動として選択 8

9.

MAML+MBRLの問題点と解決案 • 問題点 – MAMLによって得られるのは、複数の似た状況に素早く適応できる初期パラメータ – 一方で、ロボットの遭遇する環境のダイナミクスの変化は、似た状況というよりは、 機械の破損や地形の変化などの質が異なるものが多い – そのような状況に対応しなければいけないときに、一つの初期パラメータでは、しば しば、素早く適応することができない • 解決案 – 獲得する初期パラメータを複数用意し、適応時はその中から選択 9

10.

提案手法 • FAMLE(Fast Adaptation through Meta-Learning Embeddings) – 複数の初期パラメータを持つ替わりに、複数の埋め込み表現を持ち、追加の入力とし て活用 – Meta Train • いくつかの学習環境を用意し、その学習環境に対応する埋め込み表現を用意する • モデルの入力は現在状態と行動と埋め込み表現 • モデルのパラメータθと埋め込み表現hに関して、reptileを使ったメタアップデート – Meta Test • データを集め、そのデータに対して最も尤度の高いhを選択 • Θとhを最適化 10

11.

全体図 11

12.

実験 • 実験で確かめたいこと – モーターの故障やセンサーの故障やSim2Realなどの環境のダイナミクスが多様に変化 した時の、適応に必要なステップ数が、MBRL, MAML+MBRLと比較して、提案手法 で減少しているか • 行った実験 – Sim2Sim • Reaching • Ant walking – Sim2Real • Quadruped goal reaching • Minitaur walking • 結果 – 全ての実験について既存手法より高いサンプル効率を示した 12

13.

Reaching • タスクについて – 関節を動かして、先端を目標地点に持っていく • 環境の変化 – 各関節について以下の組み合わせ • モーターが弱くなる • 電圧の逆転 • モーターの故障 13

14.

Ant walking • タスクについて – Antでどれだけ前に進めるか • 環境の変化 – 各関節について以下の組み合わせ • モーターの故障 • 角度センサーの故障 14

15.

Quadruped goal reaching • タスクについて – 四足のロボットで目標地点に到達する – シミュレータでMeta Trainを行い、実機の複数環境でMeta Test • 環境の変化 – 各関節について以下の組み合わせ • モーターの故障 • 角度センサーの故障 15

16.

Minitaur walking • タスクについて – Minitaurでどれだけ前に進めるか – Sim2Real • 環境の変化 – 摩擦と重量の変化 16

17.

Conclusion • FAMLEによって、多様な環境に対する適応方法を事前知識として獲得でき、 既存の手法よりも、Model Based Reinforcement Learningにおいて、外部環 境が多様に変化した時に、その環境に適応する際の必要サンプル数の削減をす ることができた 17

18.

感想 • メタラーニングはメタ知識をどこに埋め込むのかというので、いくつかの手法 が考えられ、勾配法系は初期パラメータ、Reccurent系は隠れ状態となるが、 今回の手法は両方のいいところを上手く取っている • 学習時の環境が離散的に表現され、さらにそのインデックスについて学習者は 知識を持つというのが暗に仮定されているが、この仮定はSim2Realを考える 場合は容易に満たすことができるので、上手い方法だと思った • NNを使ったダイナミクスの推定に用いているが、尤度計算を工夫するor尤度 以外の方法で埋め込み表現を選択する、ことでSim2Real一般に使用できそう な気がする 18