[DL輪読会]Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors

106 Views

March 13, 20

#deep learning #Robotics #Meta-Learning #Adaptation #Reinforcement Learning #Simulated Priors

スライド概要

2020/03/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors Reiji Hatsugai

書誌情報と読もうと思った理由 • 題名 – Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors • 著者 – Rituraj Kaushik, Timothee Anne and Jean-Baptiste Mouret • 機関 – Inria, CNRS, Universit ́e de Lorraine, Nancy, France • Dynamixelとかを使ったロボットの研究室ぽい • https://www.resibots.eu/index.html • 投稿先 – Arxiv • 読もうと思った理由 – sim2realAIorgというtwitterアカウントで紹介されていて、Sim2Realをメタラーニングで解いている論文だったため 2

https://www.resibots.eu/index.html

この論文で解こうとしているIssue • Model Based Reinforcement Learningにおいて、外部環境が多様に変化した時に、その環境に適応する際の必要サンプル数の削減 3

Issueのモチベーション • 前提 – ロボットと違い、動物は、骨折などで身体の一部の機能が損なわれたり、初めて雪の上を歩くなどの未知の環境に放り込まれても、即座に適応することができる • 理由 – 動物は、ゼロから学習し直すということはせずに、過去の経験を元に素早く適応するということができているから • 例：捻挫した時になんとか歩けるようになった経験を元にすることで、骨折した時も素早く状況に適応して歩くことができる • モチベーション – ロボットの学習においても、動物のように、過去の経験を元に未知の環境に対して素早く適応できるようにしたい 4

どのようにしてこのIssueを解くのか • メタラーニングの活用 – メタラーニングとは、シンプルには、学習の仕方を学習すること • Learn to learn – 過去に未知の環境に放り込まれ、なんとか適応した経験から、新たな未知の環境に放り込まれた時に素早く適応する学習方法を学ぶ 5

先行研究 • Learning to Adapt: Meta-Learning for Model-Based Control – MAMLをMBRLに適用して、環境の変化に適応する – https://www.slideshare.net/DeepLearningJP2016/dllearning-to-adaptmetalearning-for-modelbased-control • MAML（Model Agnostic Meta-Learning） – 各環境に対して勾配法で学習を行い、得られたパラメータで計算されるロスを最小化するように、学習を行う前のパラメータを最適化する • MBRL（Model Based Reinforcement Learning） – 環境のモデルをNNで表現し、そのモデルを用いて未来予測を行い、最適な行動を決定する 6

https://www.slideshare.net/DeepLearningJP2016/dllearning-to-adapt-metalearning-for-modelbased-control

MAML（Model Agnostic Meta-Learning） • 勾配法で学習を行った後の性能が良くなる、初期値はどこなのかを探す • 勾配法の使えるアルゴリズムであれば適用可能 • 素直に計算すると二次の勾配計算が必要で、計算量・メモリ量ともに大きくなるが、一次に近似するもの（FOMAML）、勾配計算後パラメータとの移動平均を取るもの（reptile）らの、それなりに同じ性能で、計算量・メモリ量が少ないものもある – 本論文ではreptileが使用されている – 実装が簡便というのもある 7

MBRL（Model Based Reinforcement Learning） • 現在状態と行動を受け取った時の、次状態をサンプルする確率モデルを学習により獲得する – シンプルな教師あり学習が行われることが多い • 得られた確率モデルを用いて、行動を最適化 – MPC: ランダムな行動系列をM個用意し、Tステップ分確率モデルを用いて状態系列を獲得し、その報酬を計算して、最も報酬が高くなったランダムな行動系列の最初の一つを行動として選択 8

MAML+MBRLの問題点と解決案 • 問題点 – MAMLによって得られるのは、複数の似た状況に素早く適応できる初期パラメータ – 一方で、ロボットの遭遇する環境のダイナミクスの変化は、似た状況というよりは、機械の破損や地形の変化などの質が異なるものが多い – そのような状況に対応しなければいけないときに、一つの初期パラメータでは、しばしば、素早く適応することができない • 解決案 – 獲得する初期パラメータを複数用意し、適応時はその中から選択 9

10.

提案手法 • FAMLE（Fast Adaptation through Meta-Learning Embeddings） – 複数の初期パラメータを持つ替わりに、複数の埋め込み表現を持ち、追加の入力として活用 – Meta Train • いくつかの学習環境を用意し、その学習環境に対応する埋め込み表現を用意する • モデルの入力は現在状態と行動と埋め込み表現 • モデルのパラメータθと埋め込み表現hに関して、reptileを使ったメタアップデート – Meta Test • データを集め、そのデータに対して最も尤度の高いhを選択 • Θとhを最適化 10

11.

全体図 11

12.

実験 • 実験で確かめたいこと – モーターの故障やセンサーの故障やSim2Realなどの環境のダイナミクスが多様に変化した時の、適応に必要なステップ数が、MBRL, MAML+MBRLと比較して、提案手法で減少しているか • 行った実験 – Sim2Sim • Reaching • Ant walking – Sim2Real • Quadruped goal reaching • Minitaur walking • 結果 – 全ての実験について既存手法より高いサンプル効率を示した 12

13.

Reaching • タスクについて – 関節を動かして、先端を目標地点に持っていく • 環境の変化 – 各関節について以下の組み合わせ • モーターが弱くなる • 電圧の逆転 • モーターの故障 13

14.

Ant walking • タスクについて – Antでどれだけ前に進めるか • 環境の変化 – 各関節について以下の組み合わせ • モーターの故障 • 角度センサーの故障 14

15.

Quadruped goal reaching • タスクについて – 四足のロボットで目標地点に到達する – シミュレータでMeta Trainを行い、実機の複数環境でMeta Test • 環境の変化 – 各関節について以下の組み合わせ • モーターの故障 • 角度センサーの故障 15

16.

Minitaur walking • タスクについて – Minitaurでどれだけ前に進めるか – Sim2Real • 環境の変化 – 摩擦と重量の変化 16

17.

Conclusion • FAMLEによって、多様な環境に対する適応方法を事前知識として獲得でき、既存の手法よりも、Model Based Reinforcement Learningにおいて、外部環境が多様に変化した時に、その環境に適応する際の必要サンプル数の削減をすることができた 17

18.

感想 • メタラーニングはメタ知識をどこに埋め込むのかというので、いくつかの手法が考えられ、勾配法系は初期パラメータ、Reccurent系は隠れ状態となるが、今回の手法は両方のいいところを上手く取っている • 学習時の環境が離散的に表現され、さらにそのインデックスについて学習者は知識を持つというのが暗に仮定されているが、この仮定はSim2Realを考える場合は容易に満たすことができるので、上手い方法だと思った • NNを使ったダイナミクスの推定に用いているが、尤度計算を工夫するor尤度以外の方法で埋め込み表現を選択する、ことでSim2Real一般に使用できそうな気がする 18