[DL輪読会]Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics (IROS2020)

>100 Views

October 09, 20

スライド概要

2020/10/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Crossing the Gap: A Deep Dive into Zero-Shot Simto-Real Transfer for Dynamics (IROS2020) Jumpei Arima http://deeplearning.jp/ 1

2.

書誌情報 • タイトル:Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics • 著者:Eugene Valassakis, Zihan Ding, and Edward Johns – The Robot Learning Lab at Imperial College London • 会議:IROS2020 • project page: https://www.robot-learning.uk/crossing-the-gap • arxiv: https://arxiv.org/abs/2008.06686 • 概要: – ロボットのアームタスクでのzero-shot sim2real transferの徹底的な検証をした – 単にランダムな力を加えるRandom Force Injectionがパラメータ調整が大変な Domain Randomizationと同等の性能を得られることを実験によって示した 2

3.

背景 • ロボット学習のためのSim to Real – 現状のRLアルゴリズムでは実機でロボット学習には時間・安全コストが高い – 高速化・安全を考えRLをシミュレータで行い、学習した方策モデルを実機に転移する Sim2Realの研究が2017年頃から盛ん – 画像のGapは解決しつつあるが、ダイナミクスのGapは未だ難しい • Domain Randomizationを用いた手法が主流 – pushing, locomotion, dexterous manipulationなどで成果が出ている 3

4.

背景 • Sim to Realの先行研究の問題点 – ひとつのタスクに特化しているため、 他のタスクにスケーラブルできないことが多い – task固有のドメイン知識を広く必要とする – randomにするパラメータの調整が重要になってくる&試行錯誤が必要 – sim2simでの評価のみを行っている 実験・実装をした人と論文を読んだだけ人の間に Sim to Realに対する理解のgapが生じている • 3つのタスクでsim/realの双方で先行研究の手法を幅広く実験し評価 • エンジニアリングがどの程度必要か・方策の学習方法を明らかにする • Random Force Injectionによる手法を提案 4

5.

問題設定 • POMDP • 状態遷移 • 観測 • Sim to Real • 本研究ではダイナミクスのreality gapのみを考えるので、 観測のgapを極力小さくする(低次元情報を入力とする) 5

6.

提案手法 • • 1. 2. 3. 4. 複数のsimの設定で複数の方策モデルを学習しsimとrealで実験し評価 実験の手順を明確化し、エンジニアリングコストがどのくらいかを明記 A) Conservative Policy Domain Randomizationなし(NR) B) Adaptive Policy Domain Randomization(DR) C) Universal Policy with OSI (UPOSI) Random Force Injection (RFI) D) Environment Probing Interaction Policy(EPI) RFI with Observation Noise (RFI+) 6

7.

Domain Randomization • パラメータのベースラインの設定 – ロボットのkinematicsに関するパラメータ情報はURDFから得る – Object情報は実計測・摩擦は実験的に計測 – dynamicsパラメータは任意の制御信号に対するsimでの応答との差を コスト関数として最適化した値を使用 – ノイズ・時間遅延は0 • ランダマイズするパラメータの分布の調整 – パラメータの性質から利用する分布を設定 (Uniform, Categorical, log-uniform, …) – ハードコードの方策で得た実世界のデータの挙動とsimでの挙動を比較し、 パラメータを調整 • Policy学習後にsimとrealでの性能を評価し、分布を再調整 7

8.

Random Force Injection • Domain Randomization(DR) – 各エピソード開始時に、設定したパラメータ分布からサンプルする(episodeの間固定) – 複数のダイナミクス自体に明示的に適応するように学習する • Random Force Injection(RFI) – 各ステップごとにランダムな力を加える 運動方程式 Random force – パラメータ数はシステムによって固定・設定するのは分布範囲のみ – DRに比べて、設定パラメータ数が少なくパラメータ設計に関する知識が必要ない – 実世界の状態分布を包含することを目的とした手法 • RFI with Observation Noise (RFI+) – RFIでは観測ノイズが考慮されていないので比較のため 観測にのみノイズを入れたものでも評価する 8

9.

方策の学習 • 4つの方策を学習し比較 Conservative Policy • FC4層 • TD3で学習 Universal Policy with Online System Identification (UPOSI) • OnlineでシステムID(質量, PID ゲイン, 摩擦, …)を推定する OSIを教師ありで学習 • 方策にsystem IDも入力 • TD3で学習 Adaptive Policy • Actionも入力 • LSTM層を追加 • TD3で学習 Environment Probing Interaction Policies (EPI) • 次の状態を予測する 順モデルを学習 • 埋め込み表現zを方策 の入力にする • PPOで学習 9

10.

実験設定 • 3つのタスクで実験(RLの学習はsimのみ) Reaching Pushing Sliding • MuJoCo, Robosuite, Sawer • パラメータ数 – DR: 31~67 – RFI: 7~13 – RFI+: RFI + 2~7 • Reaching, Pushingは 3つの難易度を設定 10

11.

実験結果 • RFIが3つのReal環境の成功率が最も高い • RealでのNR, UPOSIの性能が著しく低い以外は 各手法の優劣をつけるほど明確な結果ではない – DRが数日のパラメータ調整が必要なのに対し、RFIは学習後の調整は必要ない 11

12.

実験結果 • RFI > RFI+ – – – – ランダムするパラメータが増える分、チューニングが必要である 観測ノイズがRFIより優れた結果を出すことは実験では見られなかった チューニングすれば、良い結果が出る可能性はある Slidingタスクでは、RFI+は安定した(落ちにくい)方策をRFIは積極的な(落ちる 12 確率は上がるが成功率は高い)方策を学習した

13.

実験結果 • Conservative > Adaptive – Adaptive (LSTMを含む)方策が先行研究では良いとされていたが、 逆の結果が得られた – エピソードの長さが短いのが原因であると考えられるが、 必ずしもAdaptiveな方策が良いとは限らないことがわかった 13

14.

実験結果 • UPOSIは学習がほぼできていない, EPIはタスクによって性能さがバラつく EPIの潜在表現zのt-SNEで可視化 方策の入力の環境情報をノイズにしたものと比較(成功率) • UPOSIのPushing以外は環境情報の予測モデルを用いている • EPI、OSI共に環境情報の予測精度は精度はよくない • (state, action)のデータのみからダイナミクス情報を 推論することは困難 OSIモジュールの精度 14

15.

結論 • アームロボットのダイナミクスの転移が重要な制御タスクにおいて zero-shotのSim to Realの手法を徹底的に調査 • Sim to Realのダイナミクスの転移において以下のことを実験で示した – Domain Randomizationはパラメータの調整をしっかり行わないと性能が出ない – 単にランダムな力を加えるRandom Force Injectionが Domain Randomizationと同等の性能を出すことができる – onlineでの環境情報の推論を行う手法は全体的に性能が劣る傾向がある <感想> • DRの研究では、パラメータ調整の自動化・効率化の研究が盛んなのでそちらも要注目だが、 この論文の指摘は面白いと思った • 実装・実験の詳細が充実している(論文8ページ+補足資料21ページ) 15