[DL輪読会]Self-Supervised Policy Adaptation during Deployment

>100 Views

March 05, 21

スライド概要

2021/03/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Self-Supervised Deployment Policy Adaptation during Kohei Nishimura http://deeplearning.jp/ 1

2.

書誌情報 • タイトル – Self-Supervised Policy Adaptation during Deployment • 著者 – Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Alenyà, Pieter Abbeel, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang • 所属 – UC San Diego, Technical University of Denmark, IRI, CSIC-UPC, UC Berkeley, NYU • 発表会議 – ICLR 2020(評価7, 7, 7, 7) • リンク • – プロジェクトページ: https://nicklashansen.github.io/PAD/ – 論文: https://openreview.net/forum?id=o̲V-MjyyGV̲ – コード: https://github.com/nicklashansen/policy-adaptation-duringdeployment ※注釈がない場合は、本論文からの引用 2

3.

概要 • 強化学習方策の汎化性能を向上させる方法として、学習時および適用 時の両方で自己教示学習をする方法を提案した。 • 画像入力の問題設定において、ダイナミクスの推定と入力画像の回転 を推論する2つのタスクを自己教示学習方法として用いて、性能を確 認した。 • シミュレーターおよび実世界の複数の問題設定において手法を検証し た。 3

4.

概要動画 • https://youtu.be/a9DwLg0nRUQ 4

5.

目次 • • • • • 背景 先行研究 提案手法 結果 まとめ 5

6.

背景 • 未知の環境に対する汎化性能は機械学習全般で重要である • 強化学習を用いた制御方策の学習においては、テスト環境への汎化性 能が特に重要である。 – 実機でのサンプリングや報酬の獲得が難しいため。 6

7.

先行研究 • これまで制御方策の汎化性能を向上させる ために様々な研究が行われてきた。 • 多くの手法は、ターゲットドメインのデー タを見れることを仮定していた。 • 本論文では、完全に見たことがない環境で も動作する手法が必要だと主張している。 Adversarial Discriminative Domain Adaptation https://arxiv.org/pdf/1702.05464.pdf 7

8.

提案手法の概要 • 手法の概要図 8

9.

提案手法の肝 • 論点 – 環境に対する汎化性能が高い制御方策をどうやって獲得するか • 打ち手 1. 自己教示学習を用いたアーキテクチャ • 適⽤時にも学習が可能なフレームワーク • ダイナミクスに対する汎化性能を向上させるためのタスク 2. ダイナミクスを用いた自己教示学習 3. 入力画像を用いた自己教示学習 • ⼊⼒画像に対する汎化性能を向上させるためのタスク 9

10.

1. 制御アーキテクチャ • 学習時 – 報酬を用いた強化学習 + 自己教示学習 • テスト時 – 自己教示学習 10

11.

1.の詳細 アーキテクチャの詳細 • ネットワークアーキテクチャ 11

12.

2.ダイナミクスを用いた自己教示学習 • 収集した!" , !"$% , &" を用いて自己教示学習を行う。 – 入力が!" , !"$%、出力が&" – 目的関数は以下の式 – 行動空間が連続値の場合'はMSE、離散値の場合の'はクロスエントロピー • s"$% を学習するタスクだと、常に0を学習するダイナミクスが学習さ れる可能性があり、うまくいかない。 12

13.

3.入力画像を用いた自己教示学習 • 入力画像を0 , 90 , 180 , 270 に 回転させ、回転角度4クラスに分 類するタスクを行う。 • 過去の画像認識タスクにおいて有 効であることを確認された手法。 UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS https://arxiv.org/pdf/1803.07728.pdf 13

14.

比較手法 • SAC/A2C • + DR – Domain Randomization • + IDM – Inverse Dynamics Model • + IDM(PAD) – Inverse Dynamics Model + Policy Adaptation Deployment 14

15.

実験設定 • Simulator – DeepMind Control suite, CRLMaze 15

16.

実験結果 定量評価 DeepMind Control Suite • ベースラインよりも高い報酬を得られることを確認した。 – DeepMind Control Suite 16

17.

実験結果 定量評価 CRLMaze • ベースラインよりも高い報酬を得られることを確認した。 – CRLMaze 17

18.

実験設定 • ロボットのマニピュレーション 18

19.

実験結果 定量評価 • ベースラインよりも高い成功率であることを確認した。 19

20.

まとめ • 強化学習方策の汎化性能を向上させる方法として、学習時および適用 時の両方で自己教示学習をする方法を提案した。 • 画像入力の問題設定において、逆ダイナミクスの推定と入力画像の回 転を推論する2つのタスクを自己教示学習方法として用いて、性能を 確認した。 • シミュレーターおよび実世界の複数の問題設定において手法を検証し た。 20

21.

所感 • シンプルな手法の組み合わせで、高い性能をあげているのは素晴らし いと感じた。 • 適用時の自己教示学習は、計算量が増えるので実機制御では計算速度 が問題になる場合がありそう 21

22.

参考文献 • Self-Supervised Policy Adaptation during Deployment – https://nicklashansen.github.io/PAD/ • UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS – https://arxiv.org/pdf/1803.07728.pdf 22