[DL輪読会]Self-Supervised Policy Adaptation during Deployment

>100 Views

March 05, 21

deep learning

スライド概要

2021/03/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] Self-Supervised Deployment Policy Adaptation during Kohei Nishimura http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル – Self-Supervised Policy Adaptation during Deployment • 著者 – Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Alenyà, Pieter Abbeel, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang • 所属 – UC San Diego, Technical University of Denmark, IRI, CSIC-UPC, UC Berkeley, NYU • 発表会議 – ICLR 2020(評価7, 7, 7, 7) • リンク • – プロジェクトページ: https://nicklashansen.github.io/PAD/ – 論文: https://openreview.net/forum?id=o̲V-MjyyGV̲ – コード: https://github.com/nicklashansen/policy-adaptation-duringdeployment ※注釈がない場合は、本論文からの引用 2

概要 • 強化学習方策の汎化性能を向上させる方法として、学習時および適用時の両方で自己教示学習をする方法を提案した。 • 画像入力の問題設定において、ダイナミクスの推定と入力画像の回転を推論する2つのタスクを自己教示学習方法として用いて、性能を確認した。 • シミュレーターおよび実世界の複数の問題設定において手法を検証した。 3

概要動画 • https://youtu.be/a9DwLg0nRUQ 4

https://youtu.be/a9DwLg0nRUQ

目次 • • • • • 背景先行研究提案手法結果まとめ 5

背景 • 未知の環境に対する汎化性能は機械学習全般で重要である • 強化学習を用いた制御方策の学習においては、テスト環境への汎化性能が特に重要である。 – 実機でのサンプリングや報酬の獲得が難しいため。 6

先行研究 • これまで制御方策の汎化性能を向上させるために様々な研究が行われてきた。 • 多くの手法は、ターゲットドメインのデータを見れることを仮定していた。 • 本論文では、完全に見たことがない環境でも動作する手法が必要だと主張している。 Adversarial Discriminative Domain Adaptation https://arxiv.org/pdf/1702.05464.pdf 7

https://arxiv.org/pdf/1702.05464.pdf

提案手法の概要 • 手法の概要図 8

提案手法の肝 • 論点 – 環境に対する汎化性能が高い制御方策をどうやって獲得するか • 打ち手 1. 自己教示学習を用いたアーキテクチャ • 適⽤時にも学習が可能なフレームワーク • ダイナミクスに対する汎化性能を向上させるためのタスク 2. ダイナミクスを用いた自己教示学習 3. 入力画像を用いた自己教示学習 • ⼊⼒画像に対する汎化性能を向上させるためのタスク 9

10.

1. 制御アーキテクチャ • 学習時 – 報酬を用いた強化学習 + 自己教示学習 • テスト時 – 自己教示学習 10

11.

1.の詳細アーキテクチャの詳細 • ネットワークアーキテクチャ 11

12.

2.ダイナミクスを用いた自己教示学習 • 収集した!" , !"$% , &" を用いて自己教示学習を行う。 – 入力が!" , !"$%、出力が&" – 目的関数は以下の式 – 行動空間が連続値の場合'はMSE、離散値の場合の'はクロスエントロピー • s"$% を学習するタスクだと、常に0を学習するダイナミクスが学習される可能性があり、うまくいかない。 12

13.

3.入力画像を用いた自己教示学習 • 入力画像を0 , 90 , 180 , 270 に回転させ、回転角度4クラスに分類するタスクを行う。 • 過去の画像認識タスクにおいて有効であることを確認された手法。 UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS https://arxiv.org/pdf/1803.07728.pdf 13

https://arxiv.org/pdf/1803.07728.pdf

14.

比較手法 • SAC/A2C • + DR – Domain Randomization • + IDM – Inverse Dynamics Model • + IDM(PAD) – Inverse Dynamics Model + Policy Adaptation Deployment 14

15.

実験設定 • Simulator – DeepMind Control suite, CRLMaze 15

16.

実験結果定量評価 DeepMind Control Suite • ベースラインよりも高い報酬を得られることを確認した。 – DeepMind Control Suite 16

17.

実験結果定量評価 CRLMaze • ベースラインよりも高い報酬を得られることを確認した。 – CRLMaze 17

18.

実験設定 • ロボットのマニピュレーション 18

19.

実験結果定量評価 • ベースラインよりも高い成功率であることを確認した。 19

20.

まとめ • 強化学習方策の汎化性能を向上させる方法として、学習時および適用時の両方で自己教示学習をする方法を提案した。 • 画像入力の問題設定において、逆ダイナミクスの推定と入力画像の回転を推論する2つのタスクを自己教示学習方法として用いて、性能を確認した。 • シミュレーターおよび実世界の複数の問題設定において手法を検証した。 20

21.

所感 • シンプルな手法の組み合わせで、高い性能をあげているのは素晴らしいと感じた。 • 適用時の自己教示学習は、計算量が増えるので実機制御では計算速度が問題になる場合がありそう 21

22.

参考文献 • Self-Supervised Policy Adaptation during Deployment – https://nicklashansen.github.io/PAD/ • UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS – https://arxiv.org/pdf/1803.07728.pdf 22

[DL輪読会]Self-Supervised Policy Adaptation during Deployment

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト