[DL輪読会]Learning Task Informed Abstractions

>100 Views

July 09, 21

スライド概要

2021/07/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Learning Task Informed Abstractions 発表者: 阿久澤圭 (松尾研D3) http://deeplearning.jp/

2.

書誌情報 • タイトル: Learning Task Informed Abstractions • 著者: Xiang Fu (MIT), Ge Yang (University of Chicago), Pulkit Agrawal (MIT), Tommi Jaakkola (MIT) • 投稿先: ICML2021 accepted • 概要: 強化学習のための,タスク関連・非関連の特徴量を分離する表現学習手法

3.

背景 • 強化学習において画像観測は,タスク(報酬関数)と無関係な特徴 (disctactor)を含むことが多々ある • モデルベース強化学習(図ではDreamer (Hafner et. al., 2019))の性能 はdistractorに強く影響される

4.

既存研究の問題点と本論文の提案 • 既存研究の問題点: • モデルベースRLにおけるモデルは,(1)画像の予測と(2)報酬の予測で学習する. • しかし観測がタスクに関係のない情報(distractor)を含む時, • (1) 画像の予測(再構成)では,タスクに関係のない情報を捉えてしまう • (2) 報酬の予測では,シグナルが弱く学習が難しい • 提案: • Dreamerを拡張した,Task Informed Abstraction (TIA) を提案.既存のDreamerと同様 に,画像と報酬の予測で学習.しかし,タスクに関係のない特徴量を捉えないように制約

5.

関連研究 • 提案手法のバックボーン • • Dream to Control: Learning Behaviors by Latent Imagination. (ICLR2020) タスク関連・非関連の特徴量の分離に関する研究 • Deepmdp: Learning continuous latent space models for representation learning (ICML2019) • Invariant causal prediction for block mdps (ICML2020) • Learning invariant representations for reinforcement learning without reconstruction (ICLR2021)

6.

関連研究: Dreamer [Hafner et. al. 2020] • (a) 画像・観測予測によって表現(緑色の点)を学習 • (b) 表現を入力に取る価値関数・方策を訓練(データはモデル自身から生成) • 欠点(発表論文での指摘): 表現は,タスク関連/非関連の情報を分離できていない

7.

関連研究: DeepMDP [Gelada et. al. 2019] • 二つの損失関数で表現学習 • 報酬の予測 • 次の時刻の表現(の分布)の予測 • メリット: • 画像予測を用いないため,表現は distractor-free • デメリット(発表論文の指摘): • 画像予測を用いないと,学習が難しい

8.

関連研究: MISA [Zhang et. al. 2020] • 提案: • • グラフィカルモデル上で状態を タスク関連・非関連に分離する ことを提案 欠点(紹介論文の指摘): • アイデア自体は紹介論文と同じ • practicalな手法の提案や,複雑 な画像観測を使った実験がない

9.

関連研究: DBC [Zhang et. al. 2021] • 提案: • bisimulation metricsを用 いた,タスク関連・非関連 の特徴量の分離 • DeepMDPと似ている(画 像予測を学習に用いない) • 欠点(発表論文の指摘): • 画像予測を用いないと,学 習が難しい

10.

提案手法 • グラフィカルモデル上で,状 + 態を報酬に関係のあるs と, − 関係のないs に分割

11.

提案手法の学習 • 基本的にDreamerと同様Amortized Inference(VAE)で前出のグラフィカルモデルを学習 • 追加的な4つの工夫 − • Reward Dissociation: s からは報酬が予測できないように敵対学習を行う • Cooperative Reconstruction: s + と s − からそれぞれ画像を生成しそれらを合成 • − Distractor-model-only Reconstruction: s が無情報になる問題を回避するため,s のみから再構成を行う • + Policy Learning: s のみを方策への入力とする −

12.

提案手法の学習 − • Reward Dissociation: s からは報酬が予測できないように敵対学習を行う

13.

提案手法の学習 + − • Cooperative Reconstruction: s と s からそれぞれ画像を生成し,それらを足し合わせる

14.

提案手法の学習 − • Distractor-model-only Reconstruction: s が無情報になる問題を回避するため, − s のみから再構成を行う

15.

提案手法の学習 • + Policy Learning: s のみを方策への入力とする

16.

実験: 提案手法による画像特徴の分離 •TIAは,ノイズとタスク関連の特徴をよく分離できていることがわかる

17.

実験: ManyWorld and DMC • ManyWorld env. (a, b) と DeepMind Control suit (c, d, e) 環境を用い た実験.人工的に画像特徴にdistractorを加える • 既存のモデルベースRL手法を上回る性能を確認

18.

実験: Atari • Atari環境で実験.この環境はもともとdistractorが存在する • いくつかの環境でDreamerV2を上回る・モデルフリーのアルゴリズムに匹敵

19.

まとめ • • 貢献 • タスク関連・非関連の特徴を分離するRL手法を提案 • DeepMind Control suit と Atari で,実験的に良い性能を発揮した Future work • Test-time adaptation: 訓練時に見たことのないdistractorが来たときに,それを分離したい • ハイパラ頑健性(敵対学習など使っているので) • スパース報酬への対応 • タスク関連・非関連というbinaryの帰納バイアスではなく,よりソフトな制約を課す

20.

参考文献 • Hafner, Danijar, et al. "Dream to Control: Learning Behaviors by Latent Imagination." International Conference on Learning Representations. 2020. • Gelada, C., Kumar, S., Buckman, J., Nachum, O., and Belle- mare, M. G. Deepmdp: Learning continuous latent space models for representation learning., International Conference on Machine Learning, 2019. • Zhang, A., Lyle, C., Sodhani, S., Filos, A., Kwiatkowska, M., Pineau, J., Gal, Y., and Precup, D. Invariant causal prediction for block mdps. In International Conference on Machine Learning, pp. 11214‒11224. PMLR, 2020 • Zhang, A., McAllister, R. T., Calandra, R., Gal, Y., and Levine, S. Learning invariant representations for reinforcement learning without reconstruction. International Conference on Learning Representations, 2021.