【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training

304 Views

June 23, 23

スライド概要

2023/6/23
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training” Presenter: Takahiro Maeda D2 (Toyota Technological Institute) http://deeplearning.jp/

2.

目次 1. 2. 3. 4. 5. 6. 書誌情報 概要 研究背景 提案手法 実験結果 考察・所感 2

3.

1. 書誌情報 ICLR 2023, Spotlight, Project Page, arXiv 2022年10月 ※特に明示が無い場合は,紹介論文,動画から引用 3

4.

2. 概要 Value Implicit Pre-training • 画像ゴールを達成するdense rewardの基盤モデル • Ego4D動画から自己教師学習 • Few-shot offline RLを実現(~20 samples) 画像ゴール (棚を開ける) VIP R3M 4

5.

3. 研究背景 (1/2) • 言語指示によるロボットコントロールの台頭 RT-1[Brohan+ 2022] 大規模指示文付きロボットデータ SayCan [Ahn+ 2022] LLMの使用 5

6.

3. 研究背景 (2/2) • 言語指示が難しい(面倒な)場合がある – 各物体の収納指示は面倒 – 収納後の画像で指示したい 大量の言語指示 が必要 大量の物体 所定の位置 • しかし,実ロボットによるデータ収集は行いたくない – コスト低減 – Ego4Dによって収集データ,タスクの幅を広げる – Metaの戦略? Googleと対照的 6

7.

4. 提案手法 • 概要 – タスクの連続性を持った画像特徴量𝜙(𝑜)を学習 – Ego4D動画の各フレームに対してContrastive Learningで表現学習 – 推論(後続のfew-shot offline RL)の報酬をゴール特徴量𝜙(𝑔)への距離で定義 7

8.

4. 提案手法 • 主観視点動画で学習できる理論的な背景 𝑎 :行動 𝑜 :観測画像 𝑜 ′:次観測 𝑔 :ゴール画像 𝑟 :報酬 𝑑 :分布 – KL-regularized offline RL objective 割引報酬 行動,観測ペアの分布間KL誤差 • 人のaction 𝑎 𝐻 は本質的にわからない • Fenchel dualityによって,𝑎 𝐻 がない形へ変形 初期位置の価値期待値 Temporal differenceの期待値 8

9.

4. 提案手法 • 主観視点動画で学習できる理論的な背景(続き) – 最適な価値関数=正しく学習された画像特徴量の負の二乗誤差とすると 初期位置とゴールの特徴量を近づける 隣接観測の特徴量を遠ざける 9

10.

4. 提案手法 • 導出された式は直観に反するような? – 隣接観測の特徴量を遠ざける? – 類似手法とも異なる • Time Contrastive Network右図 • 結果はかなり良い – 遠ざけることで報酬が 単調減少になる証明あり 10

11.

4. 提案手法 • 得られた特徴量𝜙(𝑜)をfew-shot offline RLへ適用 – サンプル数 ~20! – Reward Weighted Regression(RWR)を使用 – 特徴量𝜙(𝑜)を,policyの入力,ゴール条件付け報酬として使用 – 通常のoffline RLでは,大量のサンプルとdense rewardの設計が必要 • 提案手法で解決 11

12.

5. 実験結果 • 実環境でのfew-shot offline RL 12

13.

• EpicKitchenでのfew-shot offline RL 画像ゴール VIP R3M 13

14.

• 復帰するような動作も得られるらしい – BCと違い,offline RLを行っているから 14

15.

余談 • CLIPによって,言語+画像で報酬を定義できるextendも登場 15

16.

6. 考察・所感 • 所感 – ゴールを画像として与えることが合理的な場合もあるはず – 最近のImage Editingとの組み合わせも考えられる – クックパッドなどの中間画像がある場合では,料理を材料作れるかも? • Future work – 現状,価値関数がsymmetric=環境が可逆なことを仮定してしまっている – VIPのfine-tuning – ナビゲーションや各種予測にも使える可能性あり 16

17.

追記 • Ego4D全体で学習している?またはsubsetで学習? – VIPの元となったR3Mでは,subsetをとることは明示的に書いていない – Canonial clipsをそのまま用いているらしい • https://github.com/facebookresearch/r3m/issues/13 17