【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training

842 Views

June 23, 23

#@deep learning jp #Deep Learning #Visual Reward #Value-Implicit Pre-training #Ego4D #Robot Control

スライド概要

2023/6/23
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 88.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 61.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 41.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 40.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training” Presenter: Takahiro Maeda D2 (Toyota Technological Institute) http://deeplearning.jp/

http://deeplearning.jp/

目次 1. 2. 3. 4. 5. 6. 書誌情報概要研究背景提案手法実験結果考察・所感 2

1. 書誌情報 ICLR 2023, Spotlight, Project Page, arXiv 2022年10月 ※特に明示が無い場合は，紹介論文，動画から引用 3

https://sites.google.com/view/vip-rl

2. 概要 Value Implicit Pre-training • 画像ゴールを達成するdense rewardの基盤モデル • Ego4D動画から自己教師学習 • Few-shot offline RLを実現（~20 samples）画像ゴール（棚を開ける） VIP R3M 4

3. 研究背景 (1/2) • 言語指示によるロボットコントロールの台頭 RT-1[Brohan+ 2022] 大規模指示文付きロボットデータ SayCan [Ahn+ 2022] LLMの使用 5

3. 研究背景 (2/2) • 言語指示が難しい（面倒な）場合がある – 各物体の収納指示は面倒 – 収納後の画像で指示したい大量の言語指示が必要大量の物体所定の位置 • しかし，実ロボットによるデータ収集は行いたくない – コスト低減 – Ego4Dによって収集データ，タスクの幅を広げる – Metaの戦略？ Googleと対照的 6

4. 提案手法 • 概要 – タスクの連続性を持った画像特徴量𝜙(𝑜)を学習 – Ego4D動画の各フレームに対してContrastive Learningで表現学習 – 推論（後続のfew-shot offline RL）の報酬をゴール特徴量𝜙(𝑔)への距離で定義 7

4. 提案手法 • 主観視点動画で学習できる理論的な背景 𝑎 :行動 𝑜 :観測画像 𝑜 ′:次観測 𝑔 :ゴール画像 𝑟 :報酬 𝑑 :分布 – KL-regularized offline RL objective 割引報酬行動,観測ペアの分布間KL誤差 • 人のaction 𝑎 𝐻 は本質的にわからない • Fenchel dualityによって，𝑎 𝐻 がない形へ変形初期位置の価値期待値 Temporal differenceの期待値 8

4. 提案手法 • 主観視点動画で学習できる理論的な背景（続き） – 最適な価値関数＝正しく学習された画像特徴量の負の二乗誤差とすると初期位置とゴールの特徴量を近づける隣接観測の特徴量を遠ざける 9

10.

4. 提案手法 • 導出された式は直観に反するような？ – 隣接観測の特徴量を遠ざける？ – 類似手法とも異なる • Time Contrastive Network右図 • 結果はかなり良い – 遠ざけることで報酬が単調減少になる証明あり 10

11.

4. 提案手法 • 得られた特徴量𝜙(𝑜)をfew-shot offline RLへ適用 – サンプル数 ~20！ – Reward Weighted Regression（RWR）を使用 – 特徴量𝜙(𝑜)を，policyの入力，ゴール条件付け報酬として使用 – 通常のoffline RLでは，大量のサンプルとdense rewardの設計が必要 • 提案手法で解決 11

12.

5. 実験結果 • 実環境でのfew-shot offline RL 12

13.

• EpicKitchenでのfew-shot offline RL 画像ゴール VIP R3M 13

14.

• 復帰するような動作も得られるらしい – BCと違い，offline RLを行っているから 14

15.

余談 • CLIPによって，言語＋画像で報酬を定義できるextendも登場 15

16.

6. 考察・所感 • 所感 – ゴールを画像として与えることが合理的な場合もあるはず – 最近のImage Editingとの組み合わせも考えられる – クックパッドなどの中間画像がある場合では，料理を材料作れるかも？ • Future work – 現状，価値関数がsymmetric=環境が可逆なことを仮定してしまっている – VIPのfine-tuning – ナビゲーションや各種予測にも使える可能性あり 16

17.

追記 • Ego4D全体で学習している？またはsubsetで学習？ – VIPの元となったR3Mでは，subsetをとることは明示的に書いていない – Canonial clipsをそのまま用いているらしい • https://github.com/facebookresearch/r3m/issues/13 17

https://github.com/facebookresearch/r3m/issues/13