【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos

>100 Views

November 21, 22

deep learning

スライド概要

2022/11/18
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 22.7K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.7K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.3K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 10.9K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.3K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.6K

各ページのテキスト

DEEP LEARNING JP Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos [DL Papers] (CVPR 2021) Yoshifumi Seki http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● 投稿先 ○ CVPR 2021 ● 投稿者 ○ Facebook Research ● 選定理由 ○ 現職がウェアラブルデバイスの会社 ○ 1人称視点の映像をどう扱うかという

背景・目的 ● Egocentric Video (一人称視点の動画)のタスクいい感じに処理するための分散表現を作りたい ● Egocentric Videoのデータセットの規模は小さいし多様ではない ● Exocentric Video (三人称視点の動画)はデータの規模が大きく多様 ● Exocentric Videoの規模の大きいデータセットを活用してEgocentric Videoに役立つ特徴量を作りたい

Key Idea ● Third-personな動画セットにも first-personっぽい映像の要素があるはず ○ それをいい感じに取り出していい感じにしたい ● 複数のfirst-personタスクで蒸留する

Framework Overview

Traditional Pre-Training ● ● ● ● 大規模なThird Person VideoからPre-train Modelを作るデータセットV_exo中のビデオvはT個のフレームf_1,...,f_TをもつフレームはN個のspatiotemporal clip feature x1,...,x_Nにencodeされる xはvideo encoder backbone (3D CNN)によってencodeされたモデル ○ c × t × h × w次元 ● 各ビデオにはaction label y_actが与えられており、ビデオのx_*を平均化したものを入力して、y^_actを出力し、クロスエントロピーLossによって訓練する ○ ここのpool+fc層をheadと呼ぶ

Framework Overview

Ego-Exo pre-training ● V_egoとV_exo両方を用いる ● 過去のegocentric under standingタスクにおけるモデルを用いる ● タスクτのモデルM_τにビデオを入力してラベルy_τを出力する ○ V_exoのビデオに各タスクに対してもこれで擬似ラベルを与える ● 各モデルに対するhead H^τに対してH^τ(v)とy_τとのauxilirary lossを計算し、 H^τを訓練する

10.

Ego-task: Ego-Score ● Egocentricかそうでないかを判断するモデル ● Charades Egoという室内での物体とのインタラクションを行うデータセットを用いて訓練してモデルを生成 ○ ○ このデータセットにはego, exo両方のデータが含まれる本来、同じ動きをego, exo両面から撮影したものであるが、こちらではそのペア情報は使わない ● Third-personのデータセットに対してもモデルを通して擬似ラベルを出力する ○ 大規模なThird person videoデータセットの中にはegocentricなものも一定含まれている

11.

Ego-task: Ego-Score

12.

Ego-task: Object-Score ● 操作しているオブジェクトを特定するタスク ● Egocentric Videoにおける最も一般的なタスク ● シンプルにフレームごとにImageNetを使って予測

13.

Ego-Task: Interaction-Map ● 物体を操作しているregionを特定する ● 既存研究のhand object detectorを用いる ○ 各フレームに対してbounding box bとconfidence score sのセットを出力する ● β_i,j: i, jのgrid cellに対してまたがっているbounding box

14.

Ego-Task: Interaction-Map ● 各領域i, jに対してy^h, y^oを出力する

15.

Ego-Task: Interaction-Map ● なぜ通常の既存研究で用いられているbounding boxではなく、Interaction Mapを生成したのか？ ○ ○ 既存研究のnetworkはstandardなvideo backboneと可換性がない ■ 既存研究は特化したnetworkで構築されていて、高解像度なデータでのみ利用可能 mapにおけるscoreを出力によって学習する方が、representationを学習するためには良い ■ 多分学習しやすい、みたいな意図かなぁと推測

16.

Ego-Exo training and evaluation ● Third-personのビデオで手が映ってなかったり物体とのインタラクションがないものがあるが、それも学習に寄与する

17.

データセット ● Kinetics-400 ○ ○ popular third-person dataset ~300k video, 400 human action classes ● Charades-Ego ○ ○ ○ ~68k instances 157 activity class 第三者映像と主観映像のペアがあるが本研究では用いない ● EPIC-Kitchens ○ ○ ○ キッチンでの主観映像 55時間のビデオ、39k action segmentets 352 objectで125の動作がアノテーションされている ● EPIC-Kitchens-100 ○ 100時間で90kのアクションに拡張

18.

比較手法 ● ● ● ● Scrach: pre-trainをせず、ランダムな初期化によって直接fine-tuneをする Third-Only: pre-trainをKinetics 400で行う。 First-Only: pre-trainをKitchen-100で行う Domain-adapt: first-personとthird-personでdomain adaptationを行った既存研究 ● Joint-embed: Kinetic-400でpre-trainした後、Charades-Egoでviewpointinvariant video modelを学習する ● Ego-Exo: pre-trainをKinetics400でやった後3つのタスクを学習する

19.

20.

Ablation Study

21.

● SOTAのモデルはもっとたくさんの特徴量を使っている（audio, flow)

22.

23.

24.

まとめ ● 第三者視点映像を使って主観視点映像のスコアを向上させるための汎用的な分散表現を獲得しようという試み ● first-person view周りの取り組みについてちゃんとよんだのは初めてだったので勉強になった ● 精度が上がったことはわかったけど、これが汎用的な表現なのか？という点については疑問が残る