【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)

149 Views

May 31, 23

#deep learning #Deep Learning #Video Analysis #Ego Task Translation #CVPR 2023 #Yoshifumi Seki

スライド概要

2023/5/26
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.6K

各ページのテキスト

DEEP LEARNING JP Egocentric Video Task Translation (CVPR 2023 Highlight) [DL Papers] Yoshifumi Seki http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● 投稿先 ● ○ CVPR 2023 Highlight ● 投稿者 ○ テキサス大、Meta ■ First AuthorのMetaでのインターン成果選定理由 ○ ○ ウェラブルデバイスの会社に務めています一人称動画からの動作解析系に最近取り組んでいます https://vision.cs.utexas.edu/projects/egot2/ Codeのリンクはなかった、、、

https://vision.cs.utexas.edu/projects/egot2/

背景・目的 ● ● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合になっているが、それ以外の情報が少なくなるウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相互作用が記録される ○ ● ● ● タスク間にも相互作用がありので予測の助けにもある一方で特定のタスク向けの特化したモデルができてしまう危険性がある個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用してさまざまなタスクに対する統合的な枠組みを作りたい Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1 位、NR keyframe localizationで3位

一つの動画の中にたくさんのタスクが存在する

タスクの関連性を学ぶことで汎用的なモデルを作る

実現に向けた転移学習/マルチタスク学習の課題 ● ● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要であるが、それは現実的ではない一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統合モデルを作るのが難しく、特化モデルを作ることを助長している ○ ○ ○ ● モード（音声、視覚、運動）ラベルの多様性（空間的・時間的・意味的）時間の粒度（短い時間で完結する行動と、長い時間を見ないといけない行動）一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高い ○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させることがあることが指摘されている

提案手法: Ego Task Translation (EgoT2) ● ● ● ● 多様な一人称動画に対する統合的な学習フレームワーク複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することができるタスクが強く関連していない場合の影響を軽減する 2つの仕組みを持つ ○ ○ タスク専門モデル : EgoT2-s: 特定のモデルに対して学習されたモデルタスク汎用モデル : EgoT2-g: 異なるタスクへの変換を支援するためのモデル

個別のBackboneを持つ利点 ● ● ● ● それぞれのタスクの特異性（例えば時間の扱いなど）をBackboneが吸収できるその上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間の類似性が低い場合の影響も軽減ができる過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask translatorは不要なパラメータを選択的に非活性にすることができるので、重要な特徴だけを活用するように学習できるさらにその選択を分析することで、タスク間の関連についての解釈を得ることもできる

10.

EgoT2-s ●

11.

EgoT2-s ● Stage1: Individual Task Training

12.

Stage1: Individual Task Training ● ● ● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う学習方法に制限はない K個のタスクに対して、K個のモデルf_k (k=1…K)を得る

13.

Stage2: Task Specific Translation EgoT2-s ●

14.

Stage2: Task Specific Translation

15.

Stage2: Task Specific Translation 1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う

16.

Stage2: Task Specific Translation 2: 特徴ベクトルの射影を行う (Projection Layer)

17.

Stage2: Task Specific Translation 3: 各タスク特化モデルからの出力 (射影したもの )を結合

18.

Stage2: Task Specific Translation 4: Translationのための共通 Encoderに結合ベクトルを入力

19.

Stage2: Task Specific Translation 5: タスク固有のDecoderによってタスクの出力を得るこのEncoder-Decoderは抽象化されていてなんでも良い実験の中では Encoderは1層のTransformerを使っている

20.

EgoT2-g

21.

EgoT2-g ● ● ● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応できるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が必要になる EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うことを目指す

22.

EgoT2-gでの変更点 ● ● ● Stage1はEgoT2-sと同じ 1) デコーダーを汎用的な物に置き換える 2) 全てのデータセットを使って学習をする

23.

EgoT2-g: デコーダの置き換え ● ● ● ● ● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いるそれぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換えるタスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにする wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない出力された文字列からarg samplingによってタスクのラベルを復元する

24.

EgoT2-g

25.

EgoT2-g: 全てのデータセットを使った学習 ● ● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの学習をしなければならない各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの更新を行う

26.

27.

データセットとタスク ● ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点データセット５つのベンチマークがある ○ ○ ○ ○ ○ ● Episodic memory (EM) Hand and Object (HO) Audio Visual Diarization (AV) Social Interaction (Social) Forecasting AR (Action Recognition)だけ存在が確認できていない。 Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあるのはShort Team Anticipationなので、それの別名？ 4つのベンチマークにまたがる7つのタスクを選択した

28.

Human-Object InteractionなタスクでのEgoT2-sの結果

29.

Human-Human InteractionなタスクでのEgoT2-sの結果

30.

EgoT2-sのablation study

31.

EgoT2-gの結果

32.

SOTAなモデルとの比較 (1/2) Ego4D Challengeの4つのカテゴリで SOTA タスクのサイトで現在の LeadersBoardを見ることができる https://eval.ai/web/challenges/challenge-page/1625/l eaderboard/3911 https://eval.ai/web/challenges/challenge-page/1622/o verview

33.

SOTAなモデルとの比較 (2/2) Ego4D Challengeの4つのカテゴリで SOTA タスクのサイトで現在の LeadersBoardを見ることができる https://eval.ai/web/challenges/challenge-p age/1627/leaderboard/3914 https://eval.ai/web/challenges/challenge-pa ge/1598/leaderboard/3881

34.

EgoT2-sでの結果の解釈 AR(STA) は短時間での行動予測、 LTAは(比較的)長時間での行動予測。上の例は大きくシーンが変わるので、 LTAが早いうちに活性化していて、 AR は直前に活性化している。下の例はあまり急激に変わらないので、ARも早いうちから活性化している

35.

EgoT2-gでの結果解釈出力結果に対して各種タスクプロンプトを設定した時の結果の比較。

36.

まとめ・感想 ● ● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研究 Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タスクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。 ○ ● アンサンブル学習の考え方に近い物を感じるデータセット中にあるものしか反映できないものの、Ego4Dという大きなデータセットができたことの強みをよく生かしている良い研究だと感じた