【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)

>100 Views

May 31, 23

スライド概要

2023/5/26
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Egocentric Video Task Translation (CVPR 2023 Highlight) [DL Papers] Yoshifumi Seki http://deeplearning.jp/

2.

書誌情報 ● 投稿先 ● ○ CVPR 2023 Highlight ● 投稿者 ○ テキサス大、Meta ■ First AuthorのMetaでのインターン成果 選定理由 ○ ○ ウェラブルデバイスの会社に務めています 一人称動画からの動作解析系に最近取り組ん でいます https://vision.cs.utexas.edu/projects/egot2/ Codeのリンクはなかった、、、

3.

背景・目的 ● ● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合に なっているが、それ以外の情報が少なくなる ウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相 互作用が記録される ○ ● ● ● タスク間にも相互作用がありので予測の助けにもある 一方で特定のタスク向けの特化したモデルができてしまう危険性がある 個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用して さまざまなタスクに対する統合的な枠組みを作りたい Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1 位、NR keyframe localizationで3位

4.

一つの動画の中にたくさんのタスクが存在する

5.

タスクの関連性を学ぶことで汎用的なモデルを作る

6.

実現に向けた転移学習/マルチタスク学習の課題 ● ● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要である が、それは現実的ではない 一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統 合モデルを作るのが難しく、特化モデルを作ることを助長している ○ ○ ○ ● モード(音声、視覚、運動) ラベルの多様性(空間的・時間的・意味的) 時間の粒度(短い時間で完結する行動と、長い時間を見ないといけない行動) 一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用 していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高 い ○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させること があることが指摘されている

7.

提案手法: Ego Task Translation (EgoT2) ● ● ● ● 多様な一人称動画に対する統合的な学習フレームワーク 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが できる タスクが強く関連していない場合の影響を軽減する 2つの仕組みを持つ ○ ○ タスク専門モデル : EgoT2-s: 特定のモデルに対して学習されたモデル タスク汎用モデル : EgoT2-g: 異なるタスクへの変換を支援するためのモデル

9.

個別のBackboneを持つ利点 ● ● ● ● それぞれのタスクの特異性(例えば時間の扱いなど)をBackboneが吸収できる その上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間 の類似性が低い場合の影響も軽減ができる 過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask translatorは不要なパラメータを選択的に非活性にすることができるので、重要な 特徴だけを活用するように学習できる さらにその選択を分析することで、タスク間の関連についての解釈を得ることもでき る

10.

EgoT2-s ●

11.

EgoT2-s ● Stage1: Individual Task Training

12.

Stage1: Individual Task Training ● ● ● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う 学習方法に制限はない K個のタスクに対して、K個のモデルf_k (k=1…K)を得る

13.

Stage2: Task Specific Translation EgoT2-s ●

14.

Stage2: Task Specific Translation

15.

Stage2: Task Specific Translation 1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う

16.

Stage2: Task Specific Translation 2: 特徴ベクトルの射影を行う (Projection Layer)

17.

Stage2: Task Specific Translation 3: 各タスク特化モデルからの出力 (射影したもの )を結合

18.

Stage2: Task Specific Translation 4: Translationのための共通 Encoderに結合ベクトルを入力

19.

Stage2: Task Specific Translation 5: タスク固有のDecoderによってタスクの出力を得る このEncoder-Decoderは抽象化されていてなんでも良い 実験の中では Encoderは1層のTransformerを使っている

20.

EgoT2-g

21.

EgoT2-g ● ● ● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応で きるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が 必要になる EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うこ とを目指す

22.

EgoT2-gでの変更点 ● ● ● Stage1はEgoT2-sと同じ 1) デコーダーを汎用的な物に置き換える 2) 全てのデータセットを使って学習をする

23.

EgoT2-g: デコーダの置き換え ● ● ● ● ● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いる それぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換 える タスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにす る wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない 出力された文字列からarg samplingによってタスクのラベルを復元する

24.

EgoT2-g

25.

EgoT2-g: 全てのデータセットを使った学習 ● ● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの 学習をしなければならない 各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの 更新を行う

26.

データセットとタスク ● ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット 5つのベンチマークがある ○ ○ ○ ○ ○ ● Episodic memory (EM) Hand and Object (HO) Audio Visual Diarization (AV) Social Interaction (Social) Forecasting 4つのベンチマークにまたがる7つのタスクを選択した

27.

データセットとタスク ● ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット 5つのベンチマークがある ○ ○ ○ ○ ○ ● Episodic memory (EM) Hand and Object (HO) Audio Visual Diarization (AV) Social Interaction (Social) Forecasting AR (Action Recognition)だけ存在が確認できていない。 Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ るのはShort Team Anticipationなので、それの別名? 4つのベンチマークにまたがる7つのタスクを選択した

28.

Human-Object InteractionなタスクでのEgoT2-sの結果

29.

Human-Human InteractionなタスクでのEgoT2-sの結果

30.

EgoT2-sのablation study

31.

EgoT2-gの結果

32.

SOTAなモデルとの比較 (1/2) Ego4D Challengeの4つのカテゴリで SOTA タスクのサイトで現在の LeadersBoardを見ることが できる https://eval.ai/web/challenges/challenge-page/1625/l eaderboard/3911 https://eval.ai/web/challenges/challenge-page/1622/o verview

33.

SOTAなモデルとの比較 (2/2) Ego4D Challengeの4つのカテゴリで SOTA タスクのサイトで現在の LeadersBoardを見ることが できる https://eval.ai/web/challenges/challenge-p age/1627/leaderboard/3914 https://eval.ai/web/challenges/challenge-pa ge/1598/leaderboard/3881

34.

EgoT2-sでの結果の解釈 AR(STA) は短時間での行動予測、 LTAは(比較的)長時間での行動予測。 上の例は大きくシーンが変わるので、 LTAが早いうちに活性化していて、 AR は直前に活性化している。 下の例はあまり急激に変わらないの で、ARも早いうちから活性化している

35.

EgoT2-gでの結果解釈 出力結果に対して各種タスクプロンプ トを設定した時の結果の比較。

36.

まとめ・感想 ● ● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研 究 Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タ スクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。 ○ ● アンサンブル学習の考え方に近い物を感じる データセット中にあるものしか反映できないものの、Ego4Dという大きなデータセッ トができたことの強みをよく生かしている良い研究だと感じた