【DL輪読会】Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

3.8K Views

December 15, 23

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 2.64MB)

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 26.4K

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 24.3K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13.4K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 12.6K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.5K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 10.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives Presenter: Yuki Kondo 2023.12.15 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1

Section １．書誌情報・概要２．先行研究３．提案データセット４．ベンチマークタスク５．結論・所感 2

Section １．書誌情報・概要２．先行研究３．提案データセット４．ベンチマークタスク５．結論・所感 3

書誌情報 (1/2) • 論文名 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives (arXiv2023) Ego4D [K. Grauman+ CVPR2022] と同様に、本研究も22の拠点をまたがり，101名の著者が参画した大規模ワーキンググループの成果である。 • 著者 Kristen Grauman et al. (他 100名) https://ego-exo4d-data.org/ より引用 (最終閲覧日：2023/12/14) 4

https://ego-exo4d-data.org/

書誌情報 (2/2) • URL 論文※：https://ego-exo4d-data.org/paper/ego-exo4d.pdf プロジェクトページ：https://ego-exo4d-data.org/ データセット：2023年12月末までに公開予定 Video : https://www.youtube.com/watch?v=GdooXEBAnI8&feature=youtu.be ※出典が明記されていない図表は当論文および上記URL先より引用 5

論文概要仮説：人間のスキルを捉えるためには，Ego. viewと Exo. viewが重要． Ego-Exo4D dataset 一人称視点 (Egocentric view: Ego. view)と外部視点(Exocentric view : Ego. view)から，スポーツ，音楽，ダンスなどの熟練した人の行動を，合計1,422時間撮影したデータセットを提案． 6

Section １．書誌情報・概要２．先行研究３．提案手法４．ベンチマークタスク５．結論・所感 7

Egocentric dataset • 近年，Egocentric videoの理解の研究が活発化．日常生活領域に焦点を当てている． Ego4D [K. Grauman+ CVPR2022] UT Ego [Y. Jae+ CVPR2012] EPIC-Kitchens [D. Damen+ IJCV2022] ADL [H. Pirsiavash, D. Ramanan. CVPR2012] Ego-Exo 4Dでは，① マルチモーダルなEgo-Exo キャプチャ ② 日常生活とは対照的な熟練した活動領域に焦点を当てている． 8

Multiview かつ ego-exo な dataset • 近年の傾向：特定の活動に焦点を当て，大規模化． CMU-MMAC [F. De la Torre+ TechReport2009] CharadesEgo [G. A. Sigurdsson+ CVPR2018] Assembly101 [F. Sener+ CVPR2022] Ego-Exo 4Dとの対比： ① 参加者，ロケーション，撮影時間が一桁多い． ② 研究室内のデモから，サッカー場，ダンススタジオなど，多様なシーンで，様々な全身ポーズや動きを得るため，多様性に富む． 9

10.

Section １．書誌情報・概要２．先行研究３．提案データセット４．ベンチマークタスク５．結論・所感 10

11.

Ego-Exo4D サンプル (料理タスク) 熟練した人の行動へ着目 Ego. viewと Exo. viewは補完的な情報を提供するか？現在のデータセットでは扱われていない新しい課題を提示できるか？異なるインスタンス間で期待される視覚的な多様性はあるか？技術や様々な専門知識を説明できるか？ 11

12.

Ego-Exo4D モダリティ・アノテーション構成 Ego. View • Project Aria device 利用 • RGBカメラ [J. Engel+ 2023] • モノクロステレオカメラ (SLAM用) • モノクロアイトラッキングカメラ • マイクロホンアレイ x 7 • IMU x 2, 気圧計，磁力計 • VIOおよびSLAMで 6DoF推定&地図生成 • 視線方向もアイカメラから取得． Exo. View • (Stationary) GoPro 利用 Annotations • 4~5台設置 • 言語アノテーション • Aria SLAMカメラで作成した点群地図を用いて，6DoFを取得 • 専門家のコメント：専門家の視点で見た，スキルニュアンスの総評を詳細に記述 GoPro (イメージ) https://videosalon.jp/news/go pro_hero10blackcreatoreditio n/ (最終参照日： 2023/12/14) • 実演者の行動ナレーション：チュートリアルのように自身の行動を説明 (全体の10%) • 原子行動記述：短い文で，複数の第三者が実演者の行動を記述 • ベンチマークタスクのためのアノテーション(後述) 12

https://videosalon.jp/news/gopro_hero10blackcreatoredition/

13.

Ego-Exo4D 対象行動 • Ego-Exo4Dの「熟練した人の行動への着目」に基づき，8つのスキルを選定． • いずれのスキルも，目標状態の達成のために，一連の行動が必要． • データの視覚的多様性を実現するため，世界中13都市のロケーションで撮影． • 839人の実演者から得た5,625テイクの動画データを提供． 13

14.

Section １．書誌情報・概要２．先行研究３．提案手法４．ベンチマークタスク５．結論・所感 14

15.

ベンチマークタスク概観 • 4つのベンチマークタスクを提供 Appendixには，各ベンチマークタスクの実験結果も記載． (本資料では割愛) 15

16.

Keystep Recognition① (Fine-grained keystep recognition) [ タスク定義 ] Ego., 複数Exo. ビデオセグメントから Keystep ラベル (689クラス)を学習．推論時，トリミングされた Ego. フレームのみが与えられ， Keystep ラベルを推定． [ 動機 ] • 複数視点モデルの学習により，視点不変表現の獲得，単一ビューのみを入力した際の相補性を期待 • 課題：Keystep ラベルの行動類似性 (例：ベッドシートを折りたたむ / 引き延ばす) 16

17.

Keystep Recognition② (Procedure understanding) • 17

18.

Keystep Recognition③ (Energy-efficient multimodal recognition) [ タスク定義 ] センシングおよび推論時のエネルギー制約と，異なるセンサモダリティのストリームから構成される Ego.映像が与えられ，センサの選定ポリシーも含めて，制約下でのキーステップのオンライン分類を課す． [ 動機 ] バッテリー残量が定められた実世界の問題設定のように，エネルギー予算が制限される環境下での，効率的なビデオモデルの実現を目指す． 18

19.

Proficiency Estimation [ タスク定義 ] ① Demonstrator: {Novice, early / intermediate / late expert} の4クラスビデオ分類 ② Demonstaration: {Correct, incorrect execution}のタイムスタンプ単位での2クラス分類 [ 動機 ] スキルレベルの推定を目的とする． ⇒ 新しいスキルをより効果的に学べる新しいコーチングツールや、スポーツや音楽のような領域における人間のパフォーマンスを評価する新しい方法につながる可能性がある 19

20.

Ego Pose Estimation [ タスク定義 ] Ego. ビデオから，カメラ装着者の身体と手の3D Ego. ポーズを推定 [ 動機 ] • 動的環境における単眼Ego. ビデオから，実演者の熟練した身体の動きを復元させる • ウェアラブルAIシステムには，エゴビューから身体の物理状態の推定が不可欠 • 課題： • 微妙で柔軟な動き • 頻繁なオクルージョン • 視界から外れた身体部位 20

21.

Relation ① (Ego-Exo Correspondence) [ タスク定義 ] Ego.-Exo. ペアの同期フレームにて，一方のフレームのオブジェクトのクエリマスクを与えた時，もう一方のフレームから対応するマスクを予測する [ 動機 ] • Ego.-Exo. 視点間のオブジェクトレベルの対応関係を確立することで， AIアシスタントが，その対応関係を用いて，視覚的な指示を可能とする • 課題：極端な視点の違い，高度のオクルージョン，微小物体の検出など 21

22.

Relation ② (Ego-Exo Translation) [ タスク定義 ] Exo. 動画クリップとその観測内のオブジェクトマスクが提供され，以下2つのタスクを解く． 1. Ego Track Prediction: 観測されていない Ego. フレーム内のオブジェクトマスクを予測 2. Ego Clip Generation: 生成されたEgo. ビューマスク内の RGB画像を生成 [ 動機 ] • 視点変換推定に伴う物体姿勢の暗な推定 ⇒ ロボットの知覚，ARコーチングへの応用 22

23.

Section １．書誌情報・概要２．先行研究３．提案手法４．ベンチマークタスク５．結論・所感 23

24.

結論・所感 [ 結論 ] • 人行動，特に熟練されたスキル学習のための最大級のマルチモーダル，多視点データセットおよびベンチマークタスクを提案． • 2024年6月にベンチマークチャレンジを開催予定． [ 所感 ] • データセットの貢献度の高さはもとより，複数拠点の研究者が，2年間かけて本研究を遂行されたことに敬服 • Ego-Exo4Dで獲得が期待されるEgo., Exo. のマッピング，不変表現がどのようなブレイクスルーを起こすか，注目したい • 新たなアノテーションの付与，ベンチマークタスクの提案も新規研究として狙いどころ • 論文ではタスクごとに個別のモデルを評価しているが，提案される複数タスクを一つのモデルで学習させることで，ビジョン基盤モデルの実現も期待できるのではないか？(岩澤先生との議論より) 24