【DL輪読会】Revisiting Feature Prediction for Learning Visual Representations from Video

1.

DEEP LEARNING JP [DL Papers] Revisiting Feature Prediction for Learning Visual Representations from Video 小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報論文URL https://scontent-nrt12.xx.fbcdn.net/v/t39.23656/427986745_76844129864010 4_1604906292521363076_n.pd f?_nc_cat=103&ccb=17&_nc_sid=3c67a6&_nc_ohc=P eKUtiEELAQAb7YxVUy&_nc_ht= scontent-nrt12.xx&oh=00_AfAtFvgwTOeuZnGv5fgo3DZwTTb0ts hKG_oWSZOLXy7aA&oe=661C4 5F1 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://scontent-nrt1-

3.

https://github.com/facebookresearch/jepa

4.

5.

１. イントロダクション • 人間は、目から受け取る基本的な信号を用いて、物や動きなどの概念を理解し組み合わせる、とても優れた能力を持っている。このプロセスを通じて、私たちは周りの世界をより深く理解することができる。 • 機械学習の分野では、人間がどのようにしてこのような学習を行っているのか、そしてそれを可能にする基本原理や目的は何かを明らかにすることが一つの大きな目標である。 • この分野で注目されている考え方の一つに、「Predictive feature principle」がある。これは、時間的に近い瞬間に得られる感覚情報は、互いに予測し合うべきだという考えである。現在見たり感じたりしていることから、次に何が起こるかを予測する能力が、人間の学習過程において重要であるということを示唆している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

6.

１. イントロダクション • 本研究では、映像から視覚的な情報を自動で学習する新しい方法として、V-JEPA（video joint-embedding predictive architectures）を提案する。 • 教師なし学習で特徴量を予測することに焦点を当てている。特徴予測のみに基づき、事前訓練された画像エンコーダー、テキスト、Negative sample、人手によるアノテーション、またはピクセルレベルの再構成を使用せずに構築されている。研究内容 • 動画から視覚表現を学習するためのV-JEPAモデルの事前訓練を実施。 • この事前訓練には、200万本もの動画データセットを使い、動画の一部を隠してその情報を予測する「マスキングモデリング」と、画像や動画の深い意味を理解するための「JEPA」を組み合わせた方法を取った。 • そのモデルを使い、画像や動画の様々なタスクにおける性能を、モデルの重みを変更せずに測定したり（固定評価）、モデル全体を最適化（エンドツーエンドのfine-tuning）することで性能を測定した。特徴量予測は動画から情報を学ぶ際の非常に効果的な方法であることがわかった。この方法では、画像や動画から多様で役立つ情報を抽出でき、モデルの重みを変えることなく多くのタスクで高い性能を発揮する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6

7.

8.

１. イントロダクション映像で事前学習したV-JEPAモデルは、汎用性の高い視覚表現を学習する Figure 1 • 運動ベースタスク(Something-Something-v2)と外観ベースタスク (Kinetics 400)において、モデルのパラメータを fine-tuning させることなく良好な結果を得ることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

9.

２. 関連研究 Slow Features • 予測可能性を高める一つのアプローチは、フレーム間での変化を緩やかにすることである。過去の研究では、ビデオの各フレームが時間的にあまり変わらないようにすることを目指し、フレームの特徴が崩れないようにスペクトル法を使用していた。 • しかし、最近のアプローチでは、連続する2つのフレームが同じ特徴点に写るようにするシャム畳み込みネットワーク、ペア損失やトリプレット損失を通じて離れたフレーム間での特徴の多様性を保持している。さらに、ノイズ対比推定（NCE）という技術を使って、時間を通じて安定した表現を実現する手法も開発されている。 • 本論文では、これらの時間的不変性の手法を進化させ、マスキングモデリングを用いて特徴量予測に更に深く取り組んでいる。これにより、ビデオフレームの特徴を予測する際に、より効果的な学習ができるようになることを目指している。 Predictive Features • 時間を超えて同じままの特徴を持つことにとどまらず、特定の時点でのビデオフレームの特徴から、別の時点でのフレームの特徴を予測することを学ぶ予測ネットワークを導入している。 • これまでの研究では、事前に学習され凍結された画像やビデオのエンコーダー上に、このような予測ネットワークを学習することが行われてきた。そして、エンコーダーの重みを解凍し、動画エンコーダーと予測ネットワークを同時に学習させる方法もある。表現が過度に単純化されるのを防ぐために、教師ありの動作予測損失や、コントラスト損失を利用して遠いフレームの表現をNegative sampling として活用するなどの工夫もされている。特に後者の方法は、小さなサイズの畳み込みエンコーダーに焦点を当てている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

２. 関連研究自己教師あり学習の進展 • 自己教師あり学習では、ViT を利用したアプローチが一般的になっている。これは、Transformerをピクセルのデコードに応用し、学習可能なマスクトークンを使うことで、イメージの一部を隠しながらもピクセルレベルでの特徴を学び取ることが可能になっている。この方法は、 Autoencoderの品質を格段に向上させている。 • この手法は動画データにも応用され、時空間のマスクを使ったモデリングが行われてきた。最近の研究では、クロスアテンションを用いた新しい学習可能なプーリング機構によって、マスクイメージ自己符号化器の性能がさらに向上することが示された。 • さらに、BYOL（Bootstrap Your Own Latent）という非コントラストなアプローチを選択し適用することで、画像特徴量予測にもこの手法を活用できるようになった。これにより、手動で設計されたイメージ変換への不変性に頼らずとも、多様な下流タスクに対して有効な表現を学ぶことができるようになっている。特徴量予測とピクセル再構成の比較 • ピクセル再構成では、モデルに視覚入力の細かいディテールを捉えさせるために、多くの計算リソースとモデルの容量が必要となる。これに対して、潜在空間での予測は、目指すべき表現から関係のない、または予測不可能なピクセルレベルの情報を省略できる柔軟性を持つ。表現空間での予測は、low-shot学習や線形プロービングといったタスクでも汎用性の高い表現を生み出すことがわかっている。さらに、ピクセル再構成に比べて、事前学習の効率が良いことも確認されている。 • Baevskiらの研究によれば、表現空間での予測は、画像や音声、テキストといった様々なドメインで、エンドツーエンドのfine-tuning においても優れたパフォーマンスを発揮する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

3. 手法 V-JEPA（video joint-embedding predictive architectures） • 学習は空間分解能H×WのTフレームからなるビデオクリップをL個のトークンの列に一次元配列化したもので動作する。 ①ビデオクリップからトークンを削除して、x-encoderの入力を得る。 ②x-encoderはマスクされたビデオシーケンスを処理し、各入力トークンに対する埋め込みベクトルを出力する。 ③x-encoderの出力をマスクされた時空間パッチの位置埋め込みを含む学習可能なマスクトークンと連結する。 ④予測器ネットワークは、結合されたトークン列から、各マスクトークンの埋め込みベクトルを出力する。 ⑤予測器の出力は、L1損失を用いて予測対象に回帰する。（予測対象は、y-エンコーダの出力。） Figure 3 ① Copyright (C) Present Square Co., Ltd. All Rights Reserved. ② ③ ④ ⑤ 11

12.

3. 手法 3.1 目的関数 • • • ビデオの一部分 𝑦 に基づいて計算された表現は、ビデオの別の部分 𝑥 から計算された表現から予測可能であるべきであるという要件を満たすために、視覚エンコーダ𝐸θ ・を訓練する。ここで、𝑥 の表現を 𝑦 の表現に変換する予測器ネットワーク 𝑃Φ (・) は、視覚エンコーダと同時に学習される。さらに、 𝑦 の時空間な位置情報を条件変数 𝑧 ← Δ𝑦 を通じて提供し、この情報を使って 𝑦 の表現を予測する。回帰を用いて目的関数を単純に実装すると以下になる。当手法では、表現の崩壊を防ぐために、回帰の目的関数を以下のように修正して使用する。 𝑠𝑔(·) は勾配を止めるストップグラディエント操作。引数に対して逆伝播しない。 𝐸θ (·) は、ネットワーク 𝐸θ ・の指数移動平均。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

3. 手法 3.1 目的関数 V-JEPAで採用した崩壊防止戦略は、BYOLを応用したものである。ここでは、L1損失に単純に適応したものを示す。（簡単にするため、条件変数 z の影響は無視し、1次元の表現を考えることにする。）表現 Eθ (𝑦) をランダム変数 𝑌 で表すと、式(1)の下での最適な予測関数は以下のようになる。この式を予測器の損失関数に代入すると、エンコーダーの勾配は、𝑌 | 𝐸θ (𝑥) の条件付き中央絶対偏差（MAD）で求められる。予測器が最適に機能する場合、エンコーダーはビデオからできるだけ多くの情報を取り込むように学習する必要がある。（予測と実際の値の差を最小限に抑えるため。） • このアプローチの背景にある考え方は、𝑦 の表現を計算する際に指数移動平均を使用することで、予測器をエンコーダーよりも迅速に更新し、最適な状態に近づけ続けることができる。これにより、エンコーダーが生成する表現が過度に単純化されることなく、多様性を保ちながら効果的に学習を進めることが可能になり、表現の崩壊を防ぐことができる。 13 Copyright (C) Present Square Co., Ltd. All Rights Reserved. •

14.

３. 手法 3.2 予測タスク（ x から y を予測する） • • • • 特徴量予測タスクは、マスクモデリングに基づいている。具体的には、動画からランダムに領域 x と y をマスキングして抽出する。 y を抽出する際は、空間的に連続するいくつかの(重なり合う可能性のある)ブロックを、動画の全時間軸にわたって繰り返す。 x は y で抽出した以外の領域となる。時間軸全体にわたる大きな連続ブロックをマスクすることで、動画の空間的・時間的な冗長性によるリークを最小限に抑え、より困難な予測タスクを学習させることになる。本研究では2種類のマスクを使用している。 • • short-range mask: 各フレームの15%をカバーする8つのランダムサンプルブロックの和集合 long-range mask: 各フレームの70%をカバーする2つのランダムサンプルブロックの和集合 ※両方のマスクともに、ブロックのアスペクト比はランダムに(0.75, 1.5)の範囲から選ばれる。 • この multi-block マスキング戦略により、平均マスキング率は約90%となる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

３. 手法 3.3 ネットワークのパラメータ設定 • ビデオクリップを16x16ピクセルのブロックに分割し、それらを2フレームごとに空間的にも時間的にもまたがる3Dグリッドとして配置したパッチ（トークン）で構成する。 • このプロセスにおける入力 x と y は、ビデオの一部を隠すマスキングによって得られるもので、x はエンコーダに入力され、y はエンコーダの出力でマスキングされた後、文脈化されたターゲットを作成するために使用される。 • エンコーダは標準的なViTを用いて表現され、予測器は12ブロック、384次元の埋め込みを持つ狭い（narrow）Transformerで実装されている。 • Masked autoencoderのアイデアからヒントを得て、予測器は x エンコーダから生成された埋め込み系列と、y トークンの空間-時間位置を示す学習可能なマスクトークンの系列を入力として受け取る。出力は、各マスクトークンの埋め込みベクトル。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

３. 手法 3.4 事前学習データと評価データ事前学習データ • • • • • 教師なしの動画プリトレーニングデータセット「VideoMix2M」を構築。HowTo100M、Kinetics-400/600/700、SomethingSomething-v2の動画を組み合わせ、Kinetics-400/600/700とSSv2の検証セットとの重複を除き、約2百万本の動画から構成。 ViT-L/16、ViT-H/16、ViT-H/16384 の3つのトランスフォーマーモデルをVideoMix2Mで学習。 ViT-L/16 と ViT-H/16 は 224pixel 、ViT-H/16384 は 384pixel で処理する。入力は16フレームで、4フレームスキップの約 3 秒クリップ。 ViT-L/16とViT-H/16はバッチサイズ3072、ViT-H/ 16384 は2400。評価データ • • • • • 動画タスクでは、VideoGLUEベンチマークのサブセットを使用して評価。 Kinetics-400 (K400) - 動作認識 (外観理解) Something-Something-v2 (SSv2) - 動作分類 (時間理解) AVA - 行動認識と位置特定 Kinetics-400のタスクは、ビデオ内の特定のオブジェクトの存在から推定可能な外観ベースの理解を評価。 Something-Something-v2は、ビデオ内の外観/オブジェクトの存在とは無関係な動作クラスを対象としているため、時間理解を評価。 AVAのタスクは、ビデオ内の動作を理解し、位置特定する能力を評価。画像タスクでは、ImageNet (物体認識)、Places205 (シーン分類)、iNaturalist 2021 (細粒度認識)で評価。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

４. ビデオから表現を学習する上で重要なこと 4.1 Pixel と Featurized Target の比較 • • • • 特徴空間とピクセル空間で予測損失を計算する効果を検証。すべてのモデルは、マルチブロック予測タスクを用いて、 VideoMix2Mで9万イテレーション、バッチサイズ3072で訓練。 fine-tuning なしバックボーンでのattentive probingによる下流タスクのパフォーマンスと、K400でのend-to-endのfinetuningパフォーマンスを評価。特徴空間での予測は、ピクセル空間での予測よりも一貫して良好な結果を示している。 4.2 事前学習データの比較 • • Table 1 Table 2 全てのモデルをバッチサイズ3072で9万イテレーションの事前学習を行い、中心ビューを用いたattentive probeでfinetuningなしのバックボーンを用いた場合の下流性能を評価。タスク間の平均性能は、事前学習データセットのサイズが大きくなるにつれて向上。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

４. ビデオから表現を学習する上で重要なこと 4.3 Average Pooling と Adaptive Pooling の比較 fine-tuningなし V-JEPAエンコーダの出力特徴マップを Pooling する方式の比較結果。 2つのプーリング手法を評価。 Average Pooling (Avg.) Adaptive Pooling (Att.) 下流の教師あり課題(K400とSSv2)の評価は、中央ビューで行っている。クロスアテンションを使った Adaptive Pooling を使うと、K400で+17.3ポイントの改善、SSv2で+16.1ポイントの改善。 Table 3 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

４. ビデオから表現を学習する上で重要なこと 4.4 マスキング手法の比較すべてのモデルは ViT-L/16で、K710 と SSv2 で事前学習。中央ビューでの attentive probe を使って評価。 3つの異なるマスキング手法を比較。 random-tube [r]: ビデオから 𝑟 割のチューブ(時間方向に伸びた空間パッチ)をランダムにマスクして 𝑥 とする。 causal multi-block [p]: 16フレームビデオの最初の 𝑝 フレームをマスクし、それ以外を 𝑦 とする。 multi-block: ビデオ全体からランダムな空間-時間ブロックをマスクして 𝑥 とする。結果として、multi-blockマスキング手法が最も良いパフォーマンスを示している。 Table 4 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

5. 先行研究との比較 5.1 画素予測との比較 SSv2の fine-tuning 性能とサンプルの比較 • • • • SSv2 fine-tuningなし性能と事前学習時間の関係 V-JEPAとピクセル再構成ベースラインの、SomethingSomething-v2(SSv2) の fine-tuning 性能を比較。 ViT-L/16 と Hiera-L の2つのアーキテクチャを使用。 V-JEPA は ViT-L/16 ではピクセル再構成手法を上回る。また、Hiera-L と同等の性能を達成しつつ、予備学習時のデータ量は大幅に少ない。 Figure4 Copyright (C) Present Square Co., Ltd. All Rights Reserved. • • • VideoMAE と VideoMAEv2 の公式コードベースを用いて、バッチサイズ10クリップのシングルGPUで、バッチサイズ2400 サンプルを想定して線形に外挿。ビデオピクセル予測手法の SSv2精度は、実際にはバッチサイズが小さく、学習スケジュールが大幅に長い。 V-JEPAはピクセル再構成法よりも性能が高く、学習速度も大幅に向上。 Figure5 20

21.

5. 先行研究との比較 5.1 画素予測との比較 V-JEPAとピクセル再構築損失を利用するOmniMAE、Video-MAE、Hieraの比較結果 • • • • • すべてのモデルは ViT-L またはそれに準ずるモデルを使用。画像タスク(IN1K、Places205、iNat201)とビデオタスク(K400、SSv2、AVA)で、 fine-tuningなしと fine-tuningありを比較。 224pixelで評価。 fine-tuningなしでは、V-JEPAはImageNetを除くすべてのタスクで他手法を上回った。 ImageNetではOmniMAEが75.1%に対しV-JEPAは74.8%。 • • fine-tuningありでは、V-JEPAがViT-Lモデルの中で最良の性能を示し、SSv2では Hiera-L と同等の結果を得た。 V-JEPAは、事前学習のデータ数が他のモデルと比べて少ない中で、以下に記載の精度を達成している。 Table 5 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

5. 先行研究との比較 5.2 V-JEPAと最先端の他手法との比較結果 • • • • • fine-tuningなしにおける attentive probeを使った、画像タスク(IN1K、Place205、iNat21)とビデオタスク(K400、SSv2、AVA) での比較評価。 I-JEPA512 と V-JEPA384 は 512pixel と 384pixel で評価、その他は224pixel。 V-JEPAは、他のビデオベースラインと比べて全てのタスクで一貫した改善を示している。 fine-tuningなし評価で優れた画像モデルと比べて、V-JEPAは動作理解を要するSSv2タスクで+21ポイントの大幅な性能向上。静的な外観特徴を必要とするタスクでも、ビデオモデルと画像モデルの差を縮小している。 Table 6 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

5. 先行研究との比較 5.3 ラベル効率 Kinetics-400 と Something-Something-v2 データセットの、attentive probe用のトレーニングデータ割合を5%、10%、50%と変化させて評価。それぞれ3回ランダムに分割し、より堅牢なメトリクスを得る。合計9つの異なる評価実験を行った。 • 結果として、V-JEPAはラベル効率が高く、ラベル付きデータ数が減少するほど、V-JEPAと他のベースラインの性能差が大きくなる。 ⇒V-JEPAの表現の汎用性と、ラベル効率の高さを示す結果だと言える。 • Table 7 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

6. 予測器の評価 V-JEPAモデルの定性的な検証 • V-JEPAの予測器ネットワークは、ビデオ内の見える領域 x から、隠された時空間領域 y の内容を予測するように設計されている。 • 特徴量予測の理由をより深く理解するために、事前に訓練されたエンコーダと予測器ネットワークを変更せずにそのまま利用し（凍結し）、 V-JEPAの予測結果をわかりやすいピクセルの形に変換する新しいデコーダーを学習させる。 • 注目すべき点は、このデコーダーはビデオの隠された部分に対する予測結果の情報だけを受け取り、ビデオの隠されていない部分についての情報は一切使用しないことである。 Figure 6(a) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24

25.

6. 予測器の評価 V-JEPAモデルの可視化結果 Figure 6(b) 上段：V-JEPAモデル(ViT-H/16エンコーダと予測ネットワーク)への入力として使われるマスク済みのビデオ。２～４段：デコーダから生成されたサンプルが元のビデオにオーバーレイされて表示。 ※V-JEPAは生成モデルではないため、デコーダはマスクされた領域のコンテキスト情報を持たない。サンプルが入力と完全に一致することは期待されない。この実験から、V-JEPAがどのような情報をエンコードし予測しているかを定性的に理解できる。特に、サンプル間で共通の特徴は、V-JEPAの予測に含まれる情報を表している。予測結果は、ビデオのマスクされていない領域と空間的・時間的に整合性のあるものになっており、時間方向の一貫した動きも捉えられている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25

26.

7. 結論まとめ • 事前学習済みのエンコーダ、テキスト、Negative sample、再構成といった要素を使わずに、特徴量予測を単独の目的関数とするV-JEPA手法を提案。 • V-JEPAは200万本の動画で学習され、パラメータ調整なしで動作特徴と外観特徴の両方のタスクで高い性能を発揮する汎用的な視覚表現を学習。 • ViT-H/16というサイズのV-JEPAモデルは、Kinetics-400で81.9%、Something-Something-v2で72.2%、 ImageNet1Kで77.9%の精度を達成。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26

27.

Appendix 参考文献 • Elizabeth S Spelke, Peter Vishton, and Claes Von Hofsten. Object perception, object-directed action, and physical knowledge in infancy. 1995. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, and Nicolas Ballas. Self-supervised learning from images with a joint-embedding predictive architecture. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 15619–15629, 2023. • Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, et al. Bootstrap your own latent: A new approach to self-supervised learning. arXiv preprint arXiv:2006.07733, 2020. • Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao Wang, Shumin Han, Ping Luo, Gang Zeng, and Jingdong Wang. Context autoencoder for self-supervised representation learning. arXiv preprint arXiv:2202.03026, 2022. • Zhan Tong, Yibing Song, Jue Wang, and Limin Wang. Videomae: Masked autoencoders are data-efficient learners for selfsupervised video pre-training. Advances in neural information processing systems, 35:10078–10093, 2022. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 27

【DL輪読会】Revisiting Feature Prediction for Learning Visual Representations from Video

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト