622 Views
September 25, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning デロイト トーマツ ディープスクエア 小林 範久 http://deeplearning.jp/ 1
書誌情報 Date: June 13, 2025 Code: https://github.com/facebookresearch/vjepa2 Blogpost: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks 論文URL https://arxiv.org/pdf/2506.09985v1 ©2025. For information, contact Deloitte Tohmatsu Group. 選定理由 世界モデルへの関心。 LeCun氏の JEPA シリーズへの関心。 2
Agenda 1. Introduction 2. Related Work 3. V-JEPA 2: Scaling Self-Supervised Video Pretraining 4. V-JEPA 2-AC: Learning an Action-ConditionedWorld Model 5. Planning 6. Understanding: Probe-based Classification 7. Prediction 8. Understanding : Video Question Answering 9. Conclusion ©2025. For information, contact Deloitte Tohmatsu Group. 3
1. Introduction • 人間は未知の環境や新しい課題に適応・汎化でき、低レベルの感覚情報を統合して将来状態を予測する 「内部世界モデル」を学習するとされる。 • これにより物理世界を理解し、行動の結果を予測し、計画を立てる能力が生まれる。 • 近年、実世界のインタラクションデータの制約を補うため、インターネット規模の動画を活用して自己教師あり で世界モデルを学習する研究が進んでいる。 • 上記の手法は、動画から直接行動を観測せずに状態遷移を学習できるため、効率的に世界のダイナミクス を表現できる。 ©2025. For information, contact Deloitte Tohmatsu Group. 4
1. Introduction • 本研究では、LeCun氏が提案したJoint-Embedding Predictive Architecture (JEPA) を拡張し、動画を用い て予測可能な側面に焦点を当てた自己教師あり学習を行う。 • 詳細な画素レベルの生成ではなく、物理世界の本質的な理解や将来予測に強い表現を獲得する。 • 具体的には、 ①インターネット規模の動画で事前学習 ②少量のインタラクションデータでポリシー条件付きの世界モデル(V-JEPA 2-AC)を学習する 二段階の手法を提案する。 結果として、本アーキテクチャは以下を達成する。 Understanding:広範な視覚認識やビデオQAなどで最先端性能を示す。 Prediction:動画の未来状態予測タスクで従来手法を大幅に上回る精度を実現する。 Planning:追加学習なしで新規環境におけるロボット操作計画を可能にする。 ©2025. For information, contact Deloitte Tohmatsu Group. 5
2. Related Work JEPAを動画分野に適用 ©2025. For information, contact Deloitte Tohmatsu Group. 出典:A Path Towards Autonomous Machine Intelligence, Yann LeCun 6
2. Related Work V-JEPA(video joint-embedding predictive architectures)の改善 ©2025. For information, contact Deloitte Tohmatsu Group. 出典:Revisiting Feature Prediction for Learning Visual Representations from Video 7
2. Related Work World models and planning • • • これまで「World model(世界モデル)」の研究では、シミュレーションや実世界ロボット操作で、ピクセル空間や学習された特徴空間を使 った予測モデルが研究されている。 従来はタスク固有のモデルが多く、新環境や未知物体への汎化が課題であった。本研究はタスク非依存の世界モデルを訓練し、新環 境・未知物体への汎化を示す。 近年はインターネット規模の動画・インタラクションデータを用いた汎用ロボット向けモデルや、生成モデルをポリシー学習に統合する試みもあ るが、実際にロボット制御に使用できる計画能力は未検証なものが多い。本研究は模倣学習を避け、モデル予測制御(MPC)による 計画で実世界タスクをスケーラブルに解決する点が特徴。 Vision-Language-Action models for Robotic Control • • 大規模動画言語モデルを活用した模倣学習が進歩し、実演データから学習してロボット操作を汎化する成果が出ている。 しかし学習データにない環境で計画的に動作する能力や、内部世界モデルを用いた推論的計画の明示はまだ不十分。本研究は任意 のインタラクションデータを用い、成功・失敗を問わず環境との相互作用から計画能力を引き出すことを重視する。 Vision Foundation Models • 大規模な画像・動画データセットを自己教師あり学習で利用し、幅広いタスクに汎用的に適用できるビジョン基盤モデルが発展している。 従来は言語モデルと組み合わせて理解タスク評価に使われることが多かったが、本研究は大規模自己教師ありビデオ学習を活用し、 新しい環境でゼロショットに計画タスクを解く可能性を探究している。 ©2025. For information, contact Deloitte Tohmatsu Group. 8
3. V-JEPA 2 V-JEPA2の概要 ©2025. For information, contact Deloitte Tohmatsu Group. 9
3. V-JEPA 2 V-JEPA2の概要 事前学習 • • ©2025. For information, contact Deloitte Tohmatsu Group. 約100万時間のインターネット動画と100万枚の画像を 用いて「Video Pretraining」を実施。 視覚的マスク・デノイジング(ノイズ除去)を目的とした 学習を行い、V-JEPA 2モデルを構築。 10
3. V-JEPA 2 V-JEPA2の概要 下流タスクへの活用 事前学習後、このモデルを基盤として以下のような多様なタ スクを実現。 • Language Alignment:大規模言語モデルと整合させ、 Video QA(映像に対する質問応答)を可能に。 • Attentive Probe Training:アクション分類、物体認 識、アクション予測など理解・予測系タスク。 • Action-Conditioned Post-Training:ロボットの状 態・行動データ(約62時間)を追加学習し、ロボット操 作(計画・マニピュレーション)を支援。 ©2025. For information, contact Deloitte Tohmatsu Group. 11
3. V-JEPA 2 V-JEPA 2 の概要 V-JEPA 2-AC • • ©2025. For information, contact Deloitte Tohmatsu Group. ビデオエンコーダを凍結した上で少量のロボットデータを重 ねて学習することで、行動条件付き予測モデル(VJEPA 2-AC)を作成。 モデル予測に基づくロボット制御ループ(計画・操作)が 可能となる。 12
3. V-JEPA 2 V-JEPA 2 の概要 ③ ④ 事前学習フェーズ • ② 大規模な画像・動画データを用いてV-JEPA 2のビデオエ ンコーダを事前学習。 ① 動画をトークン単位に分割し、一部トークンをマスク (欠落)させる「視覚的マスク・デノイジング」手法を適用。 ② エンコーダはマスクされたシーケンスを処理して各トークンの 埋め込みベクトルを生成。 ① ③ その出力にマスク位置を示す学習可能トークンを付加し、 予測器が最終的な出力を生成。 ④ 予測結果はL1損失でターゲットに回帰。ターゲットは ema-encoder(重みを指数移動平均で更新したエン コーダ)で算出。 ©2025. For information, contact Deloitte Tohmatsu Group. 13
3. V-JEPA 2 V-JEPA 2 の自己教師あり学習 目的関数 ③ ④ 入力ビュー(観測)された動画。マスクされた状態。 予測対象となる元動画(正解フルビュー) ② パラメータ 𝜃 のエンコーダ(Vision Transformer)。 入力動画から特徴表現を抽出する。 パラメータ 𝜙 を持つ予測器。エンコーダから得た特徴とマスク情報を入力に、 マスクされた領域の特徴を予測する。 ① 学習可能なマスクトークン。ドロップされたパッチの位置を示す。 stop-gradient(勾配を流さず値だけ渡す)演算。 ターゲットエンコーダ側には勾配を流さない。 エンコーダの EMA(指数移動平均)で更新されたパラメータ 𝜃ˉ を使ったターゲットエンコーダ。表現崩壊防止のために用いる。 ©2025. For information, contact Deloitte Tohmatsu Group. 14
3. V-JEPA 2 Pretraining Dataset 大規模データセット構築 • • • 観察用の事前学習データとして、4種類の動画データソースと1つの画像データセットを組み合わせて構築。 SSv2、Kinetics400/600/700、HowTo100M、YT-Temporal-1B (YT1B)、ImageNetを含む。 画像は16フレームのビデオとして複製して利用。VM22Mで学習すると従来のVM2Mより平均+1ポイント精度向上し、特に外観ベースのタスク (Kinetics-400, COIN, ImageNet)で効果が大きい。 データキュレーション YT1Bは未精選で1.4M時間規模。 未精選データは性能低下要因となるため、既存のretrievalベースのキュレーション手法で重要シーンを抽出しクラスタベースで多様性を確保。 Curated-YT1Bで学習すると+1.4ポイント精度向上。大規模未精選データとキュレートデータの組み合わせがスケーラビリティ向上に有効。 ©2025. For information, contact Deloitte Tohmatsu Group. 15
3. V-JEPA 2 Pretraining Recipe モデル規模のスケーリング エンコーダを300Mパラメータ(ViT-L)から1Bパラメータ(ViT-g)へ拡大すると平均+1.5ポイ ント精度向上。動作・外観理解タスクともにスケーリングの恩恵を確認。 学習スケジュール warmup-constant-cooldownの学習率スケジュールを採用し、90K→252Kイテレーションに 延長で+0.8ポイント精度向上。 cooldownで高解像度動画の漸進的学習を行い、高解像度学習を効率化。 効率的な段階的高解像度学習 最初は16フレーム・256×256解像度で学習し、cooldownフェーズで64フレ ーム・384×384まで段階的に解像度・クリップ長を拡大。 これにより高解像度学習の計算コストを最大8.4倍削減しつつ性能を維持。 時間的・空間的スケーリング効果 16→64フレームに延長しても、評価時は16フレーム固定で平均+0.7ポイン ト精度向上。評価フレーム数を増やすとさらに精度向上が見られ、自己教 師ありビデオ事前学習が長尺・高解像度入力から大きな利点を得ること を示す。64フレーム超では追加の改善は確認されず。 ©2025. For information, contact Deloitte Tohmatsu Group. 16
4. V-JEPA 2-AC V-JEPA 2-AC: Learning an Action-Conditioned World Model 行動条件付き学習フェーズ ① 左下の「Previous video frames」は過去のロボット動作映像。これを凍結したビデ オエンコーダに入力し、各フレームを特徴表現(パッチ単位の埋め込み)に変換する。 同時に「Robot actions & poses(赤字 z)」として、過去ステップにおけるロボッ トの行動(操作コマンド)とエンドエフェクタの状態を時系列で入力する。 ② ① ② predictor は、過去の特徴表現とロボットの行動・状態を条件として未 来フレームの特徴表現を自己回帰的に予測する。ここでブロック因果型ア テンションにより、各パッチ特徴が過去時刻の情報(特徴・行動・状態) を適切に参照できる。 ④ ③ ③ 右下の「Future video frame」は未来時刻 𝑡4 の映像を同じ凍結エンコ ーダで特徴抽出し、正解の特徴表現を得る。 ④ predictorが出力した未来特徴と正解特徴のL1距離を損失として計算し、 predictorのパラメータを更新する。エンコーダは固定されたまま。 「過去の動画フレームとロボットの行動・姿勢情報を入力し、固定されたエンコーダで特徴表現を抽出。 predictorが未来フレームの特徴を予測し、同じエンコーダで得た未来フレームの実特徴とのL1距離で学習する。」 ©2025. For information, contact Deloitte Tohmatsu Group. 17
4. V-JEPA 2-AC V-JEPA 2-AC の学習(Teacher Forcing Loss と Rollout Loss) V-JEPA 2-ACは自己回帰型(autoregressive)で学習され、2種類の損失を用いる。 ①Teacher Forcing Loss 仕組み: 現在時刻のフレーム表現を入力として、次の時刻の表現を予測。 特徴: 予測器の出力はあくまで学習時の正解(次時刻の実データ)に基づき、 L1損失で誤差を最小化。 時系列のステップ数(ここでは 15)。 予測器 (predictor) ネットワーク 𝑃𝜙 のパラメータ。 時刻 𝑡 におけるロボットの行動(エンドエフェクタ状態変化を表す7次元ベクトル)。 時刻 𝑡 におけるエンドエフェクタの絶対状態(位置・姿勢・グリッパ開閉の7次元ベクトル)。 時刻 𝑡 の入力ビデオフレーム。 凍結された V-JEPA 2 エンコーダ 𝐸(⋅)により得られた 𝑥𝑡 の特徴マップ。 実際の次フレーム 𝑥𝑘+1 の特徴表現。 予測器 𝑃𝜙 により、時刻 1~k までの行動・状態・特徴から推定された次状態の特徴表現。 ©2025. For information, contact Deloitte Tohmatsu Group. 18
4. V-JEPA 2-AC V-JEPA 2-AC の学習(Teacher Forcing Loss と Rollout Loss) V-JEPA 2-ACは自己回帰型(autoregressive)で学習され、2種類の損失を用いる。 ②Rollout Loss 仕組み: 予測器の出力を次の入力として再利用し、複数時刻先を連続的に予測。 特徴: 将来数ステップ先の表現を直接予測するため、誤差が累積しやすい状況でも正確に 予測できるように訓練。L1損失で評価。 時刻1からTまでの行動列。 初期時刻1のエンドエフェクタ状態。 初期フレームの特徴表現。 Tステップ先(実際にはT=2を使用)の真の特徴表現。 初期状態から自己回帰的にTステップ先まで予測した特徴表現。 全体の損失関数(①+②) ©2025. For information, contact Deloitte Tohmatsu Group. 19
4. V-JEPA 2-AC V-JEPA 2-AC によるモデル予測制御(Planning) ゴール画像に似た未来状態になるようなロボットの動作列を、確率的なサンプリングとL1距離の最小化で探索する。 目的 目標画像に近づくための行動シーケンス(一定時間範囲T) を計画する。 方法 1. 2. 現在の観測から世界モデル(V-JEPA 2-AC)が未来Tス テップ先の状態表現を予測。 その予測状態とゴール状態の表現との L1距離 を最小化 するように行動を最適化。 ©2025. For information, contact Deloitte Tohmatsu Group. 3.行動はクロスエントロピー法で探索 • • • 平均0・分散1のガウス分布から行動候補をサンプリング。 上位k個の良好な行動軌跡の統計を使ってガウス分布の平均と分 散を更新。 上記を複数回繰り返し、最終的にガウス分布系列の平均を最適 行動系列として採用。 ポイント 世界モデルの想定する未来表現とゴール表現の差をL1損失で最小化し つつ、クロスエントロピー法で行動分布を反復的に更新することで、ゴール 達成に向けた最適なアクション計画を導く。 20
4. V-JEPA 2-AC V-JEPA 2-AC によるモデル予測制御(Planning) ゴール画像に似た未来状態になるようなロボットの動作列を、確率的なサンプリングとL1距離の最小化で探索する。 ゴール条件付きエネルギー関数。予測された将来状態とゴール状態とのL1距離を表す。 計画対象となるロボットの行動列(時刻 k から T ステップ先までの仮の行動シーケンス)。 現在のエンドエフェクタ(ロボット先端)の状態(位置・姿勢・グリッパなど7次元)。 現在観測しているフレーム 𝑥𝑘 をV-JEPAエンコーダで得た特徴表現。 ゴール画像 𝑥𝑔 をV-JEPAエンコーダで得た特徴表現(目標状態の表現)。 現在状態 (𝑠𝑘, 𝑧𝑘) から仮の行動列 𝑎^1:𝑇 を与えたとき、V-JEPA 2-AC 予測器がTステップ先の状態特徴を予測したもの。 ©2025. For information, contact Deloitte Tohmatsu Group. 21
5. Planning: Zero-shot Robot Control 5. Planning: Zero-shot Robot Control V-JEPA 2-ACを用いて、目標画像を与えるだけでゼロショット(事前タスク特化学習なし)でロボット制御を実現する実験。 Reaching、Grasping、Pick & Placeなど基本的なロボット動作をモデル予測制御で実装し、新しい環境にも汎化できることを示す。 5.1 実験設定 (Experimental Setup) 比較対象(Baselines) Octoビデオ言語-アクションモデル • • • • Open-X Embodimentデータセット(100万以上の軌跡) で事前学習されたocto-base-1.5モデルを使用。 Droidデータセット全体で行動模倣(behavior cloning)を 行い、hindsight relabelingを適用。 Droidデータからランダムに軌跡セグメントを抽出し、最大20ス テップ先の目標画像をサンプリング。 256×256解像度、過去2フレーム+将来4アクションのコンテキ ストを利用。 ©2025. For information, contact Deloitte Tohmatsu Group. Cosmosビデオ生成モデル 20M時間の動画で学習されたaction-free Cosmosモデル (latent diffusion-7B with continuous tokenizer)を利用。 • Droidデータで公式の行動条件付きファインチューニングを実施。 • 改善のため以下を調整 ・ 学習率を低下 ・ 動画条件付きレシピにおけるdropoutを除去 ・ ノイズレベルをe²倍に増加(低ノイズでは条件フレーム情報を 活用できなかったため)。 • 22
5. Planning: Zero-shot Robot Control 5. Planning: Zero-shot Robot Control V-JEPA 2-ACを用いて、目標画像を与えるだけでゼロショット(事前タスク特化学習なし)でロボット制御を実現する実験。 Reaching、Grasping、Pick & Placeなど基本的なロボット動作をモデル予測制御で実装し、新しい環境にも汎化できることを示す。 X, Y, Z各軸方向において、ステップごとにゴールまでの位置誤差(Position Error)が減少。 ©2025. For information, contact Deloitte Tohmatsu Group. 23
5. Planning: Zero-shot Robot Control 5. Planning: Zero-shot Robot Control 実験内容 V-JEPA 2-AC を用いたロボットのクローズドループ制御によるマルチゴー ルのピック&プレース課題。ロボットが順に複数のサブゴール(部分目 標)を達成しながら、物体を把持して指定位置に置く。 手順 第1ゴール:対象物を掴む(把持)。 第2ゴール:物体を目標位置付近まで移動。 第3ゴール:物体を最終的に所定の位置へ配置。 成果 V-JEPA 2-AC は異なるラボ環境や物体配置が雑然とした環境でも、Frankaアームを使ってショートピック&プレースタスクを自動的に実行可能で あることを確認。 ©2025. For information, contact Deloitte Tohmatsu Group. 24
6. Understanding: Probe-based Classification 目的 V-JEPA 2 が学習した表現を用いて、視覚分類タスク(動画・画像)における性能を他の最新ビジョンエンコーダと比較。 タスク設定 Motion understanding(動作理解) 人のジェスチャーや動きの認識が必要。 対象データセット: SSv2, Diving-48, Jester Appearance understanding(外観理解) 単一フレームからシーン・物体認識が可能。 対象データセット: Kinetics400 (K400), COIN, ImageNet (IN1K) ©2025. For information, contact Deloitte Tohmatsu Group. 25
6. Understanding: Probe-based Classification 表4: Action and Object Classification 結果 比較対象: 最新の画像エンコーダ(DINOv2, SigLIP2, PEcoreGなど)や動画エンコーダ(VideoMAEv2, InternVideo2.2-1Bなど)。 評価: 256×256(V-JEPA 2 ViT-g384のみ384×384)の解像度で64フレームを使用し、動作理解と外観理解の6タスクで平均精度を算出。 • • V-JEPA 2 系列は動作理解タスクで特に強く、外観理解でも競合モデルと同等以上の精度。 ViT-g384モデルでは全タスク平均で88.2%を達成し、既存の画像・動画エンコーダを上回る。 ©2025. For information, contact Deloitte Tohmatsu Group. 26
6. Understanding: Probe-based Classification 表5: Human Action Anticipation (EK100ベンチマーク) 指標 : 動詞(Verb)、名詞(Noun)、行動(Action)に対する mean-class recall@5(検証セット)。 比較モデル : InAViT (160Mパラメータ): Verb 51.9 / Noun 52.0 / Action 25.8 Video-LLaMA (7B): 52.9 / 52.0 / 26.0 PlausiVL (8B): 55.6 / 54.2 / 27.6 モデル規模が大きくなるほど性能が向上し、 V-JEPA 2 ViT-g384が Verb 63.6 / Noun 57.1 / Action 39.7と、 既存の最先端モデル(PlausiVLなど)を大幅に上回る。 V-JEPA 2は動作予測タスク(Action Anticipation)においても従来手法を凌駕し、 モデルサイズの拡大と高解像度化によってさらなる精度改善を実現した。 ©2025. For information, contact Deloitte Tohmatsu Group. 27
7. Prediction: Probe-based Action Anticipation タスク概要 目的: 将来のアクション(Verb・Noun・Action)を、アクション開始の1秒前までの動画コンテキストから予測。 データセット: Epic-Kitchens-100 (EK100)約100時間、45のキッチン環境、 3568ユニークアクションラベル(Verb 97種、Noun 300種)。mean-class recall@5を評価指標に使用。 手法 • • • • V-JEPA 2エンコーダと予測器を凍結し、その上にattentive probeを訓練。 1秒前で終わる動画クリップを入力に、マスクトークンを介して1秒後の特徴を予測。 EncoderとPredictorの出力を結合し、Verb・Noun・Action用のクエリトークンを用いたcross-attention層で分類。 各分類器にはFocal Lossを適用して誤差を最小化。 比較ベースライン InAViT (160M) Video-LLaMA (7B) PlausiVL (8B) → いずれも大規模言語モデルや動画理解モデルを利用。 ©2025. For information, contact Deloitte Tohmatsu Group. 28
7. Prediction: Probe-based Action Anticipation EK100(EPIC-KITCHENS-100)データセット を用いた予測結果の可視化 内容 Context frames(左):直前の4フレームを入力として使用。 Model predictions(中央):次の1秒後に起こる動作をモデルが予測した トップ5を確率順に表示。 Following frame(右):実際の1秒後の映像。 ©2025. For information, contact Deloitte Tohmatsu Group. 成功例 2つの成功ケースでは、モデルが1秒後の行動(例:皿を持ち上げる、シンクを洗う)を上位候補 として正しく予測。 失敗例 失敗ケースでは、実際にはコップを置く動作だったが、モデルは「ドアを閉める」など異なる 動作を上位に予測して外れた。 29
7. Prediction: Probe-based Action Anticipation カメラが斜面の下端に向かって移 動しながら、銀色のボールが斜面 を転がり落ちている。 右側では次の瞬間を示す2つの 候補フレームがあり、上側の「ボー ルが空中に浮かぶ」場面は物理 的にあり得ない(Impossible) と示され、下側の「ボールが斜面 上に残る」場面が現実的な進行 として正しい。 ©2025. For information, contact Deloitte Tohmatsu Group. 出典:https://github.com/facebookresearch/IntPhys2 30
8. Understanding : Video Question Answering 概要 目的: V-JEPA 2 の映像エンコーダを使って、オープン領域のVideo Question Answering (VidQA) を実現する。 手法: V-JEPA 2 を視覚エンコーダとしてMultimodal Large Language Model (MLLM) に接続。 LLaVA系で使われる「non-tokenized early fusion」手法により、映像表現をそのまま LLM に入力。 特徴: 言語教師なし(テキストラベルを用いない自己教師あり学習)で事前学習されたビデオエンコーダをMLLMの学習に用いるのは初。 実験と評価 Video Question Answering Tasks • • • • PerceptionTest: 記憶、抽象、物理、意味など多様なスキルを評価。 MVP: 物理的世界理解を評価。 TempCompass, TemporalBench, TOMATO: 時間的理解や記憶能力を評価。 MVBench, TVBench: 一般的理解や時間・空間認識を評価。 Visual Instruction Tuning • LLaVA系手法に基づき、視覚エンコーダ出力をMLP経由でLLMに接続し、3段階のチューニングを実施。 • • • 画像キャプションデータでプロジェクタを事前学習。 大規模画像QAでLLM全体を訓練。 大規模動画QAデータでファインチューニング。 エンコーダは凍結かファインチューニングの両設定を検証し、ファインチューニングの方がより明確なビジュアル特徴を提供。 ©2025. For information, contact Deloitte Tohmatsu Group. 31
8. Understanding : Video Question Answering 表6: Frozen Encoderでの比較 表7: エンコーダ規模・解像度スケーリング 目的: MLLM(マルチモーダル大規模言語モデル)の性能に対する ビジョンエンコーダの寄与を明確化し、V-JEPA 2を他の最先端画像 エンコーダと比較。 設定: エンドツーエンド学習(エンコーダを凍結せず)、解像度を256→512へ、パラメ ータ300M→1Bへ拡大。結果:V-JEPA 2の性能はモデルサイズと入力解像度の向上に 伴い一貫して向上。最も大規模な ViT-g512 は平均54.4%と最高精度。 手法: LLMバックボーンを統一(Qwen2-7B-Instruct)1,800万件 の画像・動画テキスト対応サンプルで学習エンコーダを凍結した状態 でMLLMを学習(PerceptionTestなど複数VidQAベンチマークで 評価)。 知見 V-JEPA 2はSigLIPやPerception Encoderを含む最先端画像エンコーダを凌駕。 特にMVP・TemporalBench・TVBenchなど時空間理解が重要なタスクで顕著に優位。 言語教師なしで事前学習したビデオエンコーダが、従来の画像エンコーダよりも時空間 的情報理解に強みを持つことを実証。 同一条件下での比較により、V-JEPA 2は凍結エンコーダ設定でも画像エンコーダより優れたVidQA性能を示し、 さらにモデル規模と解像度を上げることで精度が大きく向上。ビデオエンコーダの利用がVidQAの時空間理解を強化することを明確に示した。 ©2025. For information, contact Deloitte Tohmatsu Group. 32
8. Understanding : Video Question Answering 表8:データスケーリングによるSOTA達成 実験: 88.5Mサンプルのアラインメントデータセットを用い、Llama 3.1 をバックボーンとして学習。 V-JEPA 2 はテストセットの PerceptionTest では SFT(微調整)を使用、それ以外はゼロショット評価。 V-JEPA 2 (1B/8B) は、8Bモデルクラスにおいて複数の下流評価指標で既存手法を上回り、最先端(state-of-the-art)性能を達成した。 特にPerceptionTestやTemporal理解系の指標で顕著な改善が見られる。 ©2025. For information, contact Deloitte Tohmatsu Group. 33
9. 結論 まとめ Webスケールデータと少量のロボット相互作用データを用いた自己教師あり学習により、物理世界で理解・予測・計画が可能な汎用 モデル「V-JEPA 2」を提案。 V-JEPA 2は動作理解や人間行動予測のタスクで最先端の精度を達成し、動画質問応答でも大規模言語モデルと組み合わせる ことで従来手法を上回った。 さらに、V-JEPA 2の表現を用いた行動条件付きモデル V-JEPA 2-AC により、Pick-and-Placeなど実ロボットでのゼロショット操作が 成功。これにより、環境を認識し行動する高度なAI実現に一歩近づいた。 • • • 今後の課題 • 長期予測・階層的モデル:現状は約16秒先までの予測に限定。ピック&プレースなど長期タスク対応にはサブゴールを扱う階層的 モデル開発が必要。 • 言語ベース目標の導入:現状は画像ベースのゴール指定。言語でゴールを埋め込む拡張が望まれ、言語モデルとの統合も有望。 • モデル規模の拡大と安定的性能向上:1Bパラメータまでスケールしたが、20B規模まで拡張する研究が進んでおり、 より持続的な性能向上手法の確立が期待される。 ©2025. For information, contact Deloitte Tohmatsu Group. 34
Appendix 参考文献 • Yann LeCun. A path towards autonomous machine intelligence version 0.9.2, 2022-06-27. Open Review, 62(1):1–62, 2022. • Adrien Bardes, Quentin Garrido, Jean Ponce, Xinlei Chen, Michael Rabbat, Yann LeCun, Mahmoud Assran, and Nicolas Ballas. Revisiting feature prediction for learning visual representations from video. arXiv preprint arXiv:2404.08471, 2024. • Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, and Yuan Lin. Tarsier2: Advancing large vision-language models from detailed video description to comprehensive video understanding. arXiv preprint arXiv:2501.07888, 2025. • Benno Krojer, Mojtaba Komeili, Candace Ross, Quentin Garrido, Koustuv Sinha, Nicolas Ballas, and Mido Assran. A shortcutaware video-qa benchmark for physical understanding via minimal video pairs. preprint, 2024. • Gaoyue Zhou, Hengkai Pan, Yann LeCun, and Lerrel Pinto. DINO-WM: World models on pre-trained visual features enable zero-shot planning. arXiv preprint arXiv:2411.04983, 2024. • Katerina Fragkiadaki, Pulkit Agrawal, Sergey Levine, and Jitendra Malik. Learning visual predictive models of physics for playing billiards. arXiv preprint arXiv:1511.07404, 2015. ©2025. For information, contact Deloitte Tohmatsu Group. 35