【DL輪読会】LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

531 Views

April 30, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 69.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 52.8K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 49.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels Yusei Koen, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • • • タイトル ➢ LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels 著者 ➢ Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero リンク • https://arxiv.org/abs/2603.19312 • https://github.com/lucas-maes/le-wm LeWorldModel (Maes et al., 2026)

概要 JEPAの崩壊問題に対しシンプルな正則化で学習を安定化 • • 既存のLatent World Modelは表現の崩壊問題が起きやすく、ヒューリスティックに対処していた SIGRegというシンプルな正則化によって学習を安定化 • 15Mパラメータサイズのモデルで基盤モデルベースの世界モデルに匹敵する精度を実現 LeWorldModel (Maes et al., 2026)

本論文の位置づけ End-to-Endで崩壊せずに学習できる初のJEPA世界モデル 2022 2023 2025 2026 A Path Towards AMI I-JEPA V-JEPA 2 LeWM LeCun — JEPAの概念画像のJEPA (EMA+SG) 動画事前学習+WM学習 End-to-End で学習過去の輪読会発表 • A Path Towards Autonomous Machine Intelligence • • https://www.docswell.com/s/DeepLearning2023/5384LE-dla-path-towards-autonomous-machine-intelligence I-JEPA • • https://www.slideshare.net/slideshow/dlselfsupervised-learning-from-images-with-a-jointembedding-predictivearchitecture/258733237 V-JEPA2 • https://www.docswell.com/s/DeepLearning2023/KWMYMG-2025-09-30-122744 LeWorldModel (Maes et al., 2026)

Latent World ModelとVideo World Model Latent World Modelは低次元空間で予測を行うので効率的 Video World Model Latent World Model 画素空間で未来フレームを生成低次元潜在空間で次状態を予測 zt pred Ot zt+1 enc enc Ot Ot+1 Ot+1 画像 → 画像 (全ピクセル再構成) LeWorldModel (Maes et al., 2026) pred 潜在 → 潜在 (無関係な詳細を捨てる )

既存のLatent World Modelの問題点既存手法は崩壊回避のためにヒューリスティックな手法をとる zt pred enc zt+1 enc Ot Ot+1 min L_pred = ‖ẑ_{t+1} − z_{t+1}‖² ⇒ enc(・) ≡ c, pred( ・) ≡ c で損失ゼロヒューリスティック正則化多目的損失関数 EMA / stop-gradient VICReg 7項損失原理的根拠なし不安定 I-JEPA, V-JEPA PLDM 外部情報源の利用事前学習エンコーダ報酬 / proprio 情報を使用 DINOv2などPretrained Encoderを凍結タスク依存の表現になる Dreamer, TD-MPC End-to-Endでない DINO-WM, V-JEPA 2 すべての入力を同じ定数ベクトル c に潰せば予測は完璧情報ゼロの自明解に学習が吸い込まれる → LeWM: どれも犠牲にせず、End-to-Endの安定した学習を同時達成 LeWorldModel (Maes et al., 2026)

LeWorldModel の全体像生画素のみから学習、単一GPUで数時間 zt pred zt+1 enc (ViT) at enc (ViT) Ot • Ot: 時刻tの観測 • Zt: 時刻tの潜在状態 • at: 時刻tの行動 LeWorldModel (Maes et al., 2026) Ot+1 • エンコーダの [CLS] を MLP+BatchNorm で射影してztを得る • 予測器は過去Nフレームを見て自己回帰的に次を予測、 causal mask付き • actionはAdaptive Layer Normalizationによって条件付けられる

核心の貢献 — 崩壊防止の正則化正則化項の導入によってシンプルな実装を実現 L_LeWM = ‖ẑ_{t+1} − z_{t+1}‖² + λ · SIGReg(Z) 崩壊防止正則化次ステップ予測損失 LeWM が使わないもの PLDM LeWorldModel 損失項数 7項 2項ハイパーパラメータ 6個 1 個 (λ) LeWorldModel (Maes et al., 2026) • • • • • stop-gradient exponential moving average (EMA) 凍結済み事前学習エンコーダ補助的な decoder / reward / proprio 画素再構成損失

SIGReg の理論的バックグラウンド「最適な潜在は等方Gaussian」という理論から、有限本の射影による実装まで 1 理論的根拠最適な潜在表現は等方Gaussianであることを証明 • • • 情報量を最大化しつつ崩壊を避ける最適分布は標準正規分布 N(0, I_d) 今回は説明省略（詳細はLeJEPAを参照） LeWorldModel (Maes et al., 2026) 2 多次元の直接マッチングは困難 • • • 古典的正規性検定 (ShapiroWilk 等) は1次元用高次元での直接Gaussianマッチは指数的コスト Cramér–Wold定理 4 Epps–Pulley 統計量一次元射映への分解で回避一次元検定を損失に変換 3 実装上の課題 • 「すべての方向 u で u⊤X と u⊤Y の分布が一致 ⇔ X と Y の高次元分布が一致」 → 実装: M=1024本のランダム単位ベクトルで近似 • • • 経験特性関数と標準正規分布の特性関数の二乗誤差勾配で最適化可能 → M本の射影で平均して最終的なSIGReg損失

https://arxiv.org/pdf/2511.08544

10.

Cramér–Wold 定理（1936）高次元分布を一次元へ射映する LeWorldModel (Maes et al., 2026)

11.

Epps–Pulley 統計量特性関数を用いてSIGReg損失を計算

12.

学習済みWorld Modelを用いたプランニングゴール画像の表現を用いてCEMでプランニングを実行 • • Cross Entropy Method（CEM）によって行動をプランニングを行う最終ゴール画像から得た表現（zg）と行動列を用いて予測した表現（zH）の距離を比較してsolverを繰り返し更新 LeWorldModel (Maes et al., 2026)

13.

実験 — 制御性能 (計画タスク成功率) 4環境中3つでPLDMを上回り、DINO-WMとも互角単純すぎる環境ではSIGRegが有効でない可能性 LeWorldModel (Maes et al., 2026)

14.

実験 — 計画速度と計算効率同一性能を保ったまま約50倍の高速化 48× faster planning vs DINO-WM (同一計画設定) LeWorldModel (Maes et al., 2026) DINO-WM 高速化の理由 • • 各フレームを 192次元 1トークンに圧縮 DINO-WM の約 1/200 のトークン数 • CEMのロールアウトが桁違いに軽い → FLOPSを揃えると大きな性能差になる

15.

実験 — 潜在表現のProbing 単なる制御ではなく物理を捉えているかの検証 • PushT環境で、物理量を潜在状態から推定できるかを検証 • PLDMを上回る精度、DINO-WMにも匹敵する → 物理的な理解を学習によって獲得 LeWorldModel (Maes et al., 2026)

16.

実験 — 潜在表現のProbing 画像の情報を捉えているかの検証 • 潜在表現から実際の画像を復元できるかのProbing • 学習時に画像再構成を学習していなくても、潜在表現には画像の情報がencodeされている LeWorldModel (Maes et al., 2026)

17.

実験 — Temporal Straightening Hypothesis 明示的な正則化なしでTemporal Straighteningな表現獲得 • • Temporal Straightening Hypothesis • 人間の視覚処理の仮説 • 動画を認識する時に直線的な遷移となる表現として認識している（その方が将来予測がしやすい） PLDMは陽にTemporal Straighteningの正則化を入れているが、LeWMは正則化なしでそうした表現を獲得 LeWorldModel (Maes et al., 2026)

https://www.nature.com/articles/s41593-019-0377-4

18.

まとめサマリ ① 2項損失 (予測+SIGReg) で End-to-End JEPA を安定学習 ② 単一GPU 15Mモデルが基盤モデルベースの世界モデルと競合、計画は48倍高速 ③ 潜在空間が物理量・時間構造・逸脱検知を自然に獲得感想 • • Video World Model系のプランニングだと計算コストが大きいため、LeWMの方向性は有望だと感じる SIGReg の等方Gaussianの最適性が成り立つ条件に制限があるのか気になった • より複雑なタスクでも動作するのか？スケールするのか？ LeWorldModel (Maes et al., 2026)