【DL輪読会】LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

531 Views

April 30, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels Yusei Koen, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • • • タイトル ➢ LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels 著者 ➢ Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero リンク • https://arxiv.org/abs/2603.19312 • https://github.com/lucas-maes/le-wm LeWorldModel (Maes et al., 2026)

3.

概要 JEPAの崩壊問題に対しシンプルな正則化で学習を安定化 • • 既存のLatent World Modelは表現の崩壊問題が起きやすく、ヒューリスティックに対処していた SIGRegというシンプルな正則化によって学習を安定化 • 15Mパラメータサイズのモデルで基盤モデルベースの世界モデルに匹敵する精度を実現 LeWorldModel (Maes et al., 2026)

4.

本論文の位置づけ End-to-Endで崩壊せずに学習できる初のJEPA世界モデル 2022 2023 2025 2026 A Path Towards AMI I-JEPA V-JEPA 2 LeWM LeCun — JEPAの概念 画像のJEPA (EMA+SG) 動画事前学習+WM学習 End-to-End で学習 過去の輪読会発表 • A Path Towards Autonomous Machine Intelligence • • https://www.docswell.com/s/DeepLearning2023/5384LE-dla-path-towards-autonomous-machine-intelligence I-JEPA • • https://www.slideshare.net/slideshow/dlselfsupervised-learning-from-images-with-a-jointembedding-predictivearchitecture/258733237 V-JEPA2 • https://www.docswell.com/s/DeepLearning2023/KWMYMG-2025-09-30-122744 LeWorldModel (Maes et al., 2026)

5.

Latent World ModelとVideo World Model Latent World Modelは低次元空間で予測を行うので効率的 Video World Model Latent World Model 画素空間で未来フレームを生成 低次元潜在空間で次状態を予測 zt pred Ot zt+1 enc enc Ot Ot+1 Ot+1 画像 → 画像 (全ピクセル再構成) LeWorldModel (Maes et al., 2026) pred 潜在 → 潜在 (無関係な詳細を捨てる )

6.

既存のLatent World Modelの問題点 既存手法は崩壊回避のためにヒューリスティックな手法をとる zt pred enc zt+1 enc Ot Ot+1 min L_pred = ‖ẑ_{t+1} − z_{t+1}‖² ⇒ enc(・) ≡ c, pred( ・) ≡ c で損失ゼロ ヒューリスティック正則化 多目的損失関数 EMA / stop-gradient VICReg 7項損失 原理的根拠なし 不安定 I-JEPA, V-JEPA PLDM 外部情報源の利用 事前学習エンコーダ 報酬 / proprio 情報を使用 DINOv2などPretrained Encoderを凍結 タスク依存の表現になる Dreamer, TD-MPC End-to-Endでない DINO-WM, V-JEPA 2 すべての入力を同じ定数ベクトル c に潰せば予測は完璧 情報ゼロの自明解に学習が吸い込まれる → LeWM: どれも犠牲にせず、End-to-Endの安定した学習 を同時達成 LeWorldModel (Maes et al., 2026)

7.

LeWorldModel の全体像 生画素のみから学習、単一GPUで数時間 zt pred zt+1 enc (ViT) at enc (ViT) Ot • Ot: 時刻tの観測 • Zt: 時刻tの潜在状態 • at: 時刻tの行動 LeWorldModel (Maes et al., 2026) Ot+1 • エンコーダの [CLS] を MLP+BatchNorm で射影してztを 得る • 予測器は過去Nフレームを見て 自己回帰的に次を予測、 causal mask付き • actionはAdaptive Layer Normalizationによって 条件付けられる

8.

核心の貢献 — 崩壊防止の正則化 正則化項の導入によってシンプルな実装を実現 L_LeWM = ‖ẑ_{t+1} − z_{t+1}‖² + λ · SIGReg(Z) 崩壊防止正則化 次ステップ予測損失 LeWM が使わないもの PLDM LeWorldModel 損失項数 7項 2項 ハイパーパラメータ 6個 1 個 (λ) LeWorldModel (Maes et al., 2026) • • • • • stop-gradient exponential moving average (EMA) 凍結済み事前学習エンコーダ 補助的な decoder / reward / proprio 画素再構成損失

9.

SIGReg の理論的バックグラウンド 「最適な潜在は等方Gaussian」という理論から、有限本の射影による実装まで 1 理論的根拠 最適な潜在表現は 等方Gaussianであることを証明 • • • 情報量を最大化しつつ 崩壊を避ける 最適分布は標準正規分布 N(0, I_d) 今回は説明省略 (詳細はLeJEPAを参照) LeWorldModel (Maes et al., 2026) 2 多次元の直接マッチングは困難 • • • 古典的正規性検定 (ShapiroWilk 等) は1次元用 高次元での直接Gaussianマ ッチは指数的コスト Cramér–Wold定理 4 Epps–Pulley 統計量 一次元射映への分解で回避 一次元検定を損失に変換 3 実装上の課題 • 「すべての方向 u で u⊤X と u⊤Y の分布が一致 ⇔ X と Y の高次元分布が 一致」 → 実装: M=1024本のランダ ム単位ベクトルで近似 • • • 経験特性関数と標準正規分 布の特性関数の二乗誤差 勾配で最適化可能 → M本の射影で平均して最 終的なSIGReg損失

10.

Cramér–Wold 定理(1936) 高次元分布を一次元へ射映する LeWorldModel (Maes et al., 2026)

11.

Epps–Pulley 統計量 特性関数を用いてSIGReg損失を計算

12.

学習済みWorld Modelを用いたプランニング ゴール画像の表現を用いてCEMでプランニングを実行 • • Cross Entropy Method(CEM)によって行動をプランニングを行う 最終ゴール画像から得た表現(zg)と行動列を用いて予測した表現(zH)の距離 を比較してsolverを繰り返し更新 LeWorldModel (Maes et al., 2026)

13.

実験 — 制御性能 (計画タスク成功率) 4環境中3つでPLDMを上回り、DINO-WMとも互角 単純すぎる環境で はSIGRegが有効で ない可能性 LeWorldModel (Maes et al., 2026)

14.

実験 — 計画速度と計算効率 同一性能を保ったまま約50倍の高速化 48× faster planning vs DINO-WM (同一計画設定) LeWorldModel (Maes et al., 2026) DINO-WM 高速化の理由 • • 各フレームを 192次元 1トークン に圧縮 DINO-WM の 約 1/200 のトークン数 • CEMのロールアウトが桁違いに軽い → FLOPSを揃えると大きな性能差になる

15.

実験 — 潜在表現のProbing 単なる制御ではなく物理を捉えているかの検証 • PushT環境で、物理量を潜在状態 から推定できるかを検証 • PLDMを上回る精度、DINO-WMに も匹敵する → 物理的な理解を学習によって 獲得 LeWorldModel (Maes et al., 2026)

16.

実験 — 潜在表現のProbing 画像の情報を捉えているかの検証 • 潜在表現から実際の画像を復元 できるかのProbing • 学習時に画像再構成を学習 していなくても、潜在表現には 画像の情報がencodeされている LeWorldModel (Maes et al., 2026)

17.

実験 — Temporal Straightening Hypothesis 明示的な正則化なしでTemporal Straighteningな表現獲得 • • Temporal Straightening Hypothesis • 人間の視覚処理の仮説 • 動画を認識する時に直線的な遷移となる表現とし て認識している(その方が将来予測がしやすい) PLDMは陽にTemporal Straighteningの正則化 を入れているが、LeWMは正則化なしで そうした表現を獲得 LeWorldModel (Maes et al., 2026)

18.

まとめ サ マ リ ① 2項損失 (予測+SIGReg) で End-to-End JEPA を安定学習 ② 単一GPU 15Mモデルが基盤モデルベースの世界モデルと競合、計画は48倍高速 ③ 潜在空間が物理量・時間構造・逸脱検知を自然に獲得 感想 • • Video World Model系のプランニングだと計算コストが大きいため、LeWMの方向性は有望だと感じる SIGReg の等方Gaussianの最適性が成り立つ条件に制限があるのか気になった • より複雑なタスクでも動作するのか?スケールするのか? LeWorldModel (Maes et al., 2026)