---
title: 【DL輪読会】LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/Y76WW42G7V.jpg?width=480
description: 【DL輪読会】LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels by Deep Learning JP
published: April 30, 26
canonical: https://www.docswell.com/s/DeepLearning2023/KN7JRV-2026-05-01-095001
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/Y76WW42G7V.jpg)

DEEP LEARNING JP
[DL Papers]
LeWorldModel: Stable End-to-End
Joint-Embedding Predictive Architecture from Pixels
Yusei Koen, Matsuo Lab
http://deeplearning.jp/
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/G75MMQ2X74.jpg)

書誌情報
•
•
•
タイトル
➢ LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
著者
➢ Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero
リンク
• https://arxiv.org/abs/2603.19312
• https://github.com/lucas-maes/le-wm
LeWorldModel (Maes et al., 2026)


# Page. 3

![Page Image](https://bcdn.docswell.com/page/9J299P4QER.jpg)

概要
JEPAの崩壊問題に対しシンプルな正則化で学習を安定化
•
•
既存のLatent World Modelは表現の崩壊問題が起きやすく、ヒューリスティックに対処していた
SIGRegというシンプルな正則化によって学習を安定化
•
15Mパラメータサイズのモデルで基盤モデルベースの世界モデルに匹敵する精度を実現
LeWorldModel (Maes et al., 2026)


# Page. 4

![Page Image](https://bcdn.docswell.com/page/DEY445MYJM.jpg)

本論文の位置づけ
End-to-Endで崩壊せずに学習できる初のJEPA世界モデル
2022
2023
2025
2026
A Path Towards AMI
I-JEPA
V-JEPA 2
LeWM
LeCun — JEPAの概念
画像のJEPA (EMA+SG)
動画事前学習+WM学習
End-to-End で学習
過去の輪読会発表
•
A Path Towards Autonomous Machine Intelligence
•
•
https://www.docswell.com/s/DeepLearning2023/5384LE-dla-path-towards-autonomous-machine-intelligence
I-JEPA
•
•
https://www.slideshare.net/slideshow/dlselfsupervised-learning-from-images-with-a-jointembedding-predictivearchitecture/258733237
V-JEPA2
•
https://www.docswell.com/s/DeepLearning2023/KWMYMG-2025-09-30-122744
LeWorldModel (Maes et al., 2026)


# Page. 5

![Page Image](https://bcdn.docswell.com/page/VJNYYNWR78.jpg)

Latent World ModelとVideo World Model
Latent World Modelは低次元空間で予測を行うので効率的
Video World Model
Latent World Model
画素空間で未来フレームを生成
低次元潜在空間で次状態を予測
zt
pred
Ot
zt+1
enc
enc
Ot
Ot+1
Ot+1
画像 → 画像 (全ピクセル再構成)
LeWorldModel (Maes et al., 2026)
pred
潜在 → 潜在 (無関係な詳細を捨てる )


# Page. 6

![Page Image](https://bcdn.docswell.com/page/YE9PPRXZJ3.jpg)

既存のLatent World Modelの問題点
既存手法は崩壊回避のためにヒューリスティックな手法をとる
zt
pred
enc
zt+1
enc
Ot
Ot+1
min L_pred = ‖ẑ_{t+1} − z_{t+1}‖²
⇒ enc(・) ≡ c, pred( ・) ≡ c で損失ゼロ
ヒューリスティック正則化
多目的損失関数
EMA / stop-gradient
VICReg 7項損失
原理的根拠なし
不安定
I-JEPA, V-JEPA
PLDM
外部情報源の利用
事前学習エンコーダ
報酬 / proprio 情報を使用
DINOv2などPretrained Encoderを凍結
タスク依存の表現になる
Dreamer, TD-MPC
End-to-Endでない
DINO-WM, V-JEPA 2
すべての入力を同じ定数ベクトル c に潰せば予測は完璧
情報ゼロの自明解に学習が吸い込まれる
→ LeWM: どれも犠牲にせず、End-to-Endの安定した学習 を同時達成
LeWorldModel (Maes et al., 2026)


# Page. 7

![Page Image](https://bcdn.docswell.com/page/GE8DDW9YED.jpg)

LeWorldModel の全体像
生画素のみから学習、単一GPUで数時間
zt
pred
zt+1
enc
(ViT)
at
enc
(ViT)
Ot
•
Ot: 時刻tの観測
•
Zt: 時刻tの潜在状態
•
at: 時刻tの行動
LeWorldModel (Maes et al., 2026)
Ot+1
•
エンコーダの [CLS] を
MLP+BatchNorm で射影してztを
得る
•
予測器は過去Nフレームを見て
自己回帰的に次を予測、
causal mask付き
•
actionはAdaptive Layer
Normalizationによって
条件付けられる


# Page. 8

![Page Image](https://bcdn.docswell.com/page/LELMMNW97R.jpg)

核心の貢献 — 崩壊防止の正則化
正則化項の導入によってシンプルな実装を実現
L_LeWM = ‖ẑ_{t+1} − z_{t+1}‖² + λ · SIGReg(Z)
崩壊防止正則化
次ステップ予測損失
LeWM が使わないもの
PLDM
LeWorldModel
損失項数
7項
2項
ハイパーパラメータ
6個
1 個 (λ)
LeWorldModel (Maes et al., 2026)
•
•
•
•
•
stop-gradient
exponential moving average (EMA)
凍結済み事前学習エンコーダ
補助的な decoder / reward / proprio
画素再構成損失


# Page. 9

![Page Image](https://bcdn.docswell.com/page/4JMYYX9VJW.jpg)

SIGReg の理論的バックグラウンド
「最適な潜在は等方Gaussian」という理論から、有限本の射影による実装まで
1
理論的根拠
最適な潜在表現は
等方Gaussianであることを証明
•
•
•
情報量を最大化しつつ
崩壊を避ける
最適分布は標準正規分布
N(0, I_d)
今回は説明省略
（詳細はLeJEPAを参照）
LeWorldModel (Maes et al., 2026)
2
多次元の直接マッチングは困難
•
•
•
古典的正規性検定 (ShapiroWilk 等) は1次元用
高次元での直接Gaussianマ
ッチは指数的コスト
Cramér–Wold定理
4 Epps–Pulley 統計量
一次元射映への分解で回避
一次元検定を損失に変換
3
実装上の課題
•
「すべての方向 u で u⊤X
と u⊤Y の分布が一致
⇔ X と Y の高次元分布が
一致」
→ 実装: M=1024本のランダ
ム単位ベクトルで近似
•
•
•
経験特性関数と標準正規分
布の特性関数の二乗誤差
勾配で最適化可能
→ M本の射影で平均して最
終的なSIGReg損失


# Page. 10

![Page Image](https://bcdn.docswell.com/page/PJR99NGW79.jpg)

Cramér–Wold 定理（1936）
高次元分布を一次元へ射映する
LeWorldModel (Maes et al., 2026)


# Page. 11

![Page Image](https://bcdn.docswell.com/page/PEXQQNXVJX.jpg)

Epps–Pulley 統計量
特性関数を用いてSIGReg損失を計算


# Page. 12

![Page Image](https://bcdn.docswell.com/page/3EK99NW5ED.jpg)

学習済みWorld Modelを用いたプランニング
ゴール画像の表現を用いてCEMでプランニングを実行
•
•
Cross Entropy Method（CEM）によって行動をプランニングを行う
最終ゴール画像から得た表現（zg）と行動列を用いて予測した表現（zH）の距離
を比較してsolverを繰り返し更新
LeWorldModel (Maes et al., 2026)


# Page. 13

![Page Image](https://bcdn.docswell.com/page/L73WWV1175.jpg)

実験 — 制御性能 (計画タスク成功率)
4環境中3つでPLDMを上回り、DINO-WMとも互角
単純すぎる環境で
はSIGRegが有効で
ない可能性
LeWorldModel (Maes et al., 2026)


# Page. 14

![Page Image](https://bcdn.docswell.com/page/87DKK8XKJG.jpg)

実験 — 計画速度と計算効率
同一性能を保ったまま約50倍の高速化
48×
faster planning
vs DINO-WM (同一計画設定)
LeWorldModel (Maes et al., 2026)
DINO-WM
高速化の理由
•
•
各フレームを 192次元 1トークン に圧縮
DINO-WM の 約 1/200 のトークン数
•
CEMのロールアウトが桁違いに軽い
→ FLOPSを揃えると大きな性能差になる


# Page. 15

![Page Image](https://bcdn.docswell.com/page/VJPKK8P3E8.jpg)

実験 — 潜在表現のProbing
単なる制御ではなく物理を捉えているかの検証
•
PushT環境で、物理量を潜在状態
から推定できるかを検証
•
PLDMを上回る精度、DINO-WMに
も匹敵する
→ 物理的な理解を学習によって
獲得
LeWorldModel (Maes et al., 2026)


# Page. 16

![Page Image](https://bcdn.docswell.com/page/2EVVVN2NEQ.jpg)

実験 — 潜在表現のProbing
画像の情報を捉えているかの検証
•
潜在表現から実際の画像を復元
できるかのProbing
•
学習時に画像再構成を学習
していなくても、潜在表現には
画像の情報がencodeされている
LeWorldModel (Maes et al., 2026)


# Page. 17

![Page Image](https://bcdn.docswell.com/page/57GLLKR5EL.jpg)

実験 — Temporal Straightening Hypothesis
明示的な正則化なしでTemporal Straighteningな表現獲得
•
•
Temporal Straightening Hypothesis
•
人間の視覚処理の仮説
•
動画を認識する時に直線的な遷移となる表現とし
て認識している（その方が将来予測がしやすい）
PLDMは陽にTemporal Straighteningの正則化
を入れているが、LeWMは正則化なしで
そうした表現を獲得
LeWorldModel (Maes et al., 2026)


# Page. 18

![Page Image](https://bcdn.docswell.com/page/4EQYYNVLJP.jpg)

まとめ
サ マ リ
① 2項損失 (予測+SIGReg) で End-to-End JEPA を安定学習
② 単一GPU 15Mモデルが基盤モデルベースの世界モデルと競合、計画は48倍高速
③ 潜在空間が物理量・時間構造・逸脱検知を自然に獲得
感想
•
•
Video World Model系のプランニングだと計算コストが大きいため、LeWMの方向性は有望だと感じる
SIGReg の等方Gaussianの最適性が成り立つ条件に制限があるのか気になった
•
より複雑なタスクでも動作するのか？スケールするのか？
LeWorldModel (Maes et al., 2026)


