---
title: 【DL輪読会】A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens | alphaXiv
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/47MYX9QP7W.jpg?width=480
description: 【DL輪読会】A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens | alphaXiv by Deep Learning JP
published: May 28, 26
canonical: https://www.docswell.com/s/DeepLearning2023/ZMQV9J-2026-05-29-092837
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/47MYX9QP7W.jpg)

DEEP LEARNING JP A Frame is Worth One Token: Efficient Generative
[DL Papers]
World Modeling with Delta Tokens
Presenter: TSOGBADRAKH KHANGAI, MATSUO・IWASAWA LAB
http://deeplearning.jp/


# Page. 2

![Page Image](https://bcdn.docswell.com/page/P7R9NG8YE9.jpg)

書誌情報
論文情報
TL;DR
■
Title: A Frame is Worth One Token: Efficient Generative World Modeling with
Delta Tokens
■
Authors: T. Kerssies, G. Berton, J. He, Q. Yu, W. Ma, D. de Geus, G. Dubbelman,
L.-C. Chen
■
Affiliations: Amazon, Eindhoven Univ. of Technology, Johns Hopkins Univ.
■
Preprint (arXiv: 2604.04913, Apr. 2026)
■
Code &amp; weights: deltatok.github.io
■
連続フレーム間のVFM特徴量の差分 を「delta token」(1次元) に圧縮する
Tokenizer (DeltaTok) を提案。
■
Best-of-Many (BoM) 学習 と組み合わせ、1回のフォワードパスで多様な未
来を生成 する効率的な世界モデル DeltaWorld を構築。
■
既存の生成世界モデル (Cosmos-12B) に対し、パラメータ 35倍少, FLOPs
2,000倍少 で上回る精度を達成。
35×
2,000×
1,024×
0.3 B
fewer parameters
(vs. Cosmos-12B)
fewer FLOPs
(31 vs. 64,000 TFLOPs)
fewer tokens / frame
(at 512×512)
predictor parameters
(VFM frozen)
DeltaWorld (Kerssies et al., 2026) | Slide 2 / 14


# Page. 3

![Page Image](https://bcdn.docswell.com/page/PJXQNX847X.jpg)

背景: なぜ「生成的」世界モデルが必要なのか
モチベーション
■
世界モデル: 過去の観測から未来の世界状態を予測する。自動運転やロ
ボットの計画に不可欠。
■
未来は本質的にmultimodal: 「歩行者が道路に出る」vs「立ち止まる」な
ど、複数の異なる結果が同時に成り立つ。
■
→ 安全な計画のためには、多様な未来をすべて考慮できる必要がある。
Mean collapse の図解
Reality (multimodal):
立ち止まる (60%)
Discriminative model の決定的欠陥
■
回帰損失 (L2, smooth-L1) の最小化解 = E[y|x] (条件付き平均) になる。
■
未来分布が multimodal だと、「平均」はどの実際の未来とも一致しない
blur prediction に収束する (mean collapse)。
■
→ 損失関数そのものが多様性に対して根本的に非対応。
道路に出る (40%)
Discriminative model predicts:
&quot;中間&quot; の状態
→ 実際にはあり得ない予測
DeltaWorld (Kerssies et al., 2026) | Slide 3 / 14


# Page. 4

![Page Image](https://bcdn.docswell.com/page/3JK9NWKPJD.jpg)

既存の生成的世界モデルの3つの非効率性
→ 生成的世界モデル (Cosmos, Sora, GAIA-1等) は多様な未来を生成できるが、計算コストが膨大
(i) ピクセル空間表現
(ii) 逐次forward pass
(iii) 時空間冗長性の未活用
■
pixel-reconstruction latent (例: Cosmos の VAE)
で学習。
■
Diffusion: 1サンプル生成に T 回の denoising
step (典型的に 20-50回) ~50K step。
■
連続フレームはほぼ同一: 背景・照明・大半
の物体は不変。
■
→ テクスチャ・照明・木の葉など、下流タ
スクに無関係な細部のモデル化に容量を浪
費。
■
Discrete AR: 各フレームの各トークンを逐次
予測 (256トークン → 256 step) ~256K step。
■
それでも各フレームを H×W トークンで再エ
ンコード → 冗長な計算。
■
[Fix] VFM (DINOv3) 特徴量空間で予測する: 意
味的に重要な情報のみ。
[Fix] Best-of-Many: 1回の forward で K個の異な
る未来を並列生成。
■
■
[Fix] DeltaTok: フレーム間の差分のみを 1トー
クンに圧縮。
→ 本論文は (i)(ii)(iii) のすべてを順に解決し、効率的な生成的世界モデルを構築する。
DeltaWorld (Kerssies et al., 2026) | Slide 4 / 14


# Page. 5

![Page Image](https://bcdn.docswell.com/page/LE3WV1Z4E5.jpg)

提案手法全体像: 3つの設計判断の積み重ね
解決の3ステップ (各ステップが次の問題を生む構造)
VFM特徴量空間で予測 (DINO-world から継承)
Step 1
意味的に冗長な pixel-level の情報を捨て、より小さい予測器で同等以上の精度
を達成。
Best-of-Many (BoM) 学習で生成的に
Step 2
K個の noise query を並列に通し、ground truthに最も近い1つだけ backprop。1回
の forward で多様な未来。
DeltaTok: 差分を1トークンに圧縮
Fig. 1: DeltaWorld の概要
Step 3
フレーム間の変化のみを encode し、BoM 学習を実用的なコストにする。本論
文の核心的な貢献。
Step 2 と Step 3 は相補的: BoM は1トークン化があって初めて実用的、Delta token は BoM があって初めて生成的になる。
DeltaWorld (Kerssies et al., 2026) | Slide 5 / 14


# Page. 6

![Page Image](https://bcdn.docswell.com/page/8EDK8XR57G.jpg)

手法 (1): Best-of-Many (BoM) 学習
アイデア (Bhattacharyya et al., CVPR 2018)
実用上のポイント
■
予測器に K 個の noise vector を入力し、K 通りの未来候補を 並列に 出力
する。
■
Diffusion (T step を 1サンプルにつき逐次) と異なり、K個を並列・
1 forward で得る。
■
Ground truth に最も近い 1つだけ を選び (k*)、そこにだけ勾配を流す。
■
推論コスト: K × (1サンプルのコスト) — ただし K個は並列実行で
きる。
■
メインの実験設定: train K=256, eval K=20 (非対称: 学習で多様性を
稼ぎ、推論はモデスト)。
■
弱点: K 個の負け候補には勾配が流れない → mode collapse のリ
スク (一部 noise が無意味化)。
■
→ Slide 7 の delta token と組み合わせることで初めて実用化。
qᵏ ~ N(μ, Σ), k = 1, ..., K
x̂
ᵏₜ₊₁ = f(qᵏ, X₁:ₜ, T₁:ₜ, τₜ₊₁)
k* = argminₖ ∑ ℓ(xₜ₊₁, x̂
ᵏₜ₊₁)
L₋ₘ = ∑ ℓ(xₜ₊₁, x̂
^k*ₜ₊₁)
(ノイズクエリ)
(K個の並列予測)
(最も近い予測を選択)
(k* のみ backprop)
なぜ mean collapse が回避されるか
■
「K個のうち少なくとも1つが当たれ」ば損失ゼロ → モデルは平均化する必要
がない。
■
学習が進むにつれ、異なる noise が異なる mode に specialize する。
DeltaWorld (Kerssies et al., 2026) | Slide 6 / 14


# Page. 7

![Page Image](https://bcdn.docswell.com/page/V7PK8PWDJ8.jpg)

手法 (2): DeltaTok — 差分を1トークンに圧縮
Fig. 3: DeltaTok アーキテクチャ (Encoder/Decoder は ViT-B)
中身: なぜ「差分」なのか
■
Frame compression (フレーム全体を1トークン化) は試したが、シーン全体を圧縮し
きれず精度低下。
■
Delta compression: 連続フレーム間の 変化のみ を1トークンに encode。容量を「変
わった部分」に集中。
■
H.264 の inter-frame compression と思想は同じだが、意味特徴量空間で実施し、非
空間 (1次元) 圧縮。
Tokenizer の定式化
Encoder:
Decoder:
zₜ = g(xₜ₋₁, xₜ, z_init) ∈ ℝᴰ
x̂
ₜ = h(xₜ₋₁, zₜ)
Natural prior
zₜ ≈ 0 ⇒ x̂ₜ ≈ xₜ₋₁ 「何も変わらない」がモデルのデフォルトとして組み込
まれる。
DeltaWorld (Kerssies et al., 2026) | Slide 7 / 14


# Page. 8

![Page Image](https://bcdn.docswell.com/page/2JVVN28GJQ.jpg)

DeltaWorld 全体パイプライン
4つのコンポーネント
VFM (DINOv3)
raw frame → patch tokens
DeltaTok Encoder
(xₜ₋₁, xₜ) → zₜ
1回だけ計算し全 sample で共有
Predictor (small)
Z₁:ₜ, qᵏ → ẑₜ₊₁
K回計算 (しかし 0.26 GFLOPs)
DeltaTok Decoder
(xₜ, ẑₜ₊₁) → x̂ₜ₊₁
K回計算 (コンテキスト長に不依存)
● Frozen
Fig. 4: DeltaWorld (Training: top, Inference: bottom)
● Trainable
Predictor accounts for 0.5% of total FLOPs
DeltaWorld (Kerssies et al., 2026) | Slide 8 / 14


# Page. 9

![Page Image](https://bcdn.docswell.com/page/5EGLKRZDJL.jpg)

結果 (1): 段階的アブレーション (Table 2)
結論: 3つの設計判断が累積的に効く
Table 2: Cityscapes mid-horizon mIoU (() inside = mean)
読み取り方
■
Step 1: BoM だけだと best は上がるが mean が崩壊 (45.4 → 31.1)。多くのサンプルが会
話の順序 (degenerate) になる。
■
Step 2: Frame compression は安価 (0.4×) だが accuracy が低下 (best=42.7, baseline 未満)。
■
Step 3 (DeltaWorld): best=48.7 (baseline +3.3), mean=45.5 (baseline と同等)、コストは 0.5×
のまま。
GFLOPs
Time
best
mean
(0) Discriminative
959
1.0×
45.4
45.4
(1) +BoM
12013
4.9×
46.8
31.1
(2) +Frame comp.
6315
0.4×
42.7
35.5
(3) +Delta comp. (DW)
6721
0.5×
48.7
45.5
■
best &gt; baseline で 多様性 を獲得 (不確実性 を モデル化)
■
mean = baseline で 平均品質 を維持 (no degradation)
■
cost ≈ 1/2 baseline で コスト面 でも有利
DeltaWorld (Kerssies et al., 2026) | Slide 9 / 14


# Page. 10

![Page Image](https://bcdn.docswell.com/page/4JQYNVLX7P.jpg)

結果 (2): Best-of-Many のサンプル数スケーリング
実践的な設定指針
■
Main experiments: train K=256, eval K=20 (非対称)
■
Train K ↑: 多様性を学習 — もっと伸びる余地あり
■
Eval K=1 は discriminative に近い (単一予測) — この行の低
迷が BoM の効果を裏付け
■
K=1024 でも best=50.7 と mean=45.7 の差が拡大 → mode
coverage が本質的に進展
Fig. 5: train K (横) × eval K (縦) heatmap (Cityscapes mid mIoU)
■
(上左パネル) best: train K を増やすほど単調に改善 — 飽和なし
■
(右パネル) mean: train K=64 以上で安定、増やしても大きな劣化なし
DeltaWorld (Kerssies et al., 2026) | Slide 10 / 14


# Page. 11

![Page Image](https://bcdn.docswell.com/page/K74WGMD2E1.jpg)

結果 (3): Dense forecasting benchmark (Table 3)
Table 3: 3データセット×2タスク×2ホリゾンでの比較。生成モデルは best-of-20 (mean in parens)
vs Cosmos (生成モデル)
vs DINO-world (識別モデル) — 誠実な比較
■
best: 全 6 指標で DeltaWorld が勝利
■
best: 全指標で大幅に上回る (多様性の効果)
■
mean: 5/6 で 勝利 または 同等
■
mean: Cityscapes で わずかに勝ち, VSPW/KITTI で わずかに負け — ほぼ同等
■
FLOPs 2,000× 少ない, パラメータ 35× 少ない
■
誠実な要約: 「平均品質は同等のまま, 多様性を追加」
■
best−mean ギャップが Cosmosより大 → 意味のある多様性
■
DeltaWorld は訓練データ 17× 少ない (4M vs 66M)
DeltaWorld (Kerssies et al., 2026) | Slide 11 / 14


# Page. 12

![Page Image](https://bcdn.docswell.com/page/LJ1YD8ZKEG.jpg)

結果 (4): 多様な未来サンプル (定性的評価)
見るべきポイント
■
4つのサンプル間で 歩行者の位置 が明らかに異なる
■
Ego camera の進行速度も サンプルごとに異なる (近
寄り方)
■
多様性は ノイズではなく説得的な mode 間の差異と
して現れている
■
Discriminative model はこのような複数の選択肢を同
時に示せない
Fig. 6: VSPW 例 — 同一 context から生成された 4つのサンプル + oracle
DeltaWorld (Kerssies et al., 2026) | Slide 12 / 14


# Page. 13

![Page Image](https://bcdn.docswell.com/page/GJWGYZ9P72.jpg)

分析・考察: なぜ delta token は効くのか
1
2
3
Natural prior toward stability
Delta は「変化だけ」を encode する
■
Frame compression はシーン全体 (100%) を関わる
部分に encode しなければならない。
■
zₜ ≈ 0 なら decoder は xₜ₋₁ をよく返す → 「何も変
わらない」がデフォルト動作。
■
Delta は実際に動いた 2-5% の部分に全容量を割
り当てられる。
■
Frame compression ではそうはいかず、毎フレー
ムでシーン全体を能動的に再表現しなければな
らない。
■
同じ 1トークンの容量で 関連情報の表現精度が
~50× 向上。
■
Mean が識別モデルの baseline まで回復した主な
原因。
BoM と Delta は相補的
■
BoM単体は K×1024 token を生成しなければなら
ず訓練 4.9× コスト + predictor が FLOPs の 97% を
占める。
■
Delta単体は 識別予測 の効率化にしかならない。
■
両者の組み合わせで初めて 実用的な生成モデル
になる。
Take-away: Delta + BoM は各々に見ればニッチな手法だが、組み合わせると 「効率×多様性」 の両立を達成する。
DeltaWorld (Kerssies et al., 2026) | Slide 13 / 14


# Page. 14

![Page Image](https://bcdn.docswell.com/page/4EZLX19673.jpg)

限界と強み / まとめ
✓ Strengths
✗ Limitations
■
効率: Cosmos に対し FLOPs 2,000×, params 35× 少. それで best/mean とも
上回る。
■
Distribution calibration なし: BoM は mode coverage はするがサンプル頻度
は実際の確率と一致しない
■
1フレーム=1トークンの極端な圧縮 (512×512 で 1,024× 削減)
■
Error accumulation: AR rollout で誤差が褲積 (mid-horizon で -10 mIoU)
■
1 forward で K 個の多様な未来を生成 (vs Diffusion: T step)
■
Action conditioning 未対応: 「ブレーキしたら?」という条件づけ不可
■
Drop-in: DINO-world や DINO-Foresight にも適用可能 (Appendix C)
■
Short context (8 frames ≈ 0.5s) 、長期依存は未検証
■
Delta の「natural prior」で mean degradation なし
■
評価は segmentation/depth の proxy task のみ (計画タスクへのマップピン
グ 未検証)
■
訓練データがプロプライエタリ (再現性に限界)
Take-away (一行まとめ)
DeltaWorld は「連続フレームの差分を 1 token に圧縮」 + 「Best-of-Many」 + 「VFM 特徴量空間」の組み合わせで, 0.3B モデルで 1回の forward から 多様で現実的な未来を生成
し, Cosmos-12B を 2,000× 少ない FLOPs で超える.
DeltaWorld (Kerssies et al., 2026) | Slide 14 / 14