【DL輪読会】A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens | alphaXiv

869 Views

May 28, 26

#深層学習 #生成モデル #世界モデル #効率化 #差分圧縮

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP A Frame is Worth One Token: Efficient Generative [DL Papers] World Modeling with Delta Tokens Presenter: TSOGBADRAKH KHANGAI, MATSUO・IWASAWA LAB http://deeplearning.jp/

http://deeplearning.jp/

書誌情報論文情報 TL;DR ■ Title: A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens ■ Authors: T. Kerssies, G. Berton, J. He, Q. Yu, W. Ma, D. de Geus, G. Dubbelman, L.-C. Chen ■ Affiliations: Amazon, Eindhoven Univ. of Technology, Johns Hopkins Univ. ■ Preprint (arXiv: 2604.04913, Apr. 2026) ■ Code & weights: deltatok.github.io ■ 連続フレーム間のVFM特徴量の差分を「delta token」(1次元) に圧縮する Tokenizer (DeltaTok) を提案。 ■ Best-of-Many (BoM) 学習と組み合わせ、1回のフォワードパスで多様な未来を生成する効率的な世界モデル DeltaWorld を構築。 ■ 既存の生成世界モデル (Cosmos-12B) に対し、パラメータ 35倍少, FLOPs 2,000倍少で上回る精度を達成。 35× 2,000× 1,024× 0.3 B fewer parameters (vs. Cosmos-12B) fewer FLOPs (31 vs. 64,000 TFLOPs) fewer tokens / frame (at 512×512) predictor parameters (VFM frozen) DeltaWorld (Kerssies et al., 2026) | Slide 2 / 14

背景: なぜ「生成的」世界モデルが必要なのかモチベーション ■ 世界モデル: 過去の観測から未来の世界状態を予測する。自動運転やロボットの計画に不可欠。 ■ 未来は本質的にmultimodal: 「歩行者が道路に出る」vs「立ち止まる」など、複数の異なる結果が同時に成り立つ。 ■ → 安全な計画のためには、多様な未来をすべて考慮できる必要がある。 Mean collapse の図解 Reality (multimodal): 立ち止まる (60%) Discriminative model の決定的欠陥 ■ 回帰損失 (L2, smooth-L1) の最小化解 = E[y|x] (条件付き平均) になる。 ■ 未来分布が multimodal だと、「平均」はどの実際の未来とも一致しない blur prediction に収束する (mean collapse)。 ■ → 損失関数そのものが多様性に対して根本的に非対応。道路に出る (40%) Discriminative model predicts: "中間" の状態 → 実際にはあり得ない予測 DeltaWorld (Kerssies et al., 2026) | Slide 3 / 14

既存の生成的世界モデルの3つの非効率性 → 生成的世界モデル (Cosmos, Sora, GAIA-1等) は多様な未来を生成できるが、計算コストが膨大 (i) ピクセル空間表現 (ii) 逐次forward pass (iii) 時空間冗長性の未活用 ■ pixel-reconstruction latent (例: Cosmos の VAE) で学習。 ■ Diffusion: 1サンプル生成に T 回の denoising step (典型的に 20-50回) ~50K step。 ■ 連続フレームはほぼ同一: 背景・照明・大半の物体は不変。 ■ → テクスチャ・照明・木の葉など、下流タスクに無関係な細部のモデル化に容量を浪費。 ■ Discrete AR: 各フレームの各トークンを逐次予測 (256トークン → 256 step) ~256K step。 ■ それでも各フレームを H×W トークンで再エンコード → 冗長な計算。 ■ [Fix] VFM (DINOv3) 特徴量空間で予測する: 意味的に重要な情報のみ。 [Fix] Best-of-Many: 1回の forward で K個の異なる未来を並列生成。 ■ ■ [Fix] DeltaTok: フレーム間の差分のみを 1トークンに圧縮。 → 本論文は (i)(ii)(iii) のすべてを順に解決し、効率的な生成的世界モデルを構築する。 DeltaWorld (Kerssies et al., 2026) | Slide 4 / 14

提案手法全体像: 3つの設計判断の積み重ね解決の3ステップ (各ステップが次の問題を生む構造) VFM特徴量空間で予測 (DINO-world から継承) Step 1 意味的に冗長な pixel-level の情報を捨て、より小さい予測器で同等以上の精度を達成。 Best-of-Many (BoM) 学習で生成的に Step 2 K個の noise query を並列に通し、ground truthに最も近い1つだけ backprop。1回の forward で多様な未来。 DeltaTok: 差分を1トークンに圧縮 Fig. 1: DeltaWorld の概要 Step 3 フレーム間の変化のみを encode し、BoM 学習を実用的なコストにする。本論文の核心的な貢献。 Step 2 と Step 3 は相補的: BoM は1トークン化があって初めて実用的、Delta token は BoM があって初めて生成的になる。 DeltaWorld (Kerssies et al., 2026) | Slide 5 / 14

手法 (1): Best-of-Many (BoM) 学習アイデア (Bhattacharyya et al., CVPR 2018) 実用上のポイント ■ 予測器に K 個の noise vector を入力し、K 通りの未来候補を並列に出力する。 ■ Diffusion (T step を 1サンプルにつき逐次) と異なり、K個を並列・ 1 forward で得る。 ■ Ground truth に最も近い 1つだけを選び (k*)、そこにだけ勾配を流す。 ■ 推論コスト: K × (1サンプルのコスト) — ただし K個は並列実行できる。 ■ メインの実験設定: train K=256, eval K=20 (非対称: 学習で多様性を稼ぎ、推論はモデスト)。 ■ 弱点: K 個の負け候補には勾配が流れない → mode collapse のリスク (一部 noise が無意味化)。 ■ → Slide 7 の delta token と組み合わせることで初めて実用化。 qᵏ ~ N(μ, Σ), k = 1, ..., K x̂ ᵏₜ₊₁ = f(qᵏ, X₁:ₜ, T₁:ₜ, τₜ₊₁) k* = argminₖ ∑ ℓ(xₜ₊₁, x̂ ᵏₜ₊₁) L₋ₘ = ∑ ℓ(xₜ₊₁, x̂ ^k*ₜ₊₁) (ノイズクエリ) (K個の並列予測) (最も近い予測を選択) (k* のみ backprop) なぜ mean collapse が回避されるか ■ 「K個のうち少なくとも1つが当たれ」ば損失ゼロ → モデルは平均化する必要がない。 ■ 学習が進むにつれ、異なる noise が異なる mode に specialize する。 DeltaWorld (Kerssies et al., 2026) | Slide 6 / 14

手法 (2): DeltaTok — 差分を1トークンに圧縮 Fig. 3: DeltaTok アーキテクチャ (Encoder/Decoder は ViT-B) 中身: なぜ「差分」なのか ■ Frame compression (フレーム全体を1トークン化) は試したが、シーン全体を圧縮しきれず精度低下。 ■ Delta compression: 連続フレーム間の変化のみを1トークンに encode。容量を「変わった部分」に集中。 ■ H.264 の inter-frame compression と思想は同じだが、意味特徴量空間で実施し、非空間 (1次元) 圧縮。 Tokenizer の定式化 Encoder: Decoder: zₜ = g(xₜ₋₁, xₜ, z_init) ∈ ℝᴰ x̂ ₜ = h(xₜ₋₁, zₜ) Natural prior zₜ ≈ 0 ⇒ x̂ₜ ≈ xₜ₋₁ 「何も変わらない」がモデルのデフォルトとして組み込まれる。 DeltaWorld (Kerssies et al., 2026) | Slide 7 / 14

DeltaWorld 全体パイプライン 4つのコンポーネント VFM (DINOv3) raw frame → patch tokens DeltaTok Encoder (xₜ₋₁, xₜ) → zₜ 1回だけ計算し全 sample で共有 Predictor (small) Z₁:ₜ, qᵏ → ẑₜ₊₁ K回計算 (しかし 0.26 GFLOPs) DeltaTok Decoder (xₜ, ẑₜ₊₁) → x̂ₜ₊₁ K回計算 (コンテキスト長に不依存) ● Frozen Fig. 4: DeltaWorld (Training: top, Inference: bottom) ● Trainable Predictor accounts for 0.5% of total FLOPs DeltaWorld (Kerssies et al., 2026) | Slide 8 / 14

結果 (1): 段階的アブレーション (Table 2) 結論: 3つの設計判断が累積的に効く Table 2: Cityscapes mid-horizon mIoU (() inside = mean) 読み取り方 ■ Step 1: BoM だけだと best は上がるが mean が崩壊 (45.4 → 31.1)。多くのサンプルが会話の順序 (degenerate) になる。 ■ Step 2: Frame compression は安価 (0.4×) だが accuracy が低下 (best=42.7, baseline 未満)。 ■ Step 3 (DeltaWorld): best=48.7 (baseline +3.3), mean=45.5 (baseline と同等)、コストは 0.5× のまま。 GFLOPs Time best mean (0) Discriminative 959 1.0× 45.4 45.4 (1) +BoM 12013 4.9× 46.8 31.1 (2) +Frame comp. 6315 0.4× 42.7 35.5 (3) +Delta comp. (DW) 6721 0.5× 48.7 45.5 ■ best > baseline で多様性を獲得 (不確実性をモデル化) ■ mean = baseline で平均品質を維持 (no degradation) ■ cost ≈ 1/2 baseline でコスト面でも有利 DeltaWorld (Kerssies et al., 2026) | Slide 9 / 14

10.

結果 (2): Best-of-Many のサンプル数スケーリング実践的な設定指針 ■ Main experiments: train K=256, eval K=20 (非対称) ■ Train K ↑: 多様性を学習 — もっと伸びる余地あり ■ Eval K=1 は discriminative に近い (単一予測) — この行の低迷が BoM の効果を裏付け ■ K=1024 でも best=50.7 と mean=45.7 の差が拡大 → mode coverage が本質的に進展 Fig. 5: train K (横) × eval K (縦) heatmap (Cityscapes mid mIoU) ■ (上左パネル) best: train K を増やすほど単調に改善 — 飽和なし ■ (右パネル) mean: train K=64 以上で安定、増やしても大きな劣化なし DeltaWorld (Kerssies et al., 2026) | Slide 10 / 14

11.

結果 (3): Dense forecasting benchmark (Table 3) Table 3: 3データセット×2タスク×2ホリゾンでの比較。生成モデルは best-of-20 (mean in parens) vs Cosmos (生成モデル) vs DINO-world (識別モデル) — 誠実な比較 ■ best: 全 6 指標で DeltaWorld が勝利 ■ best: 全指標で大幅に上回る (多様性の効果) ■ mean: 5/6 で勝利または同等 ■ mean: Cityscapes でわずかに勝ち, VSPW/KITTI でわずかに負け — ほぼ同等 ■ FLOPs 2,000× 少ない, パラメータ 35× 少ない ■ 誠実な要約: 「平均品質は同等のまま, 多様性を追加」 ■ best−mean ギャップが Cosmosより大 → 意味のある多様性 ■ DeltaWorld は訓練データ 17× 少ない (4M vs 66M) DeltaWorld (Kerssies et al., 2026) | Slide 11 / 14

12.

結果 (4): 多様な未来サンプル (定性的評価) 見るべきポイント ■ 4つのサンプル間で歩行者の位置が明らかに異なる ■ Ego camera の進行速度もサンプルごとに異なる (近寄り方) ■ 多様性はノイズではなく説得的な mode 間の差異として現れている ■ Discriminative model はこのような複数の選択肢を同時に示せない Fig. 6: VSPW 例 — 同一 context から生成された 4つのサンプル + oracle DeltaWorld (Kerssies et al., 2026) | Slide 12 / 14

13.

分析・考察: なぜ delta token は効くのか 1 2 3 Natural prior toward stability Delta は「変化だけ」を encode する ■ Frame compression はシーン全体 (100%) を関わる部分に encode しなければならない。 ■ zₜ ≈ 0 なら decoder は xₜ₋₁ をよく返す → 「何も変わらない」がデフォルト動作。 ■ Delta は実際に動いた 2-5% の部分に全容量を割り当てられる。 ■ Frame compression ではそうはいかず、毎フレームでシーン全体を能動的に再表現しなければならない。 ■ 同じ 1トークンの容量で関連情報の表現精度が ~50× 向上。 ■ Mean が識別モデルの baseline まで回復した主な原因。 BoM と Delta は相補的 ■ BoM単体は K×1024 token を生成しなければならず訓練 4.9× コスト + predictor が FLOPs の 97% を占める。 ■ Delta単体は識別予測の効率化にしかならない。 ■ 両者の組み合わせで初めて実用的な生成モデルになる。 Take-away: Delta + BoM は各々に見ればニッチな手法だが、組み合わせると「効率×多様性」の両立を達成する。 DeltaWorld (Kerssies et al., 2026) | Slide 13 / 14

14.

限界と強み / まとめ ✓ Strengths ✗ Limitations ■ 効率: Cosmos に対し FLOPs 2,000×, params 35× 少. それで best/mean とも上回る。 ■ Distribution calibration なし: BoM は mode coverage はするがサンプル頻度は実際の確率と一致しない ■ 1フレーム=1トークンの極端な圧縮 (512×512 で 1,024× 削減) ■ Error accumulation: AR rollout で誤差が褲積 (mid-horizon で -10 mIoU) ■ 1 forward で K 個の多様な未来を生成 (vs Diffusion: T step) ■ Action conditioning 未対応: 「ブレーキしたら?」という条件づけ不可 ■ Drop-in: DINO-world や DINO-Foresight にも適用可能 (Appendix C) ■ Short context (8 frames ≈ 0.5s) 、長期依存は未検証 ■ Delta の「natural prior」で mean degradation なし ■ 評価は segmentation/depth の proxy task のみ (計画タスクへのマップピング未検証) ■ 訓練データがプロプライエタリ (再現性に限界) Take-away (一行まとめ) DeltaWorld は「連続フレームの差分を 1 token に圧縮」 + 「Best-of-Many」 + 「VFM 特徴量空間」の組み合わせで, 0.3B モデルで 1回の forward から多様で現実的な未来を生成し, Cosmos-12B を 2,000× 少ない FLOPs で超える. DeltaWorld (Kerssies et al., 2026) | Slide 14 / 14