192 Views
May 28, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP A Frame is Worth One Token: Efficient Generative [DL Papers] World Modeling with Delta Tokens Presenter: TSOGBADRAKH KHANGAI, MATSUO・IWASAWA LAB http://deeplearning.jp/
書誌情報 論文情報 TL;DR ■ Title: A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens ■ Authors: T. Kerssies, G. Berton, J. He, Q. Yu, W. Ma, D. de Geus, G. Dubbelman, L.-C. Chen ■ Affiliations: Amazon, Eindhoven Univ. of Technology, Johns Hopkins Univ. ■ Preprint (arXiv: 2604.04913, Apr. 2026) ■ Code & weights: deltatok.github.io ■ 連続フレーム間のVFM特徴量の差分 を「delta token」(1次元) に圧縮する Tokenizer (DeltaTok) を提案。 ■ Best-of-Many (BoM) 学習 と組み合わせ、1回のフォワードパスで多様な未 来を生成 する効率的な世界モデル DeltaWorld を構築。 ■ 既存の生成世界モデル (Cosmos-12B) に対し、パラメータ 35倍少, FLOPs 2,000倍少 で上回る精度を達成。 35× 2,000× 1,024× 0.3 B fewer parameters (vs. Cosmos-12B) fewer FLOPs (31 vs. 64,000 TFLOPs) fewer tokens / frame (at 512×512) predictor parameters (VFM frozen) DeltaWorld (Kerssies et al., 2026) | Slide 2 / 14
背景: なぜ「生成的」世界モデルが必要なのか モチベーション ■ 世界モデル: 過去の観測から未来の世界状態を予測する。自動運転やロ ボットの計画に不可欠。 ■ 未来は本質的にmultimodal: 「歩行者が道路に出る」vs「立ち止まる」な ど、複数の異なる結果が同時に成り立つ。 ■ → 安全な計画のためには、多様な未来をすべて考慮できる必要がある。 Mean collapse の図解 Reality (multimodal): 立ち止まる (60%) Discriminative model の決定的欠陥 ■ 回帰損失 (L2, smooth-L1) の最小化解 = E[y|x] (条件付き平均) になる。 ■ 未来分布が multimodal だと、「平均」はどの実際の未来とも一致しない blur prediction に収束する (mean collapse)。 ■ → 損失関数そのものが多様性に対して根本的に非対応。 道路に出る (40%) Discriminative model predicts: "中間" の状態 → 実際にはあり得ない予測 DeltaWorld (Kerssies et al., 2026) | Slide 3 / 14
既存の生成的世界モデルの3つの非効率性 → 生成的世界モデル (Cosmos, Sora, GAIA-1等) は多様な未来を生成できるが、計算コストが膨大 (i) ピクセル空間表現 (ii) 逐次forward pass (iii) 時空間冗長性の未活用 ■ pixel-reconstruction latent (例: Cosmos の VAE) で学習。 ■ Diffusion: 1サンプル生成に T 回の denoising step (典型的に 20-50回) ~50K step。 ■ 連続フレームはほぼ同一: 背景・照明・大半 の物体は不変。 ■ → テクスチャ・照明・木の葉など、下流タ スクに無関係な細部のモデル化に容量を浪 費。 ■ Discrete AR: 各フレームの各トークンを逐次 予測 (256トークン → 256 step) ~256K step。 ■ それでも各フレームを H×W トークンで再エ ンコード → 冗長な計算。 ■ [Fix] VFM (DINOv3) 特徴量空間で予測する: 意 味的に重要な情報のみ。 [Fix] Best-of-Many: 1回の forward で K個の異な る未来を並列生成。 ■ ■ [Fix] DeltaTok: フレーム間の差分のみを 1トー クンに圧縮。 → 本論文は (i)(ii)(iii) のすべてを順に解決し、効率的な生成的世界モデルを構築する。 DeltaWorld (Kerssies et al., 2026) | Slide 4 / 14
提案手法全体像: 3つの設計判断の積み重ね 解決の3ステップ (各ステップが次の問題を生む構造) VFM特徴量空間で予測 (DINO-world から継承) Step 1 意味的に冗長な pixel-level の情報を捨て、より小さい予測器で同等以上の精度 を達成。 Best-of-Many (BoM) 学習で生成的に Step 2 K個の noise query を並列に通し、ground truthに最も近い1つだけ backprop。1回 の forward で多様な未来。 DeltaTok: 差分を1トークンに圧縮 Fig. 1: DeltaWorld の概要 Step 3 フレーム間の変化のみを encode し、BoM 学習を実用的なコストにする。本論 文の核心的な貢献。 Step 2 と Step 3 は相補的: BoM は1トークン化があって初めて実用的、Delta token は BoM があって初めて生成的になる。 DeltaWorld (Kerssies et al., 2026) | Slide 5 / 14
手法 (1): Best-of-Many (BoM) 学習 アイデア (Bhattacharyya et al., CVPR 2018) 実用上のポイント ■ 予測器に K 個の noise vector を入力し、K 通りの未来候補を 並列に 出力 する。 ■ Diffusion (T step を 1サンプルにつき逐次) と異なり、K個を並列・ 1 forward で得る。 ■ Ground truth に最も近い 1つだけ を選び (k*)、そこにだけ勾配を流す。 ■ 推論コスト: K × (1サンプルのコスト) — ただし K個は並列実行で きる。 ■ メインの実験設定: train K=256, eval K=20 (非対称: 学習で多様性を 稼ぎ、推論はモデスト)。 ■ 弱点: K 個の負け候補には勾配が流れない → mode collapse のリ スク (一部 noise が無意味化)。 ■ → Slide 7 の delta token と組み合わせることで初めて実用化。 qᵏ ~ N(μ, Σ), k = 1, ..., K x̂ ᵏₜ₊₁ = f(qᵏ, X₁:ₜ, T₁:ₜ, τₜ₊₁) k* = argminₖ ∑ ℓ(xₜ₊₁, x̂ ᵏₜ₊₁) L₋ₘ = ∑ ℓ(xₜ₊₁, x̂ ^k*ₜ₊₁) (ノイズクエリ) (K個の並列予測) (最も近い予測を選択) (k* のみ backprop) なぜ mean collapse が回避されるか ■ 「K個のうち少なくとも1つが当たれ」ば損失ゼロ → モデルは平均化する必要 がない。 ■ 学習が進むにつれ、異なる noise が異なる mode に specialize する。 DeltaWorld (Kerssies et al., 2026) | Slide 6 / 14
手法 (2): DeltaTok — 差分を1トークンに圧縮 Fig. 3: DeltaTok アーキテクチャ (Encoder/Decoder は ViT-B) 中身: なぜ「差分」なのか ■ Frame compression (フレーム全体を1トークン化) は試したが、シーン全体を圧縮し きれず精度低下。 ■ Delta compression: 連続フレーム間の 変化のみ を1トークンに encode。容量を「変 わった部分」に集中。 ■ H.264 の inter-frame compression と思想は同じだが、意味特徴量空間で実施し、非 空間 (1次元) 圧縮。 Tokenizer の定式化 Encoder: Decoder: zₜ = g(xₜ₋₁, xₜ, z_init) ∈ ℝᴰ x̂ ₜ = h(xₜ₋₁, zₜ) Natural prior zₜ ≈ 0 ⇒ x̂ₜ ≈ xₜ₋₁ 「何も変わらない」がモデルのデフォルトとして組み込 まれる。 DeltaWorld (Kerssies et al., 2026) | Slide 7 / 14
DeltaWorld 全体パイプライン 4つのコンポーネント VFM (DINOv3) raw frame → patch tokens DeltaTok Encoder (xₜ₋₁, xₜ) → zₜ 1回だけ計算し全 sample で共有 Predictor (small) Z₁:ₜ, qᵏ → ẑₜ₊₁ K回計算 (しかし 0.26 GFLOPs) DeltaTok Decoder (xₜ, ẑₜ₊₁) → x̂ₜ₊₁ K回計算 (コンテキスト長に不依存) ● Frozen Fig. 4: DeltaWorld (Training: top, Inference: bottom) ● Trainable Predictor accounts for 0.5% of total FLOPs DeltaWorld (Kerssies et al., 2026) | Slide 8 / 14
結果 (1): 段階的アブレーション (Table 2) 結論: 3つの設計判断が累積的に効く Table 2: Cityscapes mid-horizon mIoU (() inside = mean) 読み取り方 ■ Step 1: BoM だけだと best は上がるが mean が崩壊 (45.4 → 31.1)。多くのサンプルが会 話の順序 (degenerate) になる。 ■ Step 2: Frame compression は安価 (0.4×) だが accuracy が低下 (best=42.7, baseline 未満)。 ■ Step 3 (DeltaWorld): best=48.7 (baseline +3.3), mean=45.5 (baseline と同等)、コストは 0.5× のまま。 GFLOPs Time best mean (0) Discriminative 959 1.0× 45.4 45.4 (1) +BoM 12013 4.9× 46.8 31.1 (2) +Frame comp. 6315 0.4× 42.7 35.5 (3) +Delta comp. (DW) 6721 0.5× 48.7 45.5 ■ best > baseline で 多様性 を獲得 (不確実性 を モデル化) ■ mean = baseline で 平均品質 を維持 (no degradation) ■ cost ≈ 1/2 baseline で コスト面 でも有利 DeltaWorld (Kerssies et al., 2026) | Slide 9 / 14
結果 (2): Best-of-Many のサンプル数スケーリング 実践的な設定指針 ■ Main experiments: train K=256, eval K=20 (非対称) ■ Train K ↑: 多様性を学習 — もっと伸びる余地あり ■ Eval K=1 は discriminative に近い (単一予測) — この行の低 迷が BoM の効果を裏付け ■ K=1024 でも best=50.7 と mean=45.7 の差が拡大 → mode coverage が本質的に進展 Fig. 5: train K (横) × eval K (縦) heatmap (Cityscapes mid mIoU) ■ (上左パネル) best: train K を増やすほど単調に改善 — 飽和なし ■ (右パネル) mean: train K=64 以上で安定、増やしても大きな劣化なし DeltaWorld (Kerssies et al., 2026) | Slide 10 / 14
結果 (3): Dense forecasting benchmark (Table 3) Table 3: 3データセット×2タスク×2ホリゾンでの比較。生成モデルは best-of-20 (mean in parens) vs Cosmos (生成モデル) vs DINO-world (識別モデル) — 誠実な比較 ■ best: 全 6 指標で DeltaWorld が勝利 ■ best: 全指標で大幅に上回る (多様性の効果) ■ mean: 5/6 で 勝利 または 同等 ■ mean: Cityscapes で わずかに勝ち, VSPW/KITTI で わずかに負け — ほぼ同等 ■ FLOPs 2,000× 少ない, パラメータ 35× 少ない ■ 誠実な要約: 「平均品質は同等のまま, 多様性を追加」 ■ best−mean ギャップが Cosmosより大 → 意味のある多様性 ■ DeltaWorld は訓練データ 17× 少ない (4M vs 66M) DeltaWorld (Kerssies et al., 2026) | Slide 11 / 14
結果 (4): 多様な未来サンプル (定性的評価) 見るべきポイント ■ 4つのサンプル間で 歩行者の位置 が明らかに異なる ■ Ego camera の進行速度も サンプルごとに異なる (近 寄り方) ■ 多様性は ノイズではなく説得的な mode 間の差異と して現れている ■ Discriminative model はこのような複数の選択肢を同 時に示せない Fig. 6: VSPW 例 — 同一 context から生成された 4つのサンプル + oracle DeltaWorld (Kerssies et al., 2026) | Slide 12 / 14
分析・考察: なぜ delta token は効くのか 1 2 3 Natural prior toward stability Delta は「変化だけ」を encode する ■ Frame compression はシーン全体 (100%) を関わる 部分に encode しなければならない。 ■ zₜ ≈ 0 なら decoder は xₜ₋₁ をよく返す → 「何も変 わらない」がデフォルト動作。 ■ Delta は実際に動いた 2-5% の部分に全容量を割 り当てられる。 ■ Frame compression ではそうはいかず、毎フレー ムでシーン全体を能動的に再表現しなければな らない。 ■ 同じ 1トークンの容量で 関連情報の表現精度が ~50× 向上。 ■ Mean が識別モデルの baseline まで回復した主な 原因。 BoM と Delta は相補的 ■ BoM単体は K×1024 token を生成しなければなら ず訓練 4.9× コスト + predictor が FLOPs の 97% を 占める。 ■ Delta単体は 識別予測 の効率化にしかならない。 ■ 両者の組み合わせで初めて 実用的な生成モデル になる。 Take-away: Delta + BoM は各々に見ればニッチな手法だが、組み合わせると 「効率×多様性」 の両立を達成する。 DeltaWorld (Kerssies et al., 2026) | Slide 13 / 14
限界と強み / まとめ ✓ Strengths ✗ Limitations ■ 効率: Cosmos に対し FLOPs 2,000×, params 35× 少. それで best/mean とも 上回る。 ■ Distribution calibration なし: BoM は mode coverage はするがサンプル頻度 は実際の確率と一致しない ■ 1フレーム=1トークンの極端な圧縮 (512×512 で 1,024× 削減) ■ Error accumulation: AR rollout で誤差が褲積 (mid-horizon で -10 mIoU) ■ 1 forward で K 個の多様な未来を生成 (vs Diffusion: T step) ■ Action conditioning 未対応: 「ブレーキしたら?」という条件づけ不可 ■ Drop-in: DINO-world や DINO-Foresight にも適用可能 (Appendix C) ■ Short context (8 frames ≈ 0.5s) 、長期依存は未検証 ■ Delta の「natural prior」で mean degradation なし ■ 評価は segmentation/depth の proxy task のみ (計画タスクへのマップピン グ 未検証) ■ 訓練データがプロプライエタリ (再現性に限界) Take-away (一行まとめ) DeltaWorld は「連続フレームの差分を 1 token に圧縮」 + 「Best-of-Many」 + 「VFM 特徴量空間」の組み合わせで, 0.3B モデルで 1回の forward から 多様で現実的な未来を生成 し, Cosmos-12B を 2,000× 少ない FLOPs で超える. DeltaWorld (Kerssies et al., 2026) | Slide 14 / 14