【DL輪読会】DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

2.1K Views

February 26, 26

#ロボット工学 #世界モデル #機械学習 #ディープラーニング #コンピュータビジョン

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 69.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 52.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos デロイトトーマツディープスクエア（株）小林範久 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 Date: 6 Feb, 2026 論文URL https://arxiv.org/abs/2602.06949 ©2026. For information, contact Deloitte Tohmatsu Group. 選定理由 • • 世界モデルの社会実装・産業への応用への関心一人称視点動画から人手ラベルなしで世界モデルと行動表現を学習し、ロボット制御へ接続している点に関心。 2

https://arxiv.org/abs/2602.06949

１. Introduction ロボット基盤世界モデル研究の現状課題 Data Scarcity （データ不足） Action Gap （行動ラベル欠如） Causality Limitation （因果性の欠落） • ロボットの相互作用データは収集コストが高くスケールしない。 • 人間動画にはロボット制御に対応するアクションラベルが存在しない。 • 従来の受動的動画学習は、観測系列の生成モデリングに留まる。 • 実機実験・遠隔操作・専門家デモに依存。 • 観測（Video）と制御（Action）が未接続。 • 「行動 → 状態変化」の因果的遷移を明示的に学習できない • 一方、人間の作業動画はインターネット規模で存在。 • そのままではロボット学習に転用不可。 • 行動条件付きの未来予測が困難 • 結果として、制御可能な世界モデルとして機能しないこれらの課題を解決するため、人間動画から潜在行動を抽出し制御知識へ転移する基盤世界モデル DreamDojo を提案。 ©2026. For information, contact Deloitte Tohmatsu Group. 4

１. Introduction DreamDojo アーキテクチャ全体像 ① Human Video Pretraining 大規模な人間の一人称動画データ（作業・操作行動）を用いて事前学習し、潜在アクション（latent actions）を統一ラベルとして物理世界の知識を獲得。 ③ Autoregressive Distillation 教師モデル（DreamDojo）から軽量な学生モデルへ自己回帰的に知識蒸留し、将来状態予測と連続制御をリアルタイム実行可能に。 ©2026. For information, contact Deloitte Tohmatsu Group. ② Robot Post-Training 事前学習モデルを各種ロボット（ヒューマノイド・マニピュレータ等）に対して追加学習し、実機動作へ適応。 ④ Applications 未学習環境への汎化、遠隔操作（テレオペ）、ポリシー評価、モデルベース計画などに活用可能。 5

１. Introduction 関連研究との比較 DreamDojo：人間動画から「行動可能な世界モデル」を学ぶ（Robot Control志向） Cosmos-Predict2：動画から「未来映像生成モデル」を学ぶ（Video Prediction志向） Cosmos-Predict2 • Cosmos-Predict2はNVIDIAが開発した「World Foundation Model (WFM)」プラットフォーム「Cosmos」における第2世代の世界モデル。 • 物理世界のデジタルツインとして機能し、未来の世界の状態を映像としてシミュレーション・予測するために設計。 • 「Physical AI」領域（自律マシン、ロボティクス、自動運転等）向けに最適化された汎用性の高い基盤モデル。（過去フレームなど）（目標、アクションなど）主要な役割 1. AIの学習・検証用シミュレーションデータの生成 - 物理法則を理解した画像・動画をAIトレーニング用に提供 ©2026. For information, contact Deloitte Tohmatsu Group. 2. 専門分野向けのファインチューニングが可能な柔軟な基礎モデル - 多様な出力形式・制御方式に適応したカスタムモデル構築出典：https://research.nvidia.com/labs/dir/cosmos-predict2 6

https://research.nvidia.com/labs/dir/cosmos-predict2

１. Introduction 関連研究との比較アクション制御性 Active Control Traditional Robot Policies / Simulators 特定環境外での汎化性能に制約 Passive Observation DreamDojo 大規模データによる汎化とアクションによる制御の両立 JEPA / V-JEPA 系 Latent World Models（JEPA系） Video Gen Models （Sora, Cosmos-Predict）見た目は綺麗だが、ロボット制御への直接転用は困難データスケール／汎化性能 DreamDojoは、ビデオ生成モデルの「世界知識」とロボット制御の「操作性」を統合した汎用モデルである。 ©2026. For information, contact Deloitte Tohmatsu Group. 出典：Revisiting Feature Prediction for Learning Visual Representations from Video 7

２. Preliminary DreamDojo = Cosmos-Predict2.5 を行動条件付き世界モデルへ拡張 ① Interactive World Model ② Cosmos-Predict2.5 ベースの世界モデル目的：行動に基づき将来状態を予測すること。事前学習済みの潜在動画拡散モデルを基盤として利用。状態遷移関数として表現将来フレームを以下条件から予測本論文では “world model” はこの行動条件付き状態遷移モデルを指す。 𝑠𝑡 𝑎𝑡 World Model 𝑠𝑡+1 • テキスト • 条件フレーム •将来フレームを以下条件から予測（world model 文脈では）行動 WAN2.2 tokenizer が生成する連続潜在空間上で動作 DiT Block テキスト cross-attention タイムステップ正弦波埋め込み＋ MLP＋AdaLN ③ 学習方法（Flow Matching Loss）ノイズ付潜在表現 𝑥𝑡 に対し、真の速度𝑣𝑡 との誤差を最小化 𝑐：条件テキスト条件フレーム行動 Flow Matching により将来状態予測を学習行動条件付きの状態遷移モデルとして、潜在動画拡散モデル（Cosmos-Predict2.5）を基盤に Flow Matchingで学習するインタラクティブ世界モデルを構築している。 ©2026. For information, contact Deloitte Tohmatsu Group. 8

３. Approach 3.1. Overview DreamDojo-HV データ特性総計：約 43,827 時間の人間一人称動画学習パイプライン（３段階） 1. Human Video Pretraining 対象データ：In-lab, EgoDex, DreamDojo-HV 環境カテゴリ例： Home / Retail / Transport / Food / Accessory / Repair など。動画から抽出した連続潜在アクション表現を条件として事前学習。 2. Robot Post-Training サブタスク特性１動画あたり複数サブタスクを含む ⇒ 長時間・多段インタラクション型タスクが中心スキル多様性 pick-and-place、open / close、move、wipe、 pour、cut、 stack など広範な操作スキルを包含各ロボット身体性（embodiment）へ適応。アクションヘッドを再初期化し、ロボット固有の行動空間へ再適応。 3. Distillation ターゲット行動空間学習後に蒸留。 → 推論レイテンシ削減、コンテキスト整合性向上。大規模一人称動画（43k時間）で潜在行動を事前学習。ロボット実機へ適応後、蒸留によりリアルタイム性と一貫性を強化する三段階学習アプローチ。 ©2026. For information, contact Deloitte Tohmatsu Group. 出典：Revisiting Feature Prediction for Learning Visual Representations from Video 9

10.

３. Approach 3.2. DreamDojo-HV Dataset • • 既存の世界モデル向け大規模データセット（ロボット／ヒト動画）と、自前データ混合（Our Mixture）の規模・多様性を比較。本データセットは、44,711時間・約117.9万軌跡・6,015以上のスキル・113.5万以上のシーンを包含する最大級データ混合であり、規模・多様性の両面で既存データセットを大幅に上回る。 ©2026. For information, contact Deloitte Tohmatsu Group. 10

11.

３. Approach 3.3. DreamDojo Foundation World Model 3.3.1. Model Architecture 改良① 関節絶対値表現 → 相対行動表現ロボット世界モデルの特徴と難しさ World Model の特徴目的は行動制御（action controllability）単なる映像生成ではない • • 設計 • • • 各 latent frame の開始姿勢を基準姿勢として正規化関節角度の絶対値ではなく姿勢差分（Δpose）で行動表現一定時間窓（例：4 timestep）ごとに再基準化難しさ • • • ロボット行動は高次元接触が多い（contact-rich）離散入力ゲームより複雑 ©2026. For information, contact Deloitte Tohmatsu Group. 効果 • • • • • 行動空間次元を実質圧縮長時間軌道の安定性向上モーション合成時の破綻低減異なる初期姿勢への汎化改善姿勢ドリフト累積を抑制改良② 行動条件注入の因果整合設計従来 • • • 提案 • • • 行動系列全体を単一の global 条件として付与時間対応が曖昧状態遷移との因果対応が弱い行動を latent frame 単位で局所注入時間整列した action → state 条件付け 4フレーム単位で 1 latent に対応付け効果 • • • • 状態遷移と行動の因果整合性向上学習信号の時間局所化による効率改善長時間rollout時の行動ドリフト低減行動条件に対する応答精度向上 11

12.

３. Approach 3.3. DreamDojo Foundation World Model Latent Action Model 概要 ① モデル設計フレーム𝑓𝑡 と 𝑓𝑡+1 間の変化から Latent Action Encoder により連続潜在ベクトル 𝑎ෝ𝑡 を抽出。 • 情報ボトルネック設計により、視覚コンテキストに依存しない「状態遷移を説明する最小変化表現」を学習。 • Latent Action Decoder で𝑓𝑡 と 𝑎ෝ𝑡 から次フレーム 𝑓𝑡+1 を再構成。 → フレーム間の状態遷移を「行動」として圧縮・再表現。手がコップに近づく 𝒇𝒕 ©2026. For information, contact Deloitte Tohmatsu Group. Move Pick-and-place 物体配置が変わる 𝒇𝒕+𝟏 12

13.

３. Approach 3.3. DreamDojo Foundation World Model Latent Action Model 概要 ② 行動表現の横断的一貫性 • 異なるデータセット・異なる身体（人間／ロボット）でも、状態遷移として類似する操作は潜在空間上で近接。 • 視覚的外観や環境が異なっても、「把持」「移動」「配置」などの因果的操作構造は共通表現として学習可能。 ©2026. For information, contact Deloitte Tohmatsu Group. 13

14.

３. Approach 3.3.2. Pretraining from Human Videos 「現在フレーム → 次フレーム変化」を最小情報の潜在アクションで説明させる。 KLダイバージェンス項（正則化） β係数：圧縮強度の制御大 → 強いボトルネック（より抽象的行動）小 → 再構成重視（詳細保持）潜在アクション 𝑎ො と現在フレーム 𝑓 𝑡 から、次フレーム𝑓 𝑡+1 をどれだけ正確に再構成できるか。フレーム間の「潜在遷移」と「モデルが予測した運動（速度）」を一致させる目的関数時刻 𝑖 の潜在表現（latent state）動画フレームをエンコードした世界状態。時刻 𝑖 における予測速度ベクトル（latent dynamics 上の速度）フロー予測精度と時間的一貫性のトレードオフを考慮し、最終損失を次式で定義する。：トレードオフ係数(0.1を利用) ©2026. For information, contact Deloitte Tohmatsu Group. • • フロー精度を上げると時間的一貫性が崩れる。時間平滑性を強めると細かい動きが失われる。 14

15.

３. Approach 3.3.3. Post-Training on Target Robots • • ヒト動画で事前学習した後も、実ロボット適用にはターゲットロボットデータでのポスト学習が必要。ロボットの実アクション列をMLPに投影して行動空間を適合させ、全体をファインチューニングすることで、小規模データでも高い汎化・適応性能を実現する。 3.3.4. Distillation 蒸留の安定化のため、まず Student が最終復元フレームを直接再構成できるようウォームアップ学習を行う。基盤拡散モデル蒸留後の軽量・高速モデル ©2026. For information, contact Deloitte Tohmatsu Group. 𝐺𝑠𝑡𝑢𝑑𝑒𝑛𝑡 （𝑥𝑡 , 𝑡）：蒸留後モデルの復元フレーム 𝑥0 ：復元すべき最終フレーム 15

16.

３. Approach 3.3.4. Distillation Teacher と Student の生成分布を一致させるため、KL ダイバージェンスによる蒸留損失を最小化する。 Teacher モデルの生成分布 Student モデルの生成分布 KL 蒸留損失を Student パラメータで微分すると、Teacher と Student のスコア差に基づく勾配が得られる。 • • Student パラメータ 𝜃 に対する勾配更新方向を与える期待値：ノイズ 𝑧∼𝑁(0,𝐼) 、拡散時刻 𝑡 全ノイズ段階平均。：Student 出力のパラメータ勾配 ©2026. For information, contact Deloitte Tohmatsu Group. 16

17.

4. Experiments 4. Experiments １．潜在アクションの有効性潜在アクション導入により、人間動画からの転移性能は向上するか。２．データ多様性と汎化性能大規模・多様データは、新規物理相互作用・OOD環境への一般化を促進するか。３．アーキテクチャ／学習設計の効果提案相対アクション表現および因果条件付け設計は、行動条件付き予測の精度を改善するか。４．蒸留パイプラインの効果蒸留により、長時間相互作用における安定性と推論速度は両立可能か。５．下流応用への適用性学習済み世界モデルは、実タスク学習においてサンプル効率・成功率を向上させるか。評価ベンチマーク設計 • 人間動画に含まれる多様な行動・環境を反映しつつ、ロボット訓練データに対しては分布外となる6種の評価ベンチマークを構築 In-lab Eval：実験室内の基本操作 EgoDex Eval：エゴ視点操作タスク DreamDojo-HV Eval：人間動画由来の高多様性環境 ©2026. For information, contact Deloitte Tohmatsu Group. Counterfactual Eval：反事実的条件での評価 EgoDex-novel Eval：未学習条件のエゴ視点タスク DreamDojo-HV-novel Eval：未知環境・未知物体での評価 17

18.

4. Experiments 4.2. Effects of Different Action Conditions 提案手法（潜在アクション条件付け）の有効性を検証するため、In-lab Eval と EgoDex Eval において以下の3つのベースラインと比較１．事前学習なし：Cosmos-Predict2.5 から直接ポストトレーニング。２．アクションなし事前学習：ラベルなし動画で未来予測として事前学習。３．GTアクション条件付け：高精度な実アクションラベルを用いた理想設定。全手法は人間動画で5万ステップ事前学習し、その後GR-1データで2.5万ステップのポストトレーニングを実施。評価は未学習オブジェクト・動作を含む環境で行う。結果として、アクションなし事前学習の効果は限定的である一方、潜在アクション導入によりGTアクション条件付けに大きく近づく性能向上を達成。潜在アクションは、精度面の課題があるMANO抽出ラベルの代替として、統一的な代理アクションとして採用されている。 ©2026. For information, contact Deloitte Tohmatsu Group. 18

19.

4. Experiments 4.3. Effects of Different Data Mixtures データ多様性の効果を検証するため、異なるデータ混合で5万ステップ事前学習し、その後GR-1で2.5万ステップのポストトレーニングを実施。サンプリング比率は各データセットで均一とした。事前学習に人間データを追加するほど性能が一貫して向上し、特に分布外（OOD）やカウンターファクト条件下で顕著な改善を示す。大規模データ混合（DreamDojo-14B など）が最良性能を達成し、提案手法のスケール拡張性を裏付けている。 ©2026. For information, contact Deloitte Tohmatsu Group. 19

20.

4. Experiments 4.4. Generalization to Unseen Scenarios • 未学習シナリオでの汎化性能を評価するため、DreamDojo-2B／14B と、事前に人間動画で学習していない Cosmos-Predict2.5 を比較。全モデルは3万ステップのポストトレーニング後、EgoDex-novel と DreamDojo-HVnovel の動画サンプルで人手評価（12名）を実施。結果 • • DreamDojo-2B は Cosmos-Predict2.5 を、物理的正確性・アクション追従性の両面で有意に上回る。 DreamDojo-14B は、大規模容量の効果により 2B をさらに上回る性能を示した。 ⇒ 人間動画事前学習に基づく世界モデルは、未学習環境でも高い汎化性能を発揮。 ©2026. For information, contact Deloitte Tohmatsu Group. 20

21.

4. Experiments 4.5. Ablations of Our Design Choices 設計要素と学習目的の有効性を検証するため、Cosmos-Predict2.5 をGR-1データで3万ステップ微調整し、GR-1検証セットおよびCounterfactual Evalで評価。基本構成から段階的に以下を追加 • • • Relative action transformation Chunked action injection Temporal consistency loss ：姿勢差分（Δpose）表現により初期姿勢依存を低減し、軌道汎化を改善。：行動を時間チャンク単位で注入し、状態遷移との因果対応を強化。：潜在遷移と速度予測を整合させ、時間的一貫性と物理安定性を向上。結果 • Relative action と chunked injection は、シミュレーション品質を大きく改善し、精密なアクション制御に重要。 Temporal consistency loss は、アクション追従性と物体モデリングの両方をさらに向上。 ⇒提案する設計変更は、通常軌道・反事実軌道の双方で有効。 ©2026. For information, contact Deloitte Tohmatsu Group. 21

22.

4. Experiments 4.6. Benefits of Distillation • • 蒸留により、DreamDojo-2B（GR-1）の学生モデルは教師に近い性能を維持しつつ約4倍高速化し、リアルタイム推論（10.81 FPS）を実現した。長期ロールアウト性能の劣化は小さく、自己回帰生成によりリアルタイムストリーミングや複数フレーム文脈の活用が可能となり、遮蔽やカメラ変化への頑健性も向上する。 ©2026. For information, contact Deloitte Tohmatsu Group. 22

23.

4. Experiments 4.7. Downstream Applications DreamDojoは「評価・計画・操作」の3段階で実用性を実証。 1. Policy Evaluation（方策評価）目的 DreamDojoは実世界の方策性能をどれだけ正確に予測できるか。設定 • AgiBot果物パッキング（長期タスク） • 実機80秒ロールアウトを取得 • 同一初期状態からDreamDojoで全軌道をシミュレーション • 20シーンで平均化評価指標：Pearson相関係数（線形一致度） MMRV（順位整合性）結果：Pearson r = 0.995 MMRV = 0.003 2. Model-Based Planning（モデルベース計画）複数の方策チェックポイントから行動候補を生成。 DreamDojoで将来軌跡を予測し、外部Value Modelで最良案を選択。蒸留版DreamDojo-2Bでバッチ処理し実行効率を確保。結果分散の大きい方策群：ベスト単体モデル比 +17% ランダム選択比約2倍の成功率収束済み方策群でもほぼ2倍改善 ⇒ DreamDojoはテスト時のオンライン方策改善（policy steering）に有効。モデル多様性を高めればさらなる改善が期待される。 3. Live Teleoperation（リアルタイム遠隔操作） • • ©2026. For information, contact Deloitte Tohmatsu Group. RTX 5090搭載ローカル環境でDreamDojo-2Bを実行。 PICO VRコントローラ入力を接続し、G1ロボットをリアルタイム操作。 ⇒ 実時間での仮想ロボット遠隔操作が可能であることを実証。 23

24.

5. Conclusion まとめ • • • • DreamDojo は、人間動画大規模事前学習によりロボット操作をシミュレート可能な汎用世界モデルを提案。潜在アクション導入と蒸留により、長時間相互作用とリアルタイム制御を両立。 OOD環境でも物体運動・接触を含む物理ダイナミクス理解と行動追従性能が向上し、実機評価とも正の相関を確認。汎用ロボット世界モデル実現に向けた基盤となる可能性を示した。今後の課題 • 人間動画とロボット身体差 ⇒人間動画とロボット身体差（自由度・可動域・接触特性）により、精密操作や高力接触タスクへの転移には限界が残る。 • 物理理解と長期相互作用の精度 ⇒変形体・多点接触・力制御を含む複雑ダイナミクスでは、長時間 rollout における誤差累積と安定性に課題。 • 長期計画・サブゴール生成 ⇒潜在アクションは有効だが、目的分解・サブゴール生成・失敗回復を含む階層計画は未成熟。 • データ意図性と評価不足 ⇒人間動画には明示的な意図ラベルが不足しており、安全性・失敗挙動を含む実運用評価指標の確立が必要。 ©2026. For information, contact Deloitte Tohmatsu Group. 24

25.

Appendix 参考文献 • Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, et al. V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning. arXiv preprint arXiv:2506.09985, 2025. • Boyuan Chen, Tianyuan Zhang, Haoran Geng, Kiwhan Song, Caiyi Zhang, Peihao Li, William Freeman,Jitendra Malik, Pieter Abbeel, Russ Tedrake, et al. Large Video Planner Enables Generalizable Robot Control. arXiv preprint arXiv:2512.15840, 2025. • Raktim Gautam Goswami, Amir Bar, David Fan, Tsung-Yen Yang, Gaoyue Zhou, Prashanth Krishnamurthy,Michael Rabbat, Farshad Khorrami, and Yann LeCun. World Models Can Leverage Human Videos for Dexterous Manipulation. arXiv preprint arXiv:2512.13644, 2025. • Joel Jang, Seonghyeon Ye, Zongyu Lin, Jiannan Xiang, Johan Bjorck, Yu Fang, Fengyuan Hu, Spencer Huang, Kaushil Kundalia, Yen-Chen Lin, et al. DreamGen: Unlocking Generalization in Robot Learning through Video World Models. In Proc. Conf. on Robot Learning (CoRL), 2025. • Russell Mendonca, Shikhar Bahl, and Deepak Pathak. Structured World Models from Human Videos. In Proc. Robotics: Science and Systems (RSS), 2023. • Gemini Robotics Team, Coline Devin, Yilun Du, Debidatta Dwibedi, Ruiqi Gao, Abhishek Jindal, Thomas Kipf, Sean Kirmani, Fangchen Liu, Anirudha Majumdar, et al. Evaluating Gemini Robotics Policies in a Veo World Simulator. arXiv preprint arXiv:2512.10675, 2025. ©2026. For information, contact Deloitte Tohmatsu Group. 25