-- Views
January 07, 26
スライド概要
DL輪読会資料
Dreamer 4: Training Agents Inside of Scalable World Models Tomoshi Iiyama, Matsuo Lab
書誌情報 Training Agents Inside of Scalable World Models ● Danijar Hafner, Wilson Yan, Timothy Lillicrap ● 論⽂: https://arxiv.org/abs/2509.24527 ● 実装: Google DeepMind) 未公開(2026年1⽉時点) 概要 ● 世界モデル研究の⽕付け役となった「Dreamer」の第4弾 ● オフラインデータのみを使⽤して、Minecraft でダイヤモンド 💎 を⼿に⼊れることに初めて成功 ● 以前の Dreamer のような RNN ベースではなく、拡散モデルと Transformer を採⽤ ● リアルタイムで⾼速な推論を実現 & 少量のアクションデータで汎化を実現 2
BACKGROUND 3
Background 世界モデル ● 環境の遷移を予測‧シミュレーションする⽣成モデル ● ⼈間の⼩脳に形成されているといわれている内部モデルにヒントを得ている ● David Ha の World Models Ha+ 18 が⽕付け役となり、研究が進められている ● 強化学習と組み合わせた Dreamer Hafner+ 19 などの⼿法が有名 もし左に動かしたら どうなる ...? 潜在表現 ⾃分の⾏動で条件付けた 未来を予測する 行動 「パドルを左に動かす」 実際の観測 現在時刻 次時刻 (想像) 4
Dreamer の系譜 Background 2018 World Model Ha+ 18 深層⽣成モデルを使⽤した世界モデルの初期研究 2019 PlaNet Hafner+ 2019 RSSM (recurrent state space model) を提案 2019 Dreamer Hafner+ 2019 世界モデル RSSM の想像の中で強化学習 RL する初のエージェント 2020 DreamerV2 Hafner+ 2020 Atari ゲームタスクで⼈間を上回る 2023 DreamerV3 Hafner+ 2023 Minecraft でダイヤモンドを獲得することに初めて成功 2025 Dreamer 4 5
DreamerV3 Background ● Minecraft でダイヤモンドを獲得することに初めて成功した ● ⾮常に狭い環境に限っては⾼速で正確だが、複雑な実世界の分布に適応できる能⼒に⽋ける ○ アーキテクチャが弱い (VAE & RNN) ○ 複雑な環境でも⽣成可能な Genie 3 などの制御可能な動画モデルは、 Diffusion Transformer などのスケーラブルなアーキテクチャを使⽤している ● しかし、最近のモデルも課題がある ○ 正確な物理相互作⽤やゲームルールの理解は完全でない ○ 1つのシーンのリアルタイム⽣成にたくさんの GPU が必要 ■ ● 世界モデル内での⽅策学習⽤途を考えると厳しい → よりスケーラブルなアーキテクチャを採⽤しつつも、少ない GPU で⾼速に推論させたい 6
オフライン学習 Background ● 通常の世界モデル⼿法(DreamerV3 など)はオンラインの環境を前提に学習する ● しかし、実世界のロボット等では、中途半端に学習したエージェントで実際の試⾏を繰り返すのは危ない ○ 物理的に危険 ○ ロボットの位置を毎回リセットする必要があり、コストもかかる ● 実際の環境との相互作⽤なしに、既にあるデータだけを使って安全にエージェントを訓練したい ● → オフラインでの⾏動最適化に挑戦 7
METHOD 8
Method 事前知識:フローマッチング ● シンプルなフローマッチングの定式化を使⽤ ● ノイズから元の画像データへ向かうベクトル場(速度場) ● : をネットワークで予測する 0の時が完全ノイズ、1の時がクリーンな画像 ○ 信号レベル ○ 学習時、信号レベルはランダムに選ばれる 推論時は完全なノイズから開始する ○ K ステップのサンプリングを反復的に繰り返す ○ ステップサイズ: 9
事前知識:Shortcut Models ● Shortcut models Frans+ 2024:信号レベル 𝜏 だけでなく、ステップサイズ d でも条件付ける ○ ● Method → 推論時に、ステップサイズ(つまりサンプリングステップ数)を⾃由に変えられるようになる Bootstrap loss で学習 ○ 2分割した細かいステップ( ○ ステップサイズが最⼩でこれ以上分割できない時は、通常のフローマッチングと同じ )による出⼒を正解として、1ステップで出⼒できるよう蒸留する ● ステップサイズと信号レベルはランダムに選ばれる( ● 推論時、好きな はハイパラ) を条件付けてやれば、希望のサンプリングステップ数で⽣成できる! 10
事前知識:Diffusion Forcing ● Method Diffusion forcing Chen+ 2024 ○ 系列データの各タイムステップに異なる信号レベル(ノイズ)を割り当てる⼿法 ○ 通常の next-token prediction ■ 学習時は綺麗な過去のデータから次ステップを予測するため(Teacher forcing)、 実際の⽣成時はノイズや誤差が蓄積してしまう ○ 通常の full-sequence diffusion ■ ○ → 系列⻑が固定されてしまっている 両者の良いとこ取りを実現 11
Dreamer 4 ● Method Dreamer 4 ○ トークナイザ と ダイナミクスモデルの2つから構成 ○ どちらも Transformer を使⽤ 12
Dreamer 4 トークナイザ ● Method Causal Tokenizer ○ 動画フレームを、圧縮された連続表現のトークンに変換 ○ 過去の情報のみ使⽤(causal) ○ Masked autoencoding を使⽤ ■ ○ ⼀部の画像パッチを確率的にドロップアウト MSE & LPIPS の損失で学習 13
Dreamer 4 ダイナミクス ● Method Interactive Dynamics ○ トークナイザをフリーズさせた後に学習 ○ Shortcut forcing により、K4 のサンプリングを実現 ○ 4つの要素が交互に並んだ系列を処理する ■ ⾏動 ■ 信号レベル ■ ステップサイズ ■ 圧縮表現 14
Dreamer 4 ダイナミクス ● Method Shortcut forcing objective ○ Diffusion forcing と Shortcut models を組み合わせた objective を提案 ○ 速度場を予測させる通常の⽅法(v–prediction)は 出⼒が敏感になりやすく、⻑期の動画では誤差が蓄積する ○ そのため、代わりにクリーンな表現を直接予測させる x-prediction を採⽤する ○ Shortcut model のロスを v-space から x-sapce に変更 15
Dreamer 4 ダイナミクス ● Method Ramp loss weight ○ データにノイズが多く加えられている時は学習信号が弱くなる ○ ノイズが少ない時の学習により集中させたい ○ 損失の重みを信号レベルで重み付け ■ 信号レベルとともに線形に増加 ■ 16
学習の流れ Method フェーズ1 世界モデルの事前学習 ○ 動画データでトークナイザを訓練 → フリーズさせる ○ ⾏動データでダイナミクスモデルを学習(⾏動条件付け動画予測) フェーズ2 Agent Finetuning ○ データセット中の⾏動と報酬を MLP で予測させるように学習する(behavior cloning) ○ Agent tokens(タスク埋め込みを受け取るトークン)を追加し、そこから⾏動‧報酬を出⼒ ○ タスクに条件付けられた⽅策と報酬が学習される フェーズ3 Imagination Training ○ 模倣学習の⽅策よりもさらに良い振る舞いを学習するため、 世界モデルによって想像‧⽣成されたデータをもとに RL(PMPO) を⾏う ○ Transformer 部分はフリーズさせ、⽅策と価値を出⼒するヘッドを訓練 17
EXPERIMENTS 18
クエスチョン 1 Experiments Dreamer 4 は、オンラインの環境相互作⽤なしに 世界モデル内での想像学習だけで、難しい RL タスクを解けるか? ✔ 難しいタスク(鉄のツルハシを作る等)において、ベースラインの成功率を⼤きく上回った 2 以前の世界モデルと⽐較して、 オブジェクトの相互作⽤やゲームのルールをどれくらい正確に予測できるか? ✔ ベースラインに⽐べて、複雑な相互作⽤(ネザーポータルで移動する等)の動画を正確に⽣成できた 汎化した⾏動条件付けを学習するために、どれくらいの⾏動ラベルのデータが必要か? 3 ✔ 2500時間の動画に対し、わずか100時間の⾏動データでも学習可能だった 提案⼿法のうち、どの要素が効いているのか? 4 ✔ Shortcut Forcing やロスの重み付けなど、どの要素もパフォーマンスの改善に不可⽋だった 19
1 Offline Diamond Challenge ● ● ● Experiments Minecraft で初期スポーンの状態からダイヤモンドを収集するチャレンジ ○ ⾮常に long-horizon なタスク ○ 慣れている⼈間でも約20分かかる(24,000ステップのマウス/キーボード操作が必要) DreamerV3 では、オンラインの環境にアクセスしながら解いていた ○ 1. 現時点の学習途中の⽅策を使って、オンライン環境で新しい軌道データを収集 ○ 2. 集めた軌道データを使って、世界モデルを学習 ○ 3. 更新された世界モデルを使って、軌道データを想像/⽣成 ○ 4. 想像した軌道データを使って、⽅策を学習 ○ 以上を繰り返す 今回は、実世界のロボット等を想定して、固定されたオフラインデータのみから学習する 20
1 Offline Diamond Challenge ● Experiments VPT データセットを使⽤ ○ 2,541 時間の⼈間によるゲームプレイの動画(20 FPS) ○ 低レベルのマウス‧キーボード操作(⾏動データ)や、イベントアノテーションが含まれる ○ 各エピソード:60分間 ■ ○ ランダムな地点で、インベントリが空の状態からスタート ⾏動データ ■ キーボード:23 のバイナリ ■ マウス:121 クラスのカテゴリカル分布 21
1 Offline Diamond Challenge ● Experiments 学習設定 ○ タスクのアノテーション(計 20 個)を使⽤して、各タスクにバイナリの報酬を設定 ○ 混合データを使⽤ ■ 50% ランダムにサンプル ● ■ ダイナミクスはこちらで学習(楽観的な⽣成を防ぐ⽬的) 50% いずれかのタスクを達成するサンプル ● BC はこちらで学習 ○ コンテキスト⻑: 192 フレーム ○ モデルサイズ ■ 2B パラメータ(トークナイザ: 400 M, ダイナミクス: 1.6 B) 22
1 Offline Diamond Challenge ● Experiments ベースライン ○ ○ VPT OpenAI ■ YouTube 上のゲームプレイ動画(27万時間)で訓練されたモデル ■ Fine-tuning された⽅策を使⽤ BC のみ ■ ○ スクラッチからの模倣学習 Gemma 3 ■ VLA(Vision-Language-Action)モデル ■ Fine-tuning して BC を学習 23
1 Offline Diamond Challenge ● Experiments 各タスクの成功率(1,000 エピソードで集計) ○ VPT は⽊の棒を作る所まで達成(53 %) ○ VLA は鉄のツルハシを作る所まで(11 %) ○ Dreamer 4 は最後のダイヤモンド収集まで達成(0.7 %) 24
1 Offline Diamond Challenge ● Experiments 各タスクの成功率と達成に要した時間 ○ 成功率だけでなく、⽅策の効率も改善されている(より早くゴールを達成) ○ Gemma 3BC よりも Dreamer 4 が上回る ■ Dreamer 4 の世界モデルの表現が、Gemma 3 の⼀般的な表現よりも優れていることを⽰唆 25
2 Human Interaction ● Dreamer 4 の動画予測能⼒を評価 ● ⼈間のプレーヤーが、世界モデルの内部でゲームをプレイする ○ ⼈間はタスク(⽊を切る、壁を作る等)の説明を受け取る ○ そのタスクの初期フレームから⽣成が開始される Experiments 26
2 Human Interaction ● Experiments ベースライン ○ Oasis ○ Lucid-v1 ○ MineWorld ○ (Genie 3 はキーボード/マウスの⾏動空間に対応していないため、除外) 27
2 Human Interaction ● ⼈間の操作に応じて、リアルタイムで⽣成する必要がある ○ ● ● 1つの H100 GPU を使⽤して推論速度を測定 Dreamer と Lucid-v1 ○ ● Experiments データセット本来の 20 FPS を上回る推論速度を達成 Oasis ○ モデル⼩:20 FPS を達成 ○ モデル⼤:5 FPS MineWorld ○ 並列デコードで 2 FPS ○ (事前に全ての⾏動系列を知る必要があり、リアルタイムには使⽤できない) 28
2 Human Interaction ● Experiments Lucid-v1 ○ 16 個中、全てのタスクで正確な⽣成に失敗 29
2 Human Interaction ● Experiments Oasis (large) ○ 16 個中、5個のタスクで⽣成に成功 30
2 Human Interaction ● Experiments Dreamer 4 ○ 16 個中、14個のタスクで正確な⽣成を達成 31
2 Human Interaction ● Experiments タスク:「窓を並べる」 Lucid-v1 Oasis Dreamer 4 32
2 Human Interaction ● Experiments タスク:「ポータルをくぐってネザーに移動する」 Lucid-v1 Oasis Dreamer 4 33
2 Human Interaction ● Dreamer 4 は、複雑な相互作⽤とゲームメカニクスを正確に予測‧⽣成できた ● しかし、⼀部のタスクでまだ改善の余地がある ○ タスク:「360度回転した後で、家に⼊る」 ○ 振り返った時に、先ほど⾒たものを忘れてしまっている ○ → Experiments 近年の動画⽣成モデルの課題(メモリ機構などで対処する必要) Dreamer 4 34
3 Action Generalization ● Experiments ⾏動ラベルの付いていないネット上の動画などからも、 ⼀般的な物理法則やオブジェクトの相互作⽤を学習できたら良い ● 学習に使⽤する⾏動データの量を変えて実験 ○ ● 0, 10, 100, 1000, 2541 (時間) テストデータにおいて、320 フレームのコンテキストで条件付けて 16 ステップ⽣成する ○ PSNR と SSIM で評価 35
3 Action Generalization ● ● Experiments ⾏動データの量を変えた際の予測精度 ○ 10 時間しかなくても、SSIM 75% を達成 ○ 100 時間もあれば、PSNR 80%, SSIM 100% になる 世界モデルが知識の⼤部分をラベルなし動画から学習しており、⾏動は少量で⾜りることを⽰唆している 36
3 Action Generalization ● ⾏動データの汎化性能を評価 ○ ● Experiments ⾏動データを、「通常ワールド」と「ネザー/エンド」のデータに分割 ネザーの世界で⾏動条件付け⽣成を⾏った時の精度 ○ 通常ワールドでのみ学習した⾏動条件付けが、未知のシナリオにも⼀般化できることを⽰している 37
4 Model Design ● アブレーション ● コンテキストなしで、384 フレームの動画を 1024 本⽣成 ○ Experiments 16 フレームのチャンクに分割し、FVD スコアを計算 38
まとめ 39
Conclusion まとめ ● Dreamer 4 を提案 ● DreamerV3 と⽐べて、モダンなアーキテクチャの採⽤により、予測性能‧⽣成品質が圧倒的に向上 ● 動画⽣成モデルとしてスケールさせつつ、リアルタイム推論や RL 学習も意識した設計 ● スケーラブルな動画⽣成モデルが、世界モデルとしてプランニングにも応⽤できることをちゃんと⽰した ○ オフラインデータ縛りでダイヤモンドチャレンジを達成した点がインパクト ● 少量の⾏動ラベルで汎化することを⽰した点も興味深い ● 近年のトレンド通り、⽣成時の⻑期記憶に課題があることも改めて確認できた ● ○ この点に対処することで、プランニング性能をさらに改善できると思われる ○ (ダイヤの成功率はまだ 0.7% なので、伸び代が沢⼭ある) ⼤規模な事前学習モデルよりも性能が優れている点について、より深掘りした分析を期待 40
補⾜ 41
DreamerV3 との⽐較 Experiments 42
実験 Experiments 43
実験 Experiments 44