【Diffusion勉強会】World Action Models

3.1K Views

March 26, 26

#World Action Model #動画生成 #行動生成 #機械学習 #ロボット制御

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 70.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 53.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] World Action Models Yusei Koen, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

目次 1. World Action Modelとは？ 2. 代表的なWorld Action Model i. Mimic-video ii. Cosmos-Policy iii. DreamZero 2

World Action Modelとは？ • 将来予測と行動予測を同時に学習することで，将来予測を行動生成に活用することができるモデル観測と行動の同時分布を学習している WAM • World Action Model（WAM）はVideo Action Model（VAM）を包含する概念 • World Modelの知識を使いながら行動生成する方策モデルというイメージ VAM 観測として動画を使用する Latent や動画以外のモダリティを使用する設計も考えれる 3

World Modelと呼ばれがちなものの分類 Video Action Model Video Generation Model Action Conditioned World Model 現在の観測から行動と次の観測の同時分布を学習現在観測から次の観測を予測するよう学習行動に条件づけて次の観測や潜在状態を予測するよう学習代表的なモデル： • DreamZero • Cosmos Policy • Lingbot-va 行動生成が目的代表的なモデル： • Veo • Sora • Wan 代表的なモデル： • Dreamer系 • Genie • V-JEPA2-AC 動画生成・将来予測が目的 4

VAMは何が良いのか？ -VLAとの違いVLA 画像 VAM VLM VGM 動画テキスト • VLMの事前学習は画像やテキストなどのStaticなデータ • 動画生成モデル（VGM）の事前学習はSpatio-temporalな動画データ • VLAを学習する際に，Semanticな理解ができても行動コマンドに結びつきにくい • 事前学習のPriorを活かしやすく，方策の学習効率が速い 5

目次 1. World Action Modelとは？ 2. 代表的なWorld Action Model i. Mimic-video ii. Cosmos-Policy iii. DreamZero 6

VAM設計上のInverse Dynamicsの定式化 • VAMではInverse Dynamicsを用いて行動を生成する – Inverse Dynamics：現在観測と次観測からその間の行動を生成する • 次の観測を予測して，その間の行動を予測する（下式左辺） – Mimic-Videoはこれに近い実装 • この積をまとめて同時分布のように学習する方法もある（下式右辺） – Cosmos Policy, DreamZeroはこの実装 – Implicit IDMと呼んでいる 7

Mimic-Video 2512.15692 • VAMという単語をおそらく初めて使用した研究 • 事前学習済みの動画生成モデル（Cosmos-Predict）をbackboneに使用する • Action Decoderは別に初期化した DiTを使用する • VLAよりもVAMの方が10倍サンプル効率が良いと主張 8

https://arxiv.org/pdf/2512.15692

Mimic-Video 2512.15692 • 訓練は二段階 1. Video Modelのfine-tuning • ロボットのデモデータでVideo Modelをfine-tuningする 2. Action Decoderの学習 • • • • Video Modelはfreeze Video側とAction側で独立なflow time 𝜏𝑣 , 𝜏𝑎 をサンプル Video Modelの第k層の出力をcross-attentionで条件づけてAction decoderを学習推論時 – – – – – 𝜏𝑣 はハイパーパラメータノイズののった画像（Partially-denoised）の隠れ状態から行動を生成する実用上は𝜏𝑣 = 1でも結構うまくいくらしいつまり，入力のノイズから一回のforwardで得た第k層の隠れ状態で条件づけて行動生成する 𝜏𝑎 は通常通り1から0に積分する 9

https://arxiv.org/pdf/2512.15692

10.

Cosmos-Policy 2601.16163 • ICLR 2026採択 • 動画生成モデル（Cosmos-Predict）のアーキテクチャを変えずに方策学習を行う • 行動，次観測に加えて，価値も予測することで，世界モデルを用いたプランニングを行うことも可能 10

https://arxiv.org/pdf/2601.16163v1

11.

Cosmos-Policy 2601.16163 • 観測，行動価値を並べて動画として扱う • 使用するデータ – – • 50%：demonstration dataset 50%：rollouts dataset（最適ではない，失敗も含むデータ） Demonstration datasetはPolicy学習に使用し， rollouts datasetはWorld ModelとValue Function 学習に使用 – ヘッドが分かれているとかではなく，conditionにするframeを変えているだけ 11

https://arxiv.org/pdf/2601.16163v1

12.

Cosmos-Policy 2601.16163 • World ModelとValue Functionのみを学習済みの方策で集めたデータでfine-tuningすることでPlannerとしても使える • ある複数の行動に対する次状態の価値の予測を行うことで最適な行動を選択する – – • Model-Based Planning 深さは今は1でしか行っていない（直近の行動のプランニングのみを行っている）性能は良くなっているが，推論時間が長くなる – – 通常の推論：<1s Planning：>5s 12

https://arxiv.org/pdf/2601.16163v1

13.

DreamZero 2602.15922 • NVIDIAから出た研究 • 結構バズっている • WAMという単語を初めて使用 13

https://arxiv.org/pdf/2602.15922

14.

DreamZero 2602.15922 • Backboneは事前学習済みのWan2.1 14B • 学習時には次観測と行動にノイズをかけて flow matchingで学習する – • 同時分布を学習推論時には共同でdenoiseするが観測側のlatent は使わずに行動だけ使用する – Contextにも実際に得られた観測を使用するので，予測画像は実質的に捨てられる 14

https://arxiv.org/pdf/2602.15922

15.

DreamZero 2602.15922 • 14Bサイズでも色々と最適化することで7Hz （GB200）での制御を実現 – – – • Zero-shotでの汎化性能がVLAよりも高い – • 観測と行動のノイズレベルを分けて学習し，推論時には観測よりも短いstepで行動を出せるようにする CFGの並列化，DiTのcaching等々 VLAはもっと弱いGPUで20HZくらいで制御可能 Pi05は4Bとかなのでフェアではない気がする Cross-embodimentでの学習ができる – – 異なるロボットや人間の動画データで学習この時は動画側のみでlossをとって学習 15

https://arxiv.org/pdf/2602.15922

16.

所感・課題 • ロボット制御のためのPriorとしては，VLMよりは動画生成の方が直感的には良い気がする • 課題 – 推論時間 • – 次観測を同時に予測する設計だとどうしても推論時間がかかってしまう長期のプランニングの欠如 • • 既存手法は結局（定式化上）1stepの行動と観測予測しか行っていないので，動画生成モデルの良さを活かしきれているか怪しい直近の研究では1stepの将来予測もそんなに重要ではない可能性 – 2603.16666 16

https://arxiv.org/abs/2603.16666