-- Views
March 26, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] World Action Models Yusei Koen, Matsuo Lab http://deeplearning.jp/ 1
目次 1. World Action Modelとは? 2. 代表的なWorld Action Model i. Mimic-video ii. Cosmos-Policy iii. DreamZero 2
World Action Modelとは? • 将来予測と行動予測を同時に 学習することで,将来予測を行動生成に 活用することができるモデル 観測と行動の同時分布を学習している WAM • World Action Model(WAM)はVideo Action Model(VAM)を 包含する概念 • World Modelの知識を使いながら 行動生成する方策モデル というイメージ VAM 観測として動画を使用する Latent や動画以外のモダリティを使用する 設計も考えれる 3
World Modelと呼ばれがちなものの分類 Video Action Model Video Generation Model Action Conditioned World Model 現在の観測から行動と次の観測の 同時分布を学習 現在観測から次の観測を 予測するよう学習 行動に条件づけて次の観測や 潜在状態を予測するよう学習 代表的なモデル: • DreamZero • Cosmos Policy • Lingbot-va 行動生成が目的 代表的なモデル: • Veo • Sora • Wan 代表的なモデル: • Dreamer系 • Genie • V-JEPA2-AC 動画生成・将来予測が目的 4
VAMは何が良いのか? -VLAとの違いVLA 画像 VAM VLM VGM 動画 テキスト • VLMの事前学習は画像やテキストなど のStaticなデータ • 動画生成モデル(VGM)の事前学習 はSpatio-temporalな動画データ • VLAを学習する際に,Semanticな 理解ができても行動コマンドに 結びつきにくい • 事前学習のPriorを活かしやすく, 方策の学習効率が速い 5
目次 1. World Action Modelとは? 2. 代表的なWorld Action Model i. Mimic-video ii. Cosmos-Policy iii. DreamZero 6
VAM設計上のInverse Dynamicsの定式化 • VAMではInverse Dynamicsを用いて行動を生成する – Inverse Dynamics:現在観測と次観測からその間の行動を生成する • 次の観測を予測して,その間の行動を予測する(下式左辺) – Mimic-Videoはこれに近い実装 • この積をまとめて同時分布のように学習する方法もある(下式右辺) – Cosmos Policy, DreamZeroはこの実装 – Implicit IDMと呼んでいる 7
Mimic-Video 2512.15692 • VAMという単語をおそらく初めて 使用した研究 • 事前学習済みの動画生成モデル (Cosmos-Predict)をbackboneに使用 する • Action Decoderは別に初期化した DiTを使用する • VLAよりもVAMの方が10倍 サンプル効率が良いと主張 8
Mimic-Video 2512.15692 • 訓練は二段階 1. Video Modelのfine-tuning • ロボットのデモデータでVideo Modelをfine-tuningする 2. Action Decoderの学習 • • • • Video Modelはfreeze Video側とAction側で独立なflow time 𝜏𝑣 , 𝜏𝑎 をサンプル Video Modelの第k層の出力をcross-attentionで 条件づけてAction decoderを学習 推論時 – – – – – 𝜏𝑣 はハイパーパラメータ ノイズののった画像(Partially-denoised)の隠れ状態から 行動を生成する 実用上は𝜏𝑣 = 1でも結構うまくいくらしい つまり,入力のノイズから一回のforwardで得た 第k層の隠れ状態で条件づけて行動生成する 𝜏𝑎 は通常通り1から0に積分する 9
Cosmos-Policy 2601.16163 • ICLR 2026採択 • 動画生成モデル(Cosmos-Predict)の アーキテクチャを変えずに方策学習 を行う • 行動,次観測に加えて,価値も予測 することで,世界モデルを用いた プランニングを行うことも可能 10
Cosmos-Policy 2601.16163 • 観測,行動価値を並べて動画として扱う • 使用するデータ – – • 50%:demonstration dataset 50%:rollouts dataset(最適ではない,失敗 も含むデータ) Demonstration datasetはPolicy学習に使用し, rollouts datasetはWorld ModelとValue Function 学習に使用 – ヘッドが分かれているとかではなく,conditionに するframeを変えているだけ 11
Cosmos-Policy 2601.16163 • World ModelとValue Functionのみを 学習済みの方策で集めたデータでfine-tuningする ことでPlannerとしても使える • ある複数の行動に対する次状態の価値の予測を 行うことで最適な行動を選択する – – • Model-Based Planning 深さは今は1でしか行っていない (直近の行動のプランニングのみを行っている) 性能は良くなっているが,推論時間が長くなる – – 通常の推論:<1s Planning:>5s 12
DreamZero 2602.15922 • NVIDIAから出た研究 • 結構バズっている • WAMという単語を初めて使用 13
DreamZero 2602.15922 • Backboneは事前学習済みのWan2.1 14B • 学習時には次観測と行動にノイズをかけて flow matchingで学習する – • 同時分布を学習 推論時には共同でdenoiseするが観測側のlatent は使わずに行動だけ使用する – Contextにも実際に得られた観測を使用するので, 予測画像は実質的に捨てられる 14
DreamZero 2602.15922 • 14Bサイズでも色々と最適化することで7Hz (GB200)での制御を実現 – – – • Zero-shotでの汎化性能がVLAよりも高い – • 観測と行動のノイズレベルを分けて学習し, 推論時には観測よりも短いstepで行動を 出せるようにする CFGの並列化,DiTのcaching等々 VLAはもっと弱いGPUで20HZくらいで制御可能 Pi05は4Bとかなのでフェアではない気がする Cross-embodimentでの学習ができる – – 異なるロボットや人間の動画データで学習 この時は動画側のみでlossをとって学習 15
所感・課題 • ロボット制御のためのPriorとしては,VLMよりは動画生成の方が 直感的には良い気がする • 課題 – 推論時間 • – 次観測を同時に予測する設計だとどうしても推論時間がかかってしまう 長期のプランニングの欠如 • • 既存手法は結局(定式化上)1stepの行動と観測予測しか行っていないので,動画生成モデルの 良さを活かしきれているか怪しい 直近の研究では1stepの将来予測もそんなに重要ではない可能性 – 2603.16666 16