【DL輪読会】World Simulation with Video Foundation Models for Physical AI

132 Views

November 13, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] World Simulation with Video Foundation Models for Physical AI Kohei Sendai, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • タイトル : “World Simulation with Video Foundation Models for Physical AI” • Author : Nvidia • リンク : paper : https://arxiv.org/pdf/2511.00062 github : https://github.com/nvidia-cosmos/cosmos-predict2.5 HP: https://research.nvidia.com/labs/dir/cosmos-predict2.5/ • 主にCosmos Predict 1の後継となる, Cosmos Predict 2.5について. 2

3.

背景 World Foundation ModelはPhysical AIの分野において重要 例えば. 1. ロボットの学習データをWFMを使用して生成/拡張することで学習 データの大規模化や多様化を促進 2. 自動運転の既存のデータを異なる天候や地域といった条件を変えて 拡張することができるようになる この研究では,Cosmos-Predict 1を発展させ,言語追従性や動画の品質を 更に高めたモデルを学習した. 3

4.

要点 • Cosmos Predict 1 から以下の3点が大きく異なる 1. データのフィルタリング 2. モデルアーキテクチャの単純化 • Text2World, Image2World, Video2Worldを一つの統合されたモデル で学習 3. 学習レシピの改善 • Text Encoder : T5 → Cosmos-Reason1 • Model mergingや 強化学習手法によるPost Training 4

5.

フィルタリング rawdataset 35M hours raw video Shot – Aware video spliting 6 billion video crop 200 million video crop (about 4%) Video Captioning *1 : DOVER https://arxiv.org/pdf/2211.04894 *2 : VTSS https://arxiv.org/pdf/2410.08260 5

6.

フィルタリング Cosmos Predict 1と比較して, データサイズ 200M → 350M hours Surviving ratio 30% → 4% 厳しいデータキュレーションにより よりよい学習データの構築を行った 6

7.

Domain特化 Dataset Physical AI ドメインのクオリティの高いデータセットを得るため, Robotics, Autonomous Driving, Smart Spaces,Human Dynhamics, Physics の5つのドメインのデータを使用. 同様のフィルタリングを実施. (ただしVLM filteringの代わりに各ドメインに特化したfilterを使用) Eg. Roboticsでは以下のようなdatasetを使用 7

8.

ネットワークアーキテクチャ Cosmos Predict 1を再利用しつつ 1. Absolute positional embedding を廃止 2. Vision tokenizerにWAN2.1 VAE を使用. 3. Text EncoderをT5から Cosmos-Reason1に変更 などの変更を加えたDiT. Flow Matchingで学習 WAN : https://arxiv.org/abs/2503.20314 8

9.

Multi Stage Pre Training 簡単なタスクから,難しいタスク, 低解像度から高解像度の動画の流れで段階に分けて事前学習を行う. Text2Image : 動きや動画の一貫性を取得する前に高クオリティの画像生成を先に学習する Video2World : 1 or 5枚の画像から将来のframeの動画を予測するタスクを学習させる → 徐々に解像度を高くした上で学習させる Text2World : テキストのみから動画生成させるタスクを学習 9

10.

Post Training クラス分類した以下の5つのdatasetに対してSFTを実施, Human Preference で評価. SFTモデルのほうがbaseモデルより 優れている結果となった. 10

11.

Model Merge 4K videoを使用して, 詳細で滑らかな動きを生成できるモデルを学習 このモデルとSFTモデルを使用してモデルマージを実施 Model soup, TIES, DARE-Linear, DARE-TIESで 検証を行い, DARE-TIES以外のモデルマージで 性能の向上を確認. Model soupを使用したモデルをfinal post-trained Modelとして採用 11

12.

Reinforcement Learning VideoAlign*3 を使用した, VLM ベースの報酬を使用した強化学習を実施 強化学習によって, Human preferenceが向上 モデルマージしたモデルにRL を適用したモデルを Final post-train checkpoint として公開. *3 Improving Video Generation with Human Feedback: https://arxiv.org/pdf/2501.13918 12

13.

Resutlt : PAI Benchmark PAI-Bench *4 による評価 ではWan2.2と同程度か少し良い *4 https://github.com/SHI-Labs/physical-ai-bench 13

14.

Application : Cosmos-Transfer2.5 CosmosPredict2.5をもとに,複数のcontrol inputsを受け取れるモデル. (depth, segmentation, edge, blurなど) 14

15.

Application : Cosmos-Transfer2.5 Cosmos-Transfer-1に比べて, 言語追従性が良くなり,ハルシネーションが減少している。 15

16.

Application : Robotics Cosmos Transfer 2.5を用いてデータ拡張を行い, Teleoperation Dataにはない Unseen 環境における性能向上を行う. Base : trained 100 teleop data. Baseline : applied standard image augumentation Proposed: Data augumented with Cosmos transfer 2.5 16

17.

Application : Robotics Action-Conditioned World Generationj Actionを与えたうえでそれに沿った行動を行ったときの動画生成を行う. Cosmos Predict 1 では途中で Objectが消えてしまっているが Cosmos predict 2.5では正しく 推論できている. 似たことをやっているモデルとして Ctrl-World *5 などもあり, World Model 内で行動させてモデルを評価する などの使用用途が考えられる. *5 : Ctrl-World: A Controllable Generative World Model for Robot Manipulation : https://arxiv.org/abs/2510.10125 17

18.

まとめ 感想 まとめ 代表的なWorld Foundation Modelであるcosmos が順当に進化している といった印象 圧倒的に性能向上をもたらすようなbreakthroughを含む内容ではないが ,順当にデータセットの大規模化,キュレーションの徹底, モデルの改善を 行っており,着実に知見を貯めていることがうかがえる. WFMの発展に伴い, World Modelによるデータ拡張などRobotics分野に おける活用も 18

19.

参考文献 https://arxiv.org/pdf/2511.00062 https://arxiv.org/pdf/2211.04894 https://arxiv.org/pdf/2211.04894 https://github.com/SHI-Labs/physical-ai-bench https://arxiv.org/abs/2510.10125 19