【DL輪読会】World-in-World: World Models in a Closed-Loop World

>100 Views

November 27, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] WORLD-IN-WORLD: WORLD MODELS IN A CLOSEDLOOP WORLD M1 Ku Onoda http://deeplearning.jp/ 1

2.

書誌情報 • タイトル: 「WORLD-IN-WORLD: WORLD MODELS IN A CLOSEDLOOP WORLD」 • 投稿先:ICLR 2026 Under Review(rating: 8,8,6,6 11/27時点) • 著者: Jiahan Zhang et al. (JHU, PKU, Princeton, MIT, Harvard他) • プロジェクトページ – https://world-in-world.github.io/ ※スライドの図表は論文から引用 2

3.

概要 • World Modelとしての動画生成モデルをEmbodied Taskに適用した場合の評価を 行う統合的なプラットフォーム「World-in-World」を提案 – タスク成功には動画のクオリティより、データとinference timeのスケーリングが重要 3

4.

背景:世界モデルとしての動画生成モデル • 近年の動画生成モデル – Veo(Google),Sora(OpenAI), Wan(Alibaba), Cosmos(Nvidia) など高精細な動画生成モデルが発展 – 世界そのものをシミュレートする、世界モデルとして注目されている • Embodied AIにおける活用 – エージェントの現在状態と行動を入力し、未来の結果を動画として予測される ことで、行動の結果を事前に見積もることが可能 • 生成動画の一般的な評価指標 – FVD, VBenchなど – 視覚的な品質(Visual Quality)を評価するための指標 4

5.

課題とモチベーション • 既存のベンチマーク – 生成された動画を Open-loop に評価する (動画モデル→動画生成→評価) • WorldModelBench:視覚的なもっともらしさを評価 • WorldScore:カメラ制御に対する一貫性を評価 → “見た目” だけを評価 • 本研究の目的 Embodied Task に実際に ”使えるか” を評価したい – Closed-loopな相互作用の中でのタスク成功率につながるかどうかを評価 (エージェント → 行動 → 動画モデル → 生成(観測)→ エージェント → …) – 多様なモデルを統一的に扱う 5

6.

提案手法 • World-in-World – 多様な動画生成モデルを統一的に扱う、Closed-loop 評価プラットフォーム – Unified Online Planning Strategy 6

7.

World-in-World: 特徴 • Unified Action API – 動画生成モデルの種類ごとの異なる入力形式に合わせてアクション系列を変換 1.Text Prompt I2V/T2Vのモデル → アクションを言語フレーズに変換し、プロンプトを生成 2.Camera trajectory / viewpoint カメラ座標を入力に与えるモデル → 2次元座標と角度のシーケンスに変換 3.Low-level actions ロボットの制御を直接入力するモデル → エージェントの行動をそのモデル 固有の形にマッピング 7

8.

World-in-World: 評価タスク • 4つのEmbodied Tasksで評価 – Recognition, Navigation, QA, Manipulation 8

9.

タスク設定: Active Recognition • 赤い枠で囲まれたターゲット物体を視点を変えながら正しく認識 • アクション – 離散(前進, 回転, 停止) • Planning – 候補数(M):2 – 予測フレーム数(L):4 • Revision – 認識精度が上がりそうな移動を選択 9

10.

タスク設定: Navigation • 提示されたゴール画像と同じ場所まで移動する • アクション – 離散(前進, 回転, 停止) • Planning – 候補数(M):3 – 予測フレーム数(L):5 • Revision – 予測された動画が、ゴール画像に近づいているかを評価 10

11.

タスク設定:Active Embodied QA • シーン内を探索し質問に答える – 例)赤いソファの上にクッションはいくつ? • アクション – High-level指示, Low-level指示 • Planning – 候補数(M):3 – 予測フレーム数(L):14(評価には最終フレームのみ使用) • Revision – 予測結果が質問の答えを含んでいるかを評価 11

12.

タスク設定: Robotic Manipulation • ロボットアームの操作を行う(RLBench) • アクション – 7自由度のグリッパー制御 • Planning – 候補数(M):5 – 予測フレーム数(L):5(VLM時), 50(Diffusion Policy時) • Revision – 予測された動画が、ゴール画像に近づいているかを評価 12

13.

評価: AR, Navigation, QA • World Modelは、ベースの方策の性能を高める • Post-trainingが効果的 13

14.

評価: Manipulation • Robot Manipulationでは性能向上は限定的 – contact-richな相互作用, ロボットのkinematicsを生成するのは難題 • 物理的に破綻した動画が生成される, アクションとの整合性が取れない 14

15.

Ablation: QualityとControllability • 動画のクオリティ(人間選好スコアの評価) – 人間にとって”良い”動画だからといって成功率が上がるとは限らない(左図) • 制御性(入力したアクションと実際の動きのアラインメント) – アクション条件づけしたPost-trainingにより制御性が向上し成功率向上に結びつく(右図) 15

16.

Ablation: データサイズ • 追加学習時のデータサイズが大きいほど性能が向上 – ベースモデルを強いモデルにするよりもデータを増やすことで上回る 16

17.

Ablation: Inference-time • 推論時のシミュレーション回数が多いほど性能が向上 – エピソードごとの推論回数を3から11回まで変化させて検証 17

18.

Ablation: 与えるコンテキスト • 視覚情報が多くても大幅な性能向上に寄与しない – 限られた視野(Front View)と、360°の視野(Panorama)で比較 18

19.

Ablation: 予測の判定(VLM vs LPIPS) • VLMの性能のおかげでタスク成功しているわけではない – Navigationタスクで選択する予測画像をVLMではなくLPIPSに置き換えても 性能が向上 19

20.

Ablation: 汎化性能 • 汎化性能は保証される – 人工的なCGデータセット(HSSD)で学習し、現実のデータ (HM3D/MP3D)で評価しても性能向上 20

21.

Discussion & Future Direction ❶ 1.汎化性能 未知の実環境では、アクション指示を無視し、整合性のない動画を生成 → 統一的なアクション表現、カリキュラム学習、ドメイン特化データの収集 2.長期的な計画 時空間的な履歴を蓄積する仕組みが不足し、一貫したシミュレーションが難しい → 長期記憶の導入(空間メモリ、エピソード記憶) 3.物理的な相互作用のモデリング精度 特にマニピュレーションで、接触、摩擦、物体の変形などを捉えられない → 物理・ダイナミクスの強化 21

22.

Discussion & Future Direction ❷ 4.Proposal policy, Revision Policyへの依存 システム全体の性能が、World Modelの質以外の能力に依存する → 方策の性能向上、world modelとdecision-makingのシナジー強化 5.計算コスト・効率 プランニングのたびに複数のロールアウトをシミュレーションする必要があるた めコストが高く、リアルタイム性が求められる環境では実用的でない → 効率的なworld-modelのアーキテクチャ、リアルタイム生成を可能にする 学習・推論手法、モデル蒸留 22

23.

まとめ • Embodied Taskにおける評価指標のシフト – Open-loopの評価からClosed-loop(タスク成功に結びつくか)に移るべき • Controllabilityが重要 – 動画としてのクオリティよりも指示通りに動くかが重要 • Post-trainingが有効 – 少量のドメインデータでAction条件づけでPost-trainingすることが有効 – 大きいモデルを使えばよいというわけではない • Embodied Taskに適したモデルの重要性 – マニピュレーションのようなタスクには、現状の動画生成モデルでは不十分 23