【DL輪読会】A Step Toward World Models: A Survey on Robotic Manipulation

1.1K Views

March 19, 26

#世界モデル #ロボット操作 #AI #機械学習 #サーベイ論文

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 69.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 52.8K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 49.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “A Step Toward World Models: A Survey on Robotic Manipulation” Atsuya Ishizu, D1, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 日付：10 Nov 2025 • 論文URL：https://arxiv.org/abs/2511.02097 • 選定理由：ロボット制御における世界モデルの活用の全体感を掴みたかったため 2

https://arxiv.org/abs/2511.02097

目次 1. 導入 2. 世界モデルのパラダイム 3. 世界モデルの分類 4. 行動計画・予測のための機能 5. 方策学習促進のための機能 6. 主要技術と課題 7. 世界モデルに必要な要素 8. 今後の世界モデルの方向性 9. まとめ 3

導入世界とは相互作用する固有の特性を持った実体の集合 • 実体の特性：形状、サイズ、材質など • 実体同士の関係性：空間的、因果的、機能的、時間的に相互作用し変化するロボット（Physical AI）が直面する課題 • 不完全な観測：センサーから得られる情報は部分的でノイズが多いく、その背後のある物理法則や因果関係は捉えることが困難 • リスク・コスト：実世界での試行錯誤は故障や安全性の観点からリスク・コストが高いなぜ世界モデルが必要なのか？ • 目的を達成するためのロボットの内部推論能力を付与する役割を持つ • 構造化された内部表現：不完全な観測から目的達成に必要な情報を抽出できる • マルチステップ推論：実際に行動をする前に、結果を予測し長期的な計画が立てられる 4

世界モデルの3つのパラダイム 5

世界モデルの分類アーキテクチャアーキテクチャ観測と表現フラット構造 • ほとんどのモデルが属する次元 • 2D：ピクセル空間 • 3D/4D：深度、点群、Gaussian Splatting 階層構造観測と表現視点 • 三人称視点 • 一人称視点 • 人間からデータ収集容易タスクの範囲タスクの範囲単一タスクマルチタスク • 世界基盤モデル（WFM）を活用することが多い表現形式 • Scene-centric • Object-centric • Flow-centric 6

行動予測・計画のための機能 Implicit World Models Latent Dynamics Models Vision-based Models 状態遷移を明示的にモデルかせず、LLMやVLMが持つ推論能力を直接利用して行動計画をする LLMを用いた現実世界への接地 • マルチモーダル化（e.g. 2D画像、 3D点群、音声、触覚、熱）の統合（SayCan, MultiPLY） • VLMの登場により視覚情報をテキストに変換せずに行えるようになる（Look Before You Leep） • 視覚と言語を共同学習したVLMの活用 • WMMPCなど、より強力に視覚情報と言語が設置された世界の理解 • VLMをベースに直接行動生成能力を学習したVLAの登場（RT-2, OpenVLA） • Dual Systems：推論を行うSystem 2とリアルタイムの運動制御を行うSystem 1を分離（Gr00t） • FMを用いて、他のパラダイムに適用する方法 • VLMの出力の特徴量をDreamerに入れる等 7

行動予測・計画のための機能 Implicit World Models Latent Dynamics Models Vision-based Models 観測情報を圧縮した潜在空間上でモデル化して効率的な未来予測・計画を実現 • RSSM：決定的確率的状態を組み合わせたモデル化 • Dreamer系などの潜在空間上で方策を学習 • TD-MPC：潜在状態と状態価値を紐付け逐次的に最適な行動を計画 • JEPA：再構成するのではなく予測することに特化（V-JEPA2） 8

行動予測・計画のための機能 Implicit World Models Latent Dynamics Models Vision-based Models 視覚情報を直接シミュレートし、予測された視覚情報をもとに行動予測・計画する • ゴール条件を用いた行動計画 • 視覚条件：目標画像と予測画像の誤差が小さい行動を選ぶ（Visual Foresight） • 言語条件：テキスト指示と予測画像をVLMなどに入れ、適切な行動を選ぶ • その他条件：ジェスチャー、スケッチなど言語条件と視覚条件の間をとったようなゴール条件（This&That） • 行動抽出：予測画像と現在画像を入力にしてInverse Dynamics Modelを用いて行動予測 • 視覚的忠実度ではなく行動予測に重きおき、静物体をマスクし、動物体だけに集中する等の工夫 9

10.

方策学習促進のための機能 Data Engineとしての役割：実世界のデータ収集コストを削減し、学習をスケールさせる従来の課題 • 人間の遠隔操作データの収集は高コストで、多様な環境・タスクを網羅することが困難世界モデルによる解決策 • 行動条件付でないモデル：IDMなどを用いて擬似ラベルを付与して行動と状態のデータを生成 • 行動条件付きモデル：事前に用意した方策を用いて行動と状態のデータを生成データの質を担保 • 3D Gaussian Splattingや物理シミュレータを組み合わせ幾何学的に正しいデータを獲得 • 幾何的、複数視点一貫性、テキストと動画のアライメント、物理的妥当性を評価しデータフィルター 10

11.

方策学習促進のための機能評価モジュールとしての役割：従来の物理シミュレータがかかえるSim2Realのギャップを埋め実世界に近い評価を実現する従来の物理シミュレータの課題 • 布などの変形物体や複雑な接触が伴う相互作用の再現が困難世界モデルによる評価の期待 • 実データから直接学習するので物理シミュレータでは困難な相互作用の再現に期待 • 評価することで強化学習等で方策を改善できる（Ctrl-World）評価方法 • VLMや事前に学習した報酬モデルを活用して最終的な予測画像を評価（WorldGym） • 綺麗な映像と行動の妥当性が一致するわけではなく、そのバランスをとることが重要 11

12.

主要技術と課題 1. Data Limitations 2. Perception and Representation 3. Long-horizon Reasoning 4. Spatiotemporal Consistency 5. Generalization 6. Physics-informed Learning 7. Memory 12

13.

主要技術と課題 1. Data Limitations • 課題：学習データの不足 • 手段 • 事前学習済みモデルの活用 • 人間のマニピュレーションなどのロボット以外のデータを活用 • 物理シミュレータを用いたデータ拡張 • • 課題：異なる身体を持つロボットの行動データ手段 • 大量かつ多様な身体を持つロボットのデータの使用 • VLM等を活用したAtomic Behaviorsの抽出 • ロボットごとに異なる行動エンコーダを用いて共通の空間に写像 • • 課題：行動データの不足手段 • 明示的な行動ラベルを使用せずゴール画像に基づく自己教師あり学習 • ゴール画像を用意することが困難 • 逆ダイナミクスモデルや潜在行動モデルを用いて行動抽出 • 少量の行動データを用いて事前学習済み動画生成モデルに行動を入力するアダプターを追加 13

14.

主要技術と課題 2. Perception and Representation • 課題：指示の曖昧さ • 手段 • ジェスチャーなどの視覚情報や触覚・音声などを組み合わせ指示内容と実世界を紐付ける • • 課題：未知の指示への汎化手段 • 言語指示を行動の最小単位に分割して記述 • • 課題：時空間の認識不足手段 • 3D空間情報の追加や3Dフルアテンションを用いる • • 課題：タスクに不要なものが学習効率を下げる手段 • 生のピクセルを全て予測するのではなく、物体の情報を取り出し、マスクなどで必要な情報のみ予測 14

15.

主要技術と課題 3. Long-horizon Reasoning • 課題：誤差累積して長期予測ができない • 手段 • サブゴールの活用、階層構造の導入 4. Spatiotemporal Consistency • 課題：物体の連続性や物理的妥当性、因果関係の破綻 • 手段 • 観測フレームを予測フレームに結合し、背景や静物体のずれを防ぐなどのデータの工夫や3Dフルアテンションやメモリ構造を追加することで時空間の一貫性を向上 5. Generalization • 課題：未知のシナリオ・視点に依存しない予測が困難 • 手段 • ロボットデータ以外のデータも活用してデータをスケールさせる • カメラ視点に依存しない表現と依存する表現を分離して学習 • 物体中心の学習を行う 15

16.

主要技術と課題 6. Physics-informed Learning • 課題：物理や因果関係を理解しておらずあり得ない動きを生成してしまう • 手段 • 潜在空間に制約や3D幾何構造や物理パラメータの直接推定、物理的な挙動を記述した言語の活用 7. Memory • 課題：計算リソースにより過去の情報を十分に保持できない • 手段 • スパースメモリや3D特徴マップを活用して計算負荷を抑え長期的な一貫性を確保 16

17.

世界モデルに必要な要素 1. 包括的なマルチモーダルの知覚能力 2. 相互作用の能力 3. 想像能力 4. 長期推論能力 5. 時空間推論能力 6. 反実仮想能力 7. 抽象的な推論能力 8. 高精度な予測能力 9. 物理法則の理解 10. 汎化能力 11. 因果関係の理解 12. メモリ 13. 協調能力 17

18.

今後の世界モデルの方向性多様なモダリティの追加： • 視覚や言語だけでなく触覚や力などの統合階層世界モデル： • 複数レイヤーにわたる長期的な推論能力の向上因果関係の導入： • 統計的な相関をけた実体間の因果関係の学習による汎化・推論能力の向上デプロイを意識した軽量化： • 計算負荷が高い動画生成ベースのモデルの量子化等の圧縮技術による推論速度向上世界モデルの評価プロトコル： • 視覚忠実度、物理的妥当性、因果、長期的推論能力などの多角的に世界モデルを評価できるベンチマークの確立 18

19.

まとめ • 本論文では、ロボットマニピュレーションにおける世界モデルのアーキテクチャ、機能、課題などの観点から調査・分類を行い、世界モデルに必要なる能力の定めた。 • ロボットマニピュレーションに必要な構造的抽象的な世界のモデル化を行うために現在のモデルが欠けている要素をまとめた。 19

20.

具体のモデル等 20

21.

データセットロボットのマニピュレーションデータだけでなく、人間のデータも活用これらのデータに加えてYoutube上の動画や生成AIによるデータ拡張を組み合わせて世界モデルの学習 21