>100 Views
March 19, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] “A Step Toward World Models: A Survey on Robotic Manipulation” Atsuya Ishizu, D1, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1
書誌情報 • 日付:10 Nov 2025 • 論文URL:https://arxiv.org/abs/2511.02097 • 選定理由:ロボット制御における世界モデルの活用の全体感を掴みたかったため 2
目次 1. 導入 2. 世界モデルのパラダイム 3. 世界モデルの分類 4. 行動計画・予測のための機能 5. 方策学習促進のための機能 6. 主要技術と課題 7. 世界モデルに必要な要素 8. 今後の世界モデルの方向性 9. まとめ 3
導入 世界とは相互作用する固有の特性を持った実体の集合 • 実体の特性:形状、サイズ、材質など • 実体同士の関係性:空間的、因果的、機能的、時間的に相互作用し変化する ロボット(Physical AI)が直面する課題 • 不完全な観測:センサーから得られる情報は部分的でノイズが多いく、その背後のある物理法則や因 果関係は捉えることが困難 • リスク・コスト:実世界での試行錯誤は故障や安全性の観点からリスク・コストが高い なぜ世界モデルが必要なのか? • 目的を達成するためのロボットの内部推論能力を付与する役割を持つ • 構造化された内部表現:不完全な観測から目的達成に必要な情報を抽出できる • マルチステップ推論:実際に行動をする前に、結果を予測し長期的な計画が立てられる 4
世界モデルの3つのパラダイム 5
世界モデルの分類 アーキテクチャ アーキテクチャ 観測と表現 フラット構造 • ほとんどのモデルが属 する 次元 • 2D:ピクセル空間 • 3D/4D:深度、点群、Gaussian Splatting 階層構造 観測と表現 視点 • 三人称視点 • 一人称視点 • 人間からデータ収集容易 タスクの範囲 タスクの範囲 単一タスク マルチタスク • 世界基盤モデル (WFM)を活用するこ とが多い 表現形式 • Scene-centric • Object-centric • Flow-centric 6
行動予測・計画のための機能 Implicit World Models Latent Dynamics Models Vision-based Models 状態遷移を明示的にモデルかせず、LLMやVLMが持つ推論能力を直接利用して行動計画をする LLMを用いた現実世界への接地 • マルチモーダル化(e.g. 2D画像、 3D点群、音声、触覚、熱)の統合(SayCan, MultiPLY) • VLMの登場により視覚情報をテキストに変換せずに行えるようになる(Look Before You Leep) • 視覚と言語を共同学習したVLMの活用 • WMMPCなど、より強力に視覚情報と言語が設置された世界の理解 • VLMをベースに直接行動生成能力を学習したVLAの登場 (RT-2, OpenVLA) • Dual Systems:推論を行うSystem 2とリアルタイムの運動制御を行うSystem 1を分離(Gr00t) • FMを用いて、他のパラダイムに適用する方法 • VLMの出力の特徴量をDreamerに入れる等 7
行動予測・計画のための機能 Implicit World Models Latent Dynamics Models Vision-based Models 観測情報を圧縮した潜在空間上でモデル化して効率的な未来予測・計 画を実現 • RSSM:決定的確率的状態を組み合わせたモデル化 • Dreamer系などの潜在空間上で方策を学習 • TD-MPC:潜在状態と状態価値を紐付け逐次的に最適な行動を計画 • JEPA:再構成するのではなく予測することに特化(V-JEPA2) 8
行動予測・計画のための機能 Implicit World Models Latent Dynamics Models Vision-based Models 視覚情報を直接シミュレートし、予測された視覚情報をもとに行動予測・計画する • ゴール条件を用いた行動計画 • 視覚条件:目標画像と予測画像の誤差が小さい行動を選ぶ(Visual Foresight) • 言語条件:テキスト指示と予測画像をVLMなどに入れ、適切な行動を選ぶ • その他条件:ジェスチャー、スケッチなど言語条件と視覚条件の間をとったようなゴール条件 (This&That) • 行動抽出:予測画像と現在画像を入力にしてInverse Dynamics Modelを用いて行動予測 • 視覚的忠実度ではなく行動予測に重きおき、静物体をマスクし、動物体だけに集中する等の工夫 9
方策学習促進のための機能 Data Engineとしての役割:実世界のデータ収集コストを削減し、学習をスケールさせる 従来の課題 • 人間の遠隔操作データの収集は高コストで、多様な環境・タスクを網羅することが困難 世界モデルによる解決策 • 行動条件付でないモデル:IDMなどを用いて擬似ラベルを付与して行動と状態のデータを生成 • 行動条件付きモデル:事前に用意した方策を用いて行動と状態のデータを生成 データの質を担保 • 3D Gaussian Splattingや物理シミュレータを組み合わせ幾何学的に正しいデータを獲得 • 幾何的、複数視点一貫性、テキストと動画のアライメント、物理的妥当性を評価しデータフィルター 10
方策学習促進のための機能 評価モジュールとしての役割:従来の物理シミュレータがかかえるSim2Realのギャップを埋め実世界に近い評 価を実現する 従来の物理シミュレータの課題 • 布などの変形物体や複雑な接触が伴う相互作用の再現が困難 世界モデルによる評価の期待 • 実データから直接学習するので物理シミュレータでは困難な相互作用の再現に期待 • 評価することで強化学習等で方策を改善できる(Ctrl-World) 評価方法 • VLMや事前に学習した報酬モデルを活用して最終的な予測画像を評価(WorldGym) • 綺麗な映像と行動の妥当性が一致するわけではなく、そのバランスをとることが重要 11
主要技術と課題 1. Data Limitations 2. Perception and Representation 3. Long-horizon Reasoning 4. Spatiotemporal Consistency 5. Generalization 6. Physics-informed Learning 7. Memory 12
主要技術と課題 1. Data Limitations • 課題:学習データの不足 • 手段 • 事前学習済みモデルの活用 • 人間のマニピュレーションなどのロボット以外のデータを活用 • 物理シミュレータを用いたデータ拡張 • • 課題:異なる身体を持つロボットの行動データ 手段 • 大量かつ多様な身体を持つロボットのデータの使用 • VLM等を活用したAtomic Behaviorsの抽出 • ロボットごとに異なる行動エンコーダを用いて共通の空間に写像 • • 課題:行動データの不足 手段 • 明示的な行動ラベルを使用せずゴール画像に基づく自己教師あり学習 • ゴール画像を用意することが困難 • 逆ダイナミクスモデルや潜在行動モデルを用いて行動抽出 • 少量の行動データを用いて事前学習済み動画生成モデルに行動を入力するアダプターを追加 13
主要技術と課題 2. Perception and Representation • 課題:指示の曖昧さ • 手段 • ジェスチャーなどの視覚情報や触覚・音声などを組み合わせ指示内容と実世界を紐付ける • • 課題:未知の指示への汎化 手段 • 言語指示を行動の最小単位に分割して記述 • • 課題:時空間の認識不足 手段 • 3D空間情報の追加や3Dフルアテンションを用いる • • 課題:タスクに不要なものが学習効率を下げる 手段 • 生のピクセルを全て予測するのではなく、物体の情報を取り出し、マスクなどで必要な情報のみ予測 14
主要技術と課題 3. Long-horizon Reasoning • 課題:誤差累積して長期予測ができない • 手段 • サブゴールの活用、階層構造の導入 4. Spatiotemporal Consistency • 課題:物体の連続性や物理的妥当性、因果関係の破綻 • 手段 • 観測フレームを予測フレームに結合し、背景や静物体のずれを防ぐなどのデータの工夫や3Dフル アテンションやメモリ構造を追加することで時空間の一貫性を向上 5. Generalization • 課題:未知のシナリオ・視点に依存しない予測が困難 • 手段 • ロボットデータ以外のデータも活用してデータをスケールさせる • カメラ視点に依存しない表現と依存する表現を分離して学習 • 物体中心の学習を行う 15
主要技術と課題 6. Physics-informed Learning • 課題:物理や因果関係を理解しておらずあり得ない動きを生成してしまう • 手段 • 潜在空間に制約や3D幾何構造や物理パラメータの直接推定、物理的な挙動を記述した言語の活用 7. Memory • 課題:計算リソースにより過去の情報を十分に保持できない • 手段 • スパースメモリや3D特徴マップを活用して計算負荷を抑え長期的な一貫性を確保 16
世界モデルに必要な要素 1. 包括的なマルチモーダルの知覚能力 2. 相互作用の能力 3. 想像能力 4. 長期推論能力 5. 時空間推論能力 6. 反実仮想能力 7. 抽象的な推論能力 8. 高精度な予測能力 9. 物理法則の理解 10. 汎化能力 11. 因果関係の理解 12. メモリ 13. 協調能力 17
今後の世界モデルの方向性 多様なモダリティの追加: • 視覚や言語だけでなく触覚や力などの統合 階層世界モデル: • 複数レイヤーにわたる長期的な推論能力の向上 因果関係の導入: • 統計的な相関をけた実体間の因果関係の学習による汎化・推論能力の向上 デプロイを意識した軽量化: • 計算負荷が高い動画生成ベースのモデルの量子化等の圧縮技術による推論速度向上 世界モデルの評価プロトコル: • 視覚忠実度、物理的妥当性、因果、長期的推論能力などの多角的に世界モデルを評価できるベンチマークの 確立 18
まとめ • 本論文では、ロボットマニピュレーションにおける世界モデルのアーキテクチャ、機能、課題などの観点か ら調査・分類を行い、世界モデルに必要なる能力の定めた。 • ロボットマニピュレーションに必要な構造的抽象的な世界のモデル化を行うために現在のモデルが欠けてい る要素をまとめた。 19
具体のモデル等 20
データセット ロボットのマニピュレーションデータだけでなく、人間のデータも活用 これらのデータに加えてYoutube上の動画や生成AIによるデータ拡張を組み合わせて世界モデルの学習 21