【DL輪読会】π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

407 Views

April 23, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 69.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 52.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 49.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48K

各ページのテキスト

書誌情報題名著者会議概要 π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities Physical Intelligence Preprint, 2025 / https://pi.website/pi07 サブゴール画像・エピソードメタデータなどリッチなプロンプトで条件付け低品質データも学習に利用し、fine-tuningなしでspecialist policyを上回る性能・構成的汎化を実現スライド中の図表は該当論文から引用 ※ 1 / 22

https://pi.website/pi07

概要多様なプロンプトで条件付けしたsteerableなVLA 0:00 / 4:02 1 / 22

背景：VLA (Vision-Language-Action Model) 画像＋言語を入力に行動を出力する、VLMベースのロボット方策画像観測 + 言語指示 → 行動を出力するロボット方策大規模 VLM (PaliGemma, Gemma など) の事前知識を、ロボット行動空間へ転用行動の text token 空間への埋め込み，MoT構成で action expert 側を flow matching loss で学習等代表例：RT-2 (Google), OpenVLA, Octo, π0 / π0.5 多様な多ロボットデータで学習することで zero/few-shot な新タスク対応が可能に 1 / 22

背景：π シリーズ π モデル π0 発表日 VLM backbone Action expert 主要メッセージ 2024-10-31 PaliGemma 3B 300M VLM + flow matching action expert VLA 2025-04-22 PaliGemma 3B 300M Co-training 2025-11-17 Gemma3 4B 860M 2025-11-18 Gemma3 4B 860M π0.5 π0.6 ∗ π0.6 π0.7 した最初ので高周波dexterous制御を実現で open-world 汎化。未知の家でキッチン/寝室掃除。階層的推論の導入 VLM とアクションエキスパートを大型化。メタデータ条件付け。出力精度と speed の向上 RL (Recap) で経験から学習する VLA。value function による advantage conditioning 2026-04-16 シリーズの系譜 Gemma3 4B 860M メタデータサブゴール画像 + メモリ) によ Diverse prompting ( + emergent capability る構成的汎化と 1 / 22

課題と提案従来 VLA の課題 → 本研究のアプローチ従来 VLA の課題学習済みの指示ですら fine-tuning なしで流暢に実行できない戦略や品質が異なるデモを naive に混ぜると平均化された sub-optimal 方策に収束新しいタスクやスキルの構成的再利用が不十分本研究のアプローチ：言語 + subgoal画像 + metadata による多様な prompting で混合品質データを活かしつつ、推論時に steerable な汎用 VLA を構築 1 / 22

π0.7 アーキテクチャ 5B VLM + 860M action expert の VLA 粗い指示 + memory → subtask に分解 World Model (BAGEL 14B): 観測 + subtask → subgoal image 生成 Prompt: 言語 + subgoal画像 + metadata を同時条件付け HL/WM は切替可、人から直接 steer 可能 High-Level Policy (VLM): 1 / 22

Diversifying the Prompt 言語・サブゴール画像・メタデータで条件付け言語命令: task (粗い) + subtask (細かい動作語彙) Subgoal画像: 次に達成すべき状態を画像で与える Metadata: Quality(1-5), Speed, Mistake, Control Mode … 例: Full Prompt 1 / 22

World Model: BAGEL 14B 外付け Diffusion World Model 入力: 3枚の観測画像 + 言語指示 + metadata 出力: 1枚の subgoal 画像訓練: 同エピソードの最終フレームを subgoal GT として使用推論: 現在状態から次の達成目標状態を画像で提示 → VLA の条件入力になるは subgoal 生成のみに利用。動作は生成しない → 軽量な action expert で高頻度制御を維持補足: Training Time RTC で action chunk 間を滑らかに接続し、境界のカクつきを抑制 WM 1 / 22

10.

訓練・推論の工夫 CFG + 25% subgoal + 推論時: Classifier-Free Guidance (CFG) 外付け BAGEL WM metadata (Quality=5 / Speed=fast / Mistake=false …) をガイダンス条件として利用「速く・高品質・ミスなし」方向へ誘導 → 低品質データも学習に使いつつ、推論では高品質寄りの挙動のみ引き出す訓練時: Subgoal conditioning を25%だけ適用全サンプルに subgoal を付けると VLA が画像差分から inverse dynamics をショートカット学習 → 言語/metadata 理解が育たない → 25%のみ subgoal 条件付け勾配を VLM に流さず知識保護進捗) + video encoder で短期記憶 (数秒の密な観測) を併用 Knowledge Insulation (KI) [Driess+ 2025]: action expert MEM video encoder: [Torne+ 2026] text (subtask で長期記憶 1 / 22

11.

実験：Metadata Ablation (scaling & diversity) メタデータ条件付けが「大規模 × 混合品質」を活かす鍵スケーリング: メタデータあり → データ量↑で性能が継続的に向上 (平均品質が低下しても) メタデータなしでは逆に劣化タスク多様性: 多様性上位 20% を除去 → タスク汎化が大きく低下結論: メタデータ条件付けが「大規模 × 混合品質」を活かす鍵 1 / 22

12.

実験：vs Specialized Models 特化モデル(SFT)と同等以上の巧緻性比較対象: π0.6 -MEM SFT Specialist、タスク: Swap 3 Mugs / Find Object / Scoop Coffee / Window Cleaning 汎用モデルでありながら fine-tuning なしで特化モデルと同等以上、Find Object では +10pt 改善 1 / 22

13.

実験：vs Specialized Models (詳細) RL/SFT Specialist との比較上段: vs π0.6 -RL Specialist (Laundry / Make Espresso / Box Building): throughputで上回る例も下段: vs π0.6 SFT Specialist (PB Sandwich / Slice Zucchini 等 6タスク): おおむね同水準 1 / 22

14.

実験：Language Following 未知の言語命令への追従未知の Kitchen / Bedroom で多様な命令に追従: π0.5 / π0.6 を大きく上回る "open the wardrobe", "put the empty soda can into the trash can" など抽象的で長い指示にも従う 1 / 22

15.

実験：Language Following (複雑指示) 複雑な言い回しにも追従 Office Desk Rearrangement Standard: "pick up the grapes" : ル成功ほぼ全モデ Complex: "pick up the fruit on the largest は 20%程度 → π0.7 で改善、GC (goal-conditioned) でさらに向上 plate" : π0.5 /π0.6 1 / 22

16.

実験：Cross-Embodiment Transfer 未学習のエンボディメントへゼロショット転移左: 学習済エンボディメント (Mobile, Bimanual, UR5 …) でも π0.7 は上位右: Static Bimanual に未学習タスクを転移 (Towel / Shirt Folding): π0.7 は大幅改善、Shirt では Human水準に迫る GC: goal画像で条件付けすることでさらに向上 1 / 22

17.

実験：Compositional Task Generalization 既知スキルの新しい組み合わせで新タスク Reverse Bussing: 向に配膳通常「片付け」→ 逆方冷蔵庫から取り出しレンジへ (学習データに無い方向) 既知スキルの新しい順序・方向で合成 π0.5 /π0.6 はほぼ失敗 → π0.7 (GC) で 70% 超 Reverse Fridge to Microwave: 1 / 22

18.

実験：Learning from Mixed-Quality Data 低品質・非標準データも性能を押し上げる等を抜く → no metadata: Quality/Speed 大幅に劣化評価対象環境のデータを除外 → 性能低下結論: 混合品質データを使うならメタデータ条件付けが必須 no eval data: 低品質・失敗データも「これは品質2だ」とラベル付けすれば、モデルは"何を避けるか"として学習できる 1 / 22

19.

実験：Language Coaching 推論時に人が言語で「コーチング」推論時に人が細かい言語指示で steer ("grasp the handle with the left hand" …) Load/Unload Air Fryer, Toast Bagel で成功率が大幅改善ゼロショットで未学習タスクを実行可能：サブタスクへの分解を人が与える 1 / 22

20.

論文に載っていないこと最重要: データセットの絶対量が不記載 §VI-A はソース列挙のみ、時間数・エピソード数の絶対量なし → スケール主張の検証不能追加で欲しい ablation Subgoal 画像なし訓練: 訓練パイプラインの寄与分離 (metadata には Fig. 7 あるのに非対称) π0.6 → π0.7 の要素別寄与: MEM / subgoal画像 / 拡張 metadata の独立・相互寄与 ∗ 次善データのカテゴリ別: 失敗 / 自律 / RL ロールアウト (π0.6 ) / 人間介入を個別除外 CFG の要素別効果: speed / quality / mistake どれが throughput 改善に効くか評価タスクの novelty 定量化: §X で seen/unseen 判定困難と著者自身が言及 1 / 22

21.

所感結果が強い (特に未知ロボットへの汎化) Mixed-quality を metadata + CFG で活かす設計，直感的にはそれはそう fine-tuning なしで specialist 並，本当？手元のロボットでプロンプトだけで本当に動くのか PI では実ロボットデータのスケーリングでまだまだ性能が伸びている最近 human video からの学習や video diffusion ベースの world model などが流行っているが X で著者 Lucy が「当初 world model 関連のプロジェクトを進めていたが、baseline がデータスケールで強くなったのでこちらを論文化した」と発言評価が追いついていない印象 π0 の 1 万時間以降、データサイズは非開示 1 / 22

22.

まとめ Key takeaways 言語 + subgoal画像 + metadata でリッチに条件付けした steerable な汎用 VLA High-Level Policy / World Model を切替可能な階層的推論で、人が言語・goalで直接 steer Mixed-quality データも metadata 付けで活用: 低品質・失敗・人の動画まで性能向上に寄与 Out-of-the-box で specialist と同等、未知命令・未知embodiment・構成的タスクに汎化示唆: what (task) と how (quality/speed/mistake) の両方を与える prompting が鍵 π0.7 : 1 / 22