407 Views
April 23, 26
スライド概要
DL輪読会資料
書誌情報 題名 著者 会議 概要 π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities Physical Intelligence Preprint, 2025 / https://pi.website/pi07 サブゴール画像・エピソードメタデータなどリッチなプロンプトで条件付け 低品質データも学習に利用し、fine-tuningなしでspecialist policyを上回る性 能・構成的汎化を実現 スライド中の図表は該当論文から引用 ※ 1 / 22
概要 多様なプロンプトで条件付けしたsteerableなVLA 0:00 / 4:02 1 / 22
背景:VLA (Vision-Language-Action Model) 画像+言語を入力に行動を出力する、VLMベースのロボット方策 画像観測 + 言語指示 → 行動 を出力するロボット方策 大規模 VLM (PaliGemma, Gemma など) の事前知識を、ロボット行動空間へ転用 行動の text token 空間への埋め込み,MoT構成で action expert 側を flow matching loss で学習等 代表例:RT-2 (Google), OpenVLA, Octo, π0 / π0.5 多様な多ロボットデータで学習することで zero/few-shot な新タスク対応が可能に 1 / 22
背景:π シリーズ π モデ ル π0 発表日 VLM backbone Action expert 主要メッセージ 2024-10-31 PaliGemma 3B 300M VLM + flow matching action expert VLA 2025-04-22 PaliGemma 3B 300M Co-training 2025-11-17 Gemma3 4B 860M 2025-11-18 Gemma3 4B 860M π0.5 π0.6 ∗ π0.6 π0.7 した最初の で高周波dexterous制御を実現 で open-world 汎化。未知の家でキッチン/寝室掃除。 階層的推論の導入 VLM とアクションエキスパートを大型化。メタデータ条件付け。 出力精度と speed の向上 RL (Recap) で経験から学習する VLA。value function による advantage conditioning 2026-04-16 シリーズの系譜 Gemma3 4B 860M メタデータ サブゴール画像 + メモリ) によ Diverse prompting ( + emergent capability る構成的汎化と 1 / 22
課題と提案 従来 VLA の課題 → 本研究のアプローチ 従来 VLA の課題 学習済みの指示ですら fine-tuning なしで流暢に実行できない 戦略や品質が異なるデモを naive に混ぜると 平均化された sub-optimal 方策に収束 新しいタスクやスキルの 構成的再利用 が不十分 本研究のアプローチ:言語 + subgoal画像 + metadata による多様な prompting で 混合品質データを活かしつつ、推論時に steerable な汎用 VLA を構築 1 / 22
π0.7 アーキテクチャ 5B VLM + 860M action expert の VLA 粗い指示 + memory → subtask に分解 World Model (BAGEL 14B): 観測 + subtask → subgoal image 生成 Prompt: 言語 + subgoal画像 + metadata を同時条件付け HL/WM は切替可、人から直接 steer 可能 High-Level Policy (VLM): 1 / 22
Diversifying the Prompt 言語・サブゴール画像・メタデータで条件付け 言語命令: task (粗い) + subtask (細かい 動作語彙) Subgoal画像: 次に達成すべき状態を画 像で与える Metadata: Quality(1-5), Speed, Mistake, Control Mode … 例: Full Prompt 1 / 22
World Model: BAGEL 14B 外付け Diffusion World Model 入力: 3枚の観測画像 + 言語指示 + metadata 出力: 1枚の subgoal 画像 訓練: 同エピソードの 最終フレームを subgoal GT として使用 推論: 現在状態から次の達成目標状態を画像で提示 → VLA の条件入力になる は subgoal 生成のみ に利用。動作は生成しない → 軽量な action expert で高頻度制御を維持 補足: Training Time RTC で action chunk 間を滑らかに接続し、境界のカクつきを抑制 WM 1 / 22
訓練・推論の工夫 CFG + 25% subgoal + 推論時: Classifier-Free Guidance (CFG) 外付け BAGEL WM metadata (Quality=5 / Speed=fast / Mistake=false …) を ガイダンス条件として利用 「速く・高品質・ミスなし」方向へ誘導 → 低品質データも学習に使いつつ、推論では 高品質寄りの挙動のみ引き出す 訓練時: Subgoal conditioning を25%だけ適用 全サンプルに subgoal を付けると VLA が画像差分から inverse dynamics をショートカット学習 → 言語/metadata 理解が育たない → 25%のみ subgoal 条件付け 勾配を VLM に流さず知識保護 進捗) + video encoder で短期記憶 (数秒の密な観測) を併用 Knowledge Insulation (KI) [Driess+ 2025]: action expert MEM video encoder: [Torne+ 2026] text (subtask で長期記憶 1 / 22
実験:Metadata Ablation (scaling & diversity) メタデータ条件付けが「大規模 × 混合品質」を活かす鍵 スケーリング: メタデータあり → データ量↑で性能が継続的に向上 (平均品質が低下しても) メタデータなしでは 逆に劣化 タスク多様性: 多様性上位 20% を除去 → タスク汎化が大きく低下 結論: メタデータ条件付けが「大規模 × 混合品質」を活かす鍵 1 / 22
実験:vs Specialized Models 特化モデル(SFT)と同等以上の巧緻性 比較対象: π0.6 -MEM SFT Specialist、タスク: Swap 3 Mugs / Find Object / Scoop Coffee / Window Cleaning 汎用モデルでありながら fine-tuning なしで 特化モデルと同等以上、Find Object では +10pt 改善 1 / 22
実験:vs Specialized Models (詳細) RL/SFT Specialist との比較 上段: vs π0.6 -RL Specialist (Laundry / Make Espresso / Box Building): throughputで上回る例も 下段: vs π0.6 SFT Specialist (PB Sandwich / Slice Zucchini 等 6タスク): おおむね同水準 1 / 22
実験:Language Following 未知の言語命令への追従 未知の Kitchen / Bedroom で多様な命令に追従: π0.5 / π0.6 を大きく上回る "open the wardrobe", "put the empty soda can into the trash can" など抽象的で長い指示にも従う 1 / 22
実験:Language Following (複雑指示) 複雑な言い回しにも追従 Office Desk Rearrangement Standard: "pick up the grapes" : ル成功 ほぼ全モデ Complex: "pick up the fruit on the largest は 20%程度 → π0.7 で 改 善、GC (goal-conditioned) でさらに向上 plate" : π0.5 /π0.6 1 / 22
実験:Cross-Embodiment Transfer 未学習のエンボディメントへゼロショット転移 左: 学習済エンボディメント (Mobile, Bimanual, UR5 …) でも π0.7 は上位 右: Static Bimanual に 未学習タスクを転移 (Towel / Shirt Folding): π0.7 は大幅改善、Shirt では Human水準に迫る GC: goal画像で条件付けすることでさらに向上 1 / 22
実験:Compositional Task Generalization 既知スキルの新しい組み合わせで新タスク Reverse Bussing: 向に配膳 通常「片付け」→ 逆方 冷蔵庫か ら取り出しレンジへ (学習データに無い方 向) 既知スキルの新しい順序・方向で合成 π0.5 /π0.6 はほぼ失敗 → π0.7 (GC) で 70% 超 Reverse Fridge to Microwave: 1 / 22
実験:Learning from Mixed-Quality Data 低品質・非標準データも性能を押し上げる 等を抜く → no metadata: Quality/Speed 大幅に劣化 評価対象環境のデータを 除外 → 性能低下 結論: 混合品質データを使うなら メタデ ータ条件付けが必須 no eval data: 低品質・失敗データも「これは品質2だ」とラベル付けすれば、モデルは"何を避けるか"として学習できる 1 / 22
実験:Language Coaching 推論時に人が言語で「コーチング」 推論時に人が 細かい言語指示で steer ("grasp the handle with the left hand" …) Load/Unload Air Fryer, Toast Bagel で成 功率が 大幅改善 ゼロショットで未学習タスクを実行可能: サブタスクへの分解を人が与える 1 / 22
論文に載っていないこと 最重要: データセットの絶対量が不記載 §VI-A はソース列挙のみ、時間数・エピソード数の絶対量なし → スケール主張の検証不能 追加で欲しい ablation Subgoal 画像なし訓練: 訓練パイプラインの寄与分離 (metadata には Fig. 7 あるのに非対称) π0.6 → π0.7 の要素別寄与: MEM / subgoal画像 / 拡張 metadata の独立・相互寄与 ∗ 次善データのカテゴリ別: 失敗 / 自律 / RL ロールアウト (π0.6 ) / 人間介入を個別除外 CFG の要素別効果: speed / quality / mistake どれが throughput 改善に効くか 評価タスクの novelty 定量化: §X で seen/unseen 判定困難と著者自身が言及 1 / 22
所感 結果が強い (特に 未知ロボットへの汎化) Mixed-quality を metadata + CFG で活かす設計,直感的にはそれはそう fine-tuning なしで specialist 並,本当?手元のロボットでプロンプトだけで本当に動くのか PI では実ロボットデータのスケーリングでまだまだ性能が伸びている 最近 human video からの学習や video diffusion ベースの world model などが流行っているが X で著者 Lucy が「当初 world model 関連のプロジェクトを進めていたが、baseline がデータス ケールで強くなったのでこちらを論文化した」と発言 評価が追いついていない印象 π0 の 1 万時間以降、データサイズは非開示 1 / 22
まとめ Key takeaways 言語 + subgoal画像 + metadata でリッチに条件付けした steerable な汎用 VLA High-Level Policy / World Model を切替可能な階層的推論で、人が言語・goalで直接 steer Mixed-quality データ も metadata 付けで活用: 低品質・失敗・人の動画まで性能向上に寄与 Out-of-the-box で specialist と同等、未知命令・未知embodiment・構成的タスクに汎化 示唆: what (task) と how (quality/speed/mistake) の両方を与える prompting が鍵 π0.7 : 1 / 22