>100 Views
January 22, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models 2026.1.22 Ryosuke Takanami, D2, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1
書誌情報 • SOP: A Scalable Online Post-Training System for Vision-Language-Action Models • • • Project Page: https://agibot.com/research/sop_en arXiv: https://arxiv.org/abs/2601.03044v1 著者:Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo (Agibot Research, Shanghai Innovation Institute) • 概要: – 分散ロボット群とクラウド学習の組み合わせにより,VLAモデルの汎用性を維持したまま,実環境での熟練 度をスケーラブルに向上させるシステムを提案. – 大量のロボットや大規模なロボットデータセットを持っている企業らしい研究 – 特に断りのない限り,図表等の出典は本論文、本プロジェクトページからの引用 2
背景 - VLAモデルの現状 • GeneralistとしてのVLAの台頭: GR00T[Bjorck 25], Pi0.5[Black 25]など,インターネット規 模のデータで学習されたモデルが登場.「初めて見る物体」や「曖昧な指示」に対応できる高い 汎用性 (Generality) を獲得. • 実配備の壁 (Deployment Gap): 汎用性は高いが,特定タスクの成功率や動作速度といった熟 練度 (Proficiency) が低い.実社会(家庭・倉庫)では「99%の信頼性」と「エキスパート並み の速度」が求められる. 3
問題意識 - 既存アプローチの限界 • Offline Post-trainingの限界 • 静的なデータセットのみで学習するため,分布シフト (Distribution Shift) に弱い. • 動作中に一度軌道を外れると,復帰できずにエラーが蓄積する. • Single-robot / Task-specific Learningの限界 • 1台ではデータ収集が遅く,環境特有のノイズに過学習 (Overfitting) しやす い. • タスクごとにモデルを作ると,管理コストが増大し汎用性が失われる. • 本研究の問い: 「汎用モデルを汎用性を維持したまま,いかに効率的に実世界に 適応させるか?」 4
SOP (Scalable Online Post-training) の概要 核心概念: 実行 (Execution) と学習 (Learning) の密結合. 3つの柱 1. Distributed Fleet: 複数ロボットによる並列データ収集. 2. Online Cloud Learner: オンラインデータとオフラインデータを混合学習. 3. Asynchronous Update: 数秒単位で最新ポリシーを全ロボットに配信. 5
システムアーキテクチャ (System Design) • 実運用を見据えた設計 • Actor側: エピソード終了ごとにS3へアップロード & メッセージキュー(MQ)通知. • Learner側: メタデータ(軽量)とペイロード(重量)を分離管理し,大規模バッファに対 応. • スケーラビリティ: ロボットを追加するだけで自動的にパイプラインに参加可能 (Zeroconfiguration) . 6
定式化 (Formulation) 問題設定 • 異種ロボット群によるMDPの集合を考える. • 目的関数 • 学習プロセス • 時間tまでのオンラインデータ(バッファ) と静的なオフラインデータ(バッファ)と を混合してバッチを生成. 7
技術的詳細 (1) - 適応的サンプリング (Intra-task) 課題: 最新のオンラインデータ(高価値だが少量・不安定)とオフラインデータ(安定だが分 布外)の配合比率. 提案手法: タスクごとのLossに基づき、動的に比率 を調整. 意図: 直近W時間のloss(現場での失敗度合い) データを重点的に学習させ,分布シフトを解消する. が高いほど,オンライン 8
技術的詳細 (2) - タスク間バランシング (Inter-task) 課題: マルチタスク学習(Mタスクの学習)におけるタスク間の不均衡(簡単なタスクへの過学習). 戦略: Uniform Task Sampling • タスク間のサンプリング確率は以下の値で固定 • これにより,特定のタスクが学習プロセスを支配することを防ぎ,「全タスクをこなせる単一 モデル」の育成を保証する. 9
アルゴリズムの実装 (Instantiations) SOPは枠組みであり,内部アルゴリズムは交換可能. A. SOP + HG-DAgger (Interactive Imitation): • 人間が失敗直前に介入.修正軌道を即座に学習. • メリット: 効率的な修正情報の取得. B. SOP + RECAP (RL): • 成功/失敗の報酬に基づく学習. • 工夫: 価値関数は事前学習済みモデルを固定利用 (計算コスト削減と安定化のため)し,Policyの みを更新. 10
タスク定義 1. Grocery Restocking: 意味的理解が必要.500種以上の物体,4つのシナリオ(棚 ,吊り下げ,冷凍庫,クーラー). 2. Laundry Folding: 柔軟物の変形操作 3. Box Assembly: 長期的な手順の実行 共通事項: ロボットフリート10台(Agibot G1)を使用 。 11
評価指標と比較手法 • 評価指標 • Success Rate: タスク完遂率。 • Throughput (Tasks/Hr): 時間あたりの成功回数(リセット時間を除くポリシー自体の 速度). • 事前学習モデル (finetuned pi0.5): • 160時間のデータで学習済み.LLMバックボーンは学習中凍結 (Freeze). • 比較手法 • Pre-trained: 事前学習のみ (Zero-shot). • Offline Baselines: • SOPと同じアルゴリズム (RECAP/HG-DAgger) を使うが,データ更新がバッチ式/静 的であるもの. • システム的なループを持たない従来手法. • SOP (Ours): オンラインストリーミング学習 + 適応的サンプリング. 12
結果1 - 主要タスク性能 (Quantitative Results) • 圧倒的な性能向上 • Grocery (HG-DAgger): 61% (Pre) → 94% (SOP) • 他タスクでも90%超えを達成. • Throughput • 成功率以上にスループットが向上 (約2〜4倍).失敗モード(掴み損ね等)が即座に修正され るため,試行錯誤の時間が減る. 13
結果2 - スケーラビリティ (Scaling Laws) • Fleet Size vs Time-to-Target • 1台: 173分 → 4台: 71分 (約2.4倍高速化). • 示唆: ロボットの台数を増やすことが,直接的に学習時間の短縮(Compute Power)に変換できる.実世界データ収集におけるScaling Lawを確認. 14
結果3 - 意味的汎化,マルチタスク干渉 • 意味的汎化 • Offline Data vs Online Data • Offline Dataだけだと80%のSR,Online Dataを使うと94%のSR. • Transfer: 30%の完全未知物体に対しても性能が向上しており,類似物体からのスキル転移が起きてい る. • Context: 物体だけでなく,多様な配置・環境(冷凍庫のドア等)への適応を確認. • 補足: 実験的な詳細が少ない • マルチタスク干渉 • 検証: 複数タスクを単一モデルに詰め込むと性能が落ちるか? • 結果: • Freezer Task: Single 75% vs Multi 75%. • Cooler Task: Single 86% vs Multi 80%. • 結論: 性能劣化は極めて限定的.適応的サンプリングと共有ポリシーにより,Generalistとしての能力 を維持したままSpecialist並みの性能を実現. 15
結果4 - データ効率と事前学習 • Scale Matters: 事前学習データが多いモデル ほど,SOP後の到達点も高い. • Freshness Matters: Offlineデータを80時間 追加するより,SOPで3時間学習する方が効果 が高い. • 役割分担: Pre-trainingで「基礎」を作り, SOPで「実戦適応」を行うのが最適解. 16
Limitations and Conclusion • Limitations • Human-in-the-loop: 現状,介入やリセットにある程度の人手が必要. • Future Work: 報酬モデルやVLMによる自動判定. • Hardware dependency: 大規模なフリートが必要(実験では10台). • Safety: オンライン学習中の動作保証(安全な探索)は今後の課題. • Conclusion • System Contribution: アルゴリズム単体ではなく,「データループのシステム化」が 実世界適応の鍵. • Efficiency: わずか3時間の実環境稼働で,汎用モデルをエキスパート化することに成功 . • Impact: 分散ロボット群を「計算資源」として活用する新たなパラダイムを提示. 17
Reference • Pan, M., et al. SOP: A Scalable Online Post-Training System for Vision-Language-Action Models. arxiv. 2026. • Bjorck, J., et al. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arxiv. 2025. • Black, K., et al. Pi0.5: a Vision-Language-Action Model with Open-World Generalization. CoRL. 2025. • Kelly, M., et al. HG-DAgger: Interactive Imitation Learning with Human Experts. ICRA. 2019. • Amin, A., et al. Pi0.6: a VLA That Learns From Experience. arxiv. 2025. 18
Appendix • Robot setup • 30Hz execution 19