【DL輪読会】SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

1.1K Views

January 22, 26

#ロボット工学 #強化学習 #深層学習 #マルチモーダルAI #オンライン学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models 2026.1.22 Ryosuke Takanami, D2, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • SOP: A Scalable Online Post-Training System for Vision-Language-Action Models • • • Project Page: https://agibot.com/research/sop_en arXiv: https://arxiv.org/abs/2601.03044v1 著者：Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo (Agibot Research, Shanghai Innovation Institute) • 概要： – 分散ロボット群とクラウド学習の組み合わせにより，VLAモデルの汎用性を維持したまま，実環境での熟練度をスケーラブルに向上させるシステムを提案． – 大量のロボットや大規模なロボットデータセットを持っている企業らしい研究 – 特に断りのない限り，図表等の出典は本論文、本プロジェクトページからの引用 2

背景 - VLAモデルの現状 • GeneralistとしてのVLAの台頭: GR00T[Bjorck 25], Pi0.5[Black 25]など，インターネット規模のデータで学習されたモデルが登場．「初めて見る物体」や「曖昧な指示」に対応できる高い汎用性 (Generality) を獲得． • 実配備の壁 (Deployment Gap): 汎用性は高いが，特定タスクの成功率や動作速度といった熟練度 (Proficiency) が低い．実社会（家庭・倉庫）では「99%の信頼性」と「エキスパート並みの速度」が求められる． 3

問題意識 - 既存アプローチの限界 • Offline Post-trainingの限界 • 静的なデータセットのみで学習するため，分布シフト (Distribution Shift) に弱い． • 動作中に一度軌道を外れると，復帰できずにエラーが蓄積する． • Single-robot / Task-specific Learningの限界 • 1台ではデータ収集が遅く，環境特有のノイズに過学習 (Overfitting) しやすい． • タスクごとにモデルを作ると，管理コストが増大し汎用性が失われる． • 本研究の問い: 「汎用モデルを汎用性を維持したまま，いかに効率的に実世界に適応させるか？」 4

SOP (Scalable Online Post-training) の概要核心概念: 実行 (Execution) と学習 (Learning) の密結合． 3つの柱 1. Distributed Fleet: 複数ロボットによる並列データ収集． 2. Online Cloud Learner: オンラインデータとオフラインデータを混合学習． 3. Asynchronous Update: 数秒単位で最新ポリシーを全ロボットに配信． 5

システムアーキテクチャ (System Design) • 実運用を見据えた設計 • Actor側: エピソード終了ごとにS3へアップロード & メッセージキュー(MQ)通知． • Learner側: メタデータ（軽量）とペイロード（重量）を分離管理し，大規模バッファに対応． • スケーラビリティ: ロボットを追加するだけで自動的にパイプラインに参加可能 (Zeroconfiguration) ． 6

定式化 (Formulation) 問題設定 • 異種ロボット群によるMDPの集合を考える． • 目的関数 • 学習プロセス • 時間tまでのオンラインデータ（バッファ）と静的なオフラインデータ（バッファ）とを混合してバッチを生成． 7

技術的詳細 (1) - 適応的サンプリング (Intra-task) 課題: 最新のオンラインデータ（高価値だが少量・不安定）とオフラインデータ（安定だが分布外）の配合比率．提案手法: タスクごとのLossに基づき、動的に比率を調整．意図: 直近W時間のloss(現場での失敗度合い) データを重点的に学習させ，分布シフトを解消する．が高いほど，オンライン 8

技術的詳細 (2) - タスク間バランシング (Inter-task) 課題: マルチタスク学習(Mタスクの学習)におけるタスク間の不均衡（簡単なタスクへの過学習）．戦略: Uniform Task Sampling • タスク間のサンプリング確率は以下の値で固定 • これにより，特定のタスクが学習プロセスを支配することを防ぎ，「全タスクをこなせる単一モデル」の育成を保証する． 9

10.

アルゴリズムの実装 (Instantiations) SOPは枠組みであり，内部アルゴリズムは交換可能． A. SOP + HG-DAgger (Interactive Imitation): • 人間が失敗直前に介入．修正軌道を即座に学習． • メリット: 効率的な修正情報の取得． B. SOP + RECAP (RL): • 成功/失敗の報酬に基づく学習． • 工夫: 価値関数は事前学習済みモデルを固定利用（計算コスト削減と安定化のため）し，Policyのみを更新． 10

11.

タスク定義 1. Grocery Restocking: 意味的理解が必要．500種以上の物体，4つのシナリオ（棚，吊り下げ，冷凍庫，クーラー）． 2. Laundry Folding: 柔軟物の変形操作 3. Box Assembly: 長期的な手順の実行共通事項: ロボットフリート10台（Agibot G1）を使用。 11

12.

評価指標と比較手法 • 評価指標 • Success Rate: タスク完遂率。 • Throughput (Tasks/Hr): 時間あたりの成功回数（リセット時間を除くポリシー自体の速度）． • 事前学習モデル (finetuned pi0.5): • 160時間のデータで学習済み．LLMバックボーンは学習中凍結 (Freeze)． • 比較手法 • Pre-trained: 事前学習のみ (Zero-shot)． • Offline Baselines: • SOPと同じアルゴリズム (RECAP/HG-DAgger) を使うが，データ更新がバッチ式/静的であるもの． • システム的なループを持たない従来手法． • SOP (Ours): オンラインストリーミング学習 + 適応的サンプリング． 12

13.

結果1 - 主要タスク性能 (Quantitative Results) • 圧倒的な性能向上 • Grocery (HG-DAgger): 61% (Pre) → 94% (SOP) • 他タスクでも90%超えを達成． • Throughput • 成功率以上にスループットが向上 (約2〜4倍)．失敗モード（掴み損ね等）が即座に修正されるため，試行錯誤の時間が減る． 13

14.

結果2 - スケーラビリティ (Scaling Laws) • Fleet Size vs Time-to-Target • 1台: 173分 → 4台: 71分 (約2.4倍高速化)． • 示唆: ロボットの台数を増やすことが，直接的に学習時間の短縮（Compute Power）に変換できる．実世界データ収集におけるScaling Lawを確認． 14

15.

結果3 - 意味的汎化，マルチタスク干渉 • 意味的汎化 • Offline Data vs Online Data • Offline Dataだけだと80%のSR，Online Dataを使うと94%のSR． • Transfer: 30%の完全未知物体に対しても性能が向上しており，類似物体からのスキル転移が起きている． • Context: 物体だけでなく，多様な配置・環境（冷凍庫のドア等）への適応を確認． • 補足: 実験的な詳細が少ない • マルチタスク干渉 • 検証: 複数タスクを単一モデルに詰め込むと性能が落ちるか？ • 結果: • Freezer Task: Single 75% vs Multi 75%． • Cooler Task: Single 86% vs Multi 80%． • 結論: 性能劣化は極めて限定的．適応的サンプリングと共有ポリシーにより，Generalistとしての能力を維持したままSpecialist並みの性能を実現． 15

16.

結果4 - データ効率と事前学習 • Scale Matters: 事前学習データが多いモデルほど，SOP後の到達点も高い． • Freshness Matters: Offlineデータを80時間追加するより，SOPで3時間学習する方が効果が高い． • 役割分担: Pre-trainingで「基礎」を作り， SOPで「実戦適応」を行うのが最適解． 16

17.

Limitations and Conclusion • Limitations • Human-in-the-loop: 現状，介入やリセットにある程度の人手が必要． • Future Work: 報酬モデルやVLMによる自動判定． • Hardware dependency: 大規模なフリートが必要（実験では10台）． • Safety: オンライン学習中の動作保証（安全な探索）は今後の課題． • Conclusion • System Contribution: アルゴリズム単体ではなく，「データループのシステム化」が実世界適応の鍵． • Efficiency: わずか3時間の実環境稼働で，汎用モデルをエキスパート化することに成功． • Impact: 分散ロボット群を「計算資源」として活用する新たなパラダイムを提示． 17

18.

Reference • Pan, M., et al. SOP: A Scalable Online Post-Training System for Vision-Language-Action Models. arxiv. 2026. • Bjorck, J., et al. GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arxiv. 2025. • Black, K., et al. Pi0.5: a Vision-Language-Action Model with Open-World Generalization. CoRL. 2025. • Kelly, M., et al. HG-DAgger: Interactive Imitation Learning with Human Experts. ICRA. 2019. • Amin, A., et al. Pi0.6: a VLA That Learns From Experience. arxiv. 2025. 18

19.

Appendix • Robot setup • 30Hz execution 19