【DL輪読会】SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

>100 Views

June 18, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.2K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 54.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 51.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] SARM2: Multi-Task Stage-Aware Reward Modeling for Self-Improving Robotic Manipulation Kohei Sendai, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル : S A R M 2 : M u lti-T a s k S ta g e A w a re R e w a rd M o d e lin g fo r S e lf Im p ro v in g R o b o a rX iv p re p rin t, 2 0 2 6 著者 : Q ia n z h o n g C h e n , H a u Z h e n g , J u s tin Y u , S u n in g H u a n g , J ia n k a i S u n , K e n G o ld b e rg , C h u a n W e n , P ie te r A b b e e l, Y id e S h e n tu , P h ilip p W u , M リンク : a rX iv : h ttp s ://a rx iv .o rg /a b s /2 6 0 6 .1 0 3 0 5 P ro je c t : h ttp s ://q ia n z h o n g -c h e n .g ith u b .io /s a rm 2 .g ith u b .io / 昨年9 月に出たS ta g e A w a re R e w a rd M o d e lin g (S A R M )の後続研究 2

概要 • マルチタスク対応のS ta g e -A w a re 報酬モデル S A R M2 の提案 • A c tio n P rim itiv e (2 2 クラス)を分類するS ta g e E s tim a to rと, M u lti-g a te M o E 価値ヘッドでタスク横断的に密な報酬を推定 • S A R M (単一タスク・タスク固有アノテーション必須)を多タスク・アノテーション不要に拡張 • 報酬モデルを活用した自己改善フレームワーク S P IR A L の提案 • 密な報酬で残差R L (D IC E -R L /T D 3 )を駆動し, 自律ro llo u tから方策を継続改善するデータフライホイールを構築 • 実験結果 • 1 0 タスクのベンチマークで価値推定M S E を最強ベースライン比約8 0 % 削減 • 成功率が大幅向上: Folding Shorts 58%→100%, Cleaning Whiteboard 50%→90% 3

背景・課題 • V L A 方策のlo n g -h o riz o n 操作は依然として模倣学習(B C )に大きく依存 • 高品質なデモは高コストで, 方策がデモ分布の近傍に留まりやすい • 報酬モデルはデモの再重み付けやo n -ro b o t R L の密な教師信号でこの依存を低減でき • ただし報酬モデルは密(d e n s e )・正確(a c c u ra te )・汎用(g e n e ra l) の3 条件を同時に満たす必要がある • 課題 : 既存の報酬モデルは3 条件を同時に満たせない • タスク固有のs ta g e -a w a re 型 : 正確だがタスクごとのアノテーションが必要 • V L M ベースの汎用型 : 広く使えるが粒度が粗く, 細かい進捗推定に不十分 • V L A の強化学習はD a g g e rスタイルのH u m a in th e lo o p が必要 • S e lf ro llo u tによる改善が難しい 4

関連研究タスク固有型(S A R M等) : 密だが単一タスク・要アノテーション 5

https://arxiv.org/abs/2210.00030

関連研究 V L M ベースの汎用型 : 多タスクに汎化するが粒度が粗くノイジー TopReward Robometer True/FalseのQ/Aを行い, Trueのlogprob を計測 RBM -1M という大規模データセットによるVLM ベースの報酬モデル. 6

提案手法 : S A R M 2 全体像 1 . V is u a l / T e x t / S ta te をE n c o d e rに通して e m b e d d in g を取得 2 .1 S ta g e M o d e l : 2 2 個のa c tio n p riim itiv e 2 .2 V a lu e M o d e l : 後段のM M o E に接続 3 . M M o E R e g re s s io n H e a d . S ta g e とV a lu e M o d e lの出力を入力として受け取り, 最終的に出力を行う. M o E を採用. 7

提案手法 : S A R M 2 A c tion -P rim itiv e S ta g e E s tim a to r • S u b ta s k ではなく, a c tio n p re m itiv e をta s k に依存しない中間表現として採用例) pick / place / pull/ push … • 4 -la y e r C a s u a l T ra n s fo rm e r + lin e a r H e a d • C ro s s -e n tro p y lo s s で学習データセット • 2 0 0 h のマニピュレーションデータ • 1 0 0 ta s k • K = 2 1 個のa c tio n p rim itiv e に分割. この2 1 個で9 0 % 以上のデータをカバー • 各p rim itiv e 3 h ごとに調整. 6 6 h • さらに各a c tio n p rim itiv はM = 7 + 1 の G ro u p に分割(M M o E で使用) 8

Traget : 9

10.

提案手法 : S P IR A L 10

11.

提案手法 : S P IR A L 1. O n e T im e A d a p ta tio n b y H u m a n a n n o ta tio n . 1. A b o u t 1 0 0 e p . 2 ~ 3 h a n n o a tio n c o s t. 2. O n ly O n e tim e . 2. M ix e d O b je c tiv e 1. T D ta rg e t b y re w a rd m o d e l 1. G o o d fo r lo n g H o riz o n 2. M C O b je c tiv e 1. P re fe r, fa s t s u c c e s s fu l e p is o d e s . 3. Ite ra te s e v e ra l tim e s . 11

12.

実験s e tu p H a rd w a re • Two 6-DOF YAM robot arms manufactured by I2RT • T h re e R e a ls e n s e D 4 0 5 c a m ra s • rig h t_ w ris t, le ft_ w ris t, to p D a ta C o lle c tio n • GE LLO • 3 0 fp s

13.

結果1 re w a rd m o d e l RW(ReWind) TR(Top Reward) RM(Robo meter) RM(FT) (Robometer with LoRA FT) w/oSE (without Stage Estimator) w/o MG(without Multigate) S1 var(trained on S1 task) SARM2(proposed) S1 : classic task S2 : unconventiona]task Rollout classification Success Partially Success Fail 12 per each. M o e D e n s ity : 0 : b a la n c e d 1 : c o lla p s e 13

14.

結果1 re w a rd m o d e l 14

15.

結果2 p o lic y e v a lua tio n Rollout Sparse (human recoreded terminal success) BC (behavior cloning) Rollout RM(FT) (Robometer with Lora FT) RABC(Reward Aligned BC) RL-Sparse(RL with termianl reward) SARM(Proposed) RL-Dense(RL with SPIRAL) 15

16.

結果2 p o lic y e v a lua tio n 16

17.

L im ita tio n • Embodiement Scope • 一つのロボットでのみの検証. • Multi taskに使用可能だが, Out-of –Boxで使用できるわけではない. • TopReward / RoboMeterのようなGeneral Reward Modelを直接代替できてはいない • Mobile manipulationには未適用. • Ceiling of Resudlual RL • VLAを直接Fine tune しているわけではないため,性能の工場に限界がある. • Sample Inefficiency • 人間がrolloutするよりは効率的であるがロボットによるrolloutは依然としてコストがかかる. • 環境のresetや安全のためにある程度の人間の介入は依然として必要. 17

18.

まとめ/感想 • SARMからの順当な改善 • 特定のロボット等のデータが多数ある場合に,Multitaskに使用でき,使用可能な場面が多い • Self Improvementへの道 • SPIRALで示されたReward Modelによるpolicyのself improvemen. • 1. 強いgeneral reward model + self rollout + environment resetが揃えば自動的なpolicy のself improvementが可能になりそう. • 環境のresetに人間の介入が以前として必要なためDaggerr styleの改善と比べてどの程度必要かは議論の余地がありそうだと感じた. 18

19.

参考文献 [1] SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation https://arxiv.org/abs/2509.25358 [2] Vision Language Models are In-Context Value Learners https://arxiv.org/abs/2411.04549 [3] ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations https://arxiv.org/abs/2505.10911 [4] https://huggingface.co/spaces/lerobot/robot-folding [5] RoboMeter : https://arxiv.org/abs/2603.02115 [6] TopReward : https://arxiv.org/abs/2602.19313 [7] SARM 2 : https://arxiv.org/pdf/2606.10305v1 [8] From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning https://arxiv.org/abs/2603.10263 19