【DL輪読会】MolmoAct2: Action Reasoning Models for Real-World Deployment

2.6K Views

May 14, 26

#深層学習 #ロボット工学 #行動推論 #オープンソース #実世界展開

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] MolmoAct2 Action Reasoning Models for Real-World Deployment Tomoki Arita, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題名 MolmoAct2 Action Reasoning Models for Real-World Deployment 著者 Allen Institute for AI 会議 Preprint, 202６ / https://allenai.org/blog/molmoact2 概要・完全オープンな実ロボット向け Action Reasoning Model ・ Molmo2-ER・新規ロボットデータ・OpenFAST・KV接続 action expert・adaptive depth reasoning を統合 ※ スライド中の図表は該当論文から引用 2

概要 SOTA性能のVLAアーキテクチャ・データをあらゆる面でオープンにした低〜中価格帯ロボットで out-of-the-box deploy 3

背景：MolmoAct MolmoAct: Allen Institute for AI が開発するVLAモデル VLM backbone Action Expert Dataset MolmoAct (2025) 7.65B N/A 事前学習：723h 事後学習：22h MolmoAct2 (2026) 4.86B 621M 事前学習：1800～2000h 事後学習：1800～2000h PaliGemma 3B 300M N/A (1万h以上？) Gemma3 4B 860M N/A Model 参考 4

課題と提案 ※ スライド中の図表はAIで生成 5

データ・学習全体像総計 ≈2.0k h robot data（推定） Samplin g weight Datasize YAM 27% 720 hours～ SO-100/101 27% 184 hours DROID 27% 350 hours BC-Z / BridgeData V2 / RT-1 / MolmoAct Dataset 9% 600 hours～ Multimodal data 10% 本論文の主なスコープ Tokenizer学習 Molmo2 VLM追加学習 (Mulmo2-ER) VLA 事前学習 VLA Mid-training VLA 事後学習 embodiment Fine tuning Task-specific Fine tuning ※ Reasoningモデルのみ 6

Molmo2-ER 行動生成に必要な空間・身体性スキルをVLM backboneとして学習 Molmo２ [Allen Institute for AI, 2026] 学習途中のcheckpointから空間を認識するタスクのデータを混ぜて学習 7

アーキテクチャ 5B VLM + 621M action expert のVLA VLM backboneは３つの出力インターフェースを持つ 1. 事前学習以降で予測する離散アクショントークン 2. 事後学習以降でAction Expert に渡すTranｓformerのKV値 3. Depthを推定するDepthトークン（Action Reasoning Modelのみ) 8

Pre-training 1秒分の連続行動を離散action token列として Action expertを用いずにnext-token prediction 行動系列を周波数領域に変換計1980h分のデータセット全体教師ラベルを生成 H100 × 64 を使って 5760 GPU hours 学習（4日ぐらい?) FAST tokenizer [Physical Intelligence, 2025] ※ 学習データセットに10%VLM用のマルチモーダルデータセットが混ぜられており，そのデータに対してはQwen2Tokenizerを使う 9

10.

Post-training Flow matching のaction expertを用いて連続の行動系列を学習離散トークン列の損失関数連続行動列の損失関数・事前学習と学習データの構成比は同じ・ Optimizerのupdateは事前学習の半分 VLAのtransformerにおけるKV値を Action ExpertのAttention層に渡す (200k step → 100k step) 10

11.

MolmoAct2-Think • RGB observation frame からDepth Anything V2 で monocular depth map を推定 • 10x10の画像領域ごとにVQ-VAEでエンコード • エンコードしたDepth Tokenで損失を計算する • 推論時には変化した画像領域に対応するDepth Tokenのみ再計算してAction Expertに渡す • あくまで現在シーンのdepthを推定するReasoning なのでWorld Modelではない 11

12.

その他訓練・推論の工夫 Language re-annotation: 既存データセットに含まれる不正確/反復的なinstructionをVLMで再生成 Robot prompt wrappers: Promptでembodiment・制御形式を明示 Multi-camera randomization: カメラの入力順序をランダムに変更して固定camera slotへのショートカット学習を防ぐ 12

13.

実験：Molmo2-ER 評価 13個の embodied reasoning benchmark で強力なbackboneを確認・ Point Benchなどでは Molmo2-ERが最高性能 (OpenEQAは低い) 14

14.

実験：Out-of-the-box Deployment DROID / SO-100/101向けcheckpointを task-specificな追加fine-tuningなしで評価・本論文の主結果・シミュレーション・実機環境・未知物体・ランダムなカメラ位置でも追加FTなしに動き、低コストSO-100/101にも展開可能 15

15.

実験：Fine-tuningの評価新タスク・新embodimentへ少数データで適応・ LIBEROでは 500demos ✕ 4 suitesで 2000 demo使用・一方YAM実機環境では具体的なデータ量記述なし 16

16.

実験：MolmoAct2-Think adaptive depth reasoning はhard suiteほど効く？・そもそもベンチマークがサチっている印象．・本文中では有効と書いてあるがここからは読み取りにくい． LIBEROタスク成功率 17

17.

実験：推論速度 • 同一アクションチャンク内のKV値を使いまわすことで高速化 • MolmoAct2本体は十分高速化できるがMolmoAct2-Thinkはdepth reasoningの逐次デコードがボトルネックで、まだ低速 18

18.

その他 Ablation Study 各コンポーネントが性能に寄与しているかをLIBEROで検証比較結論 VLM backbone Molmo2 → Molmo2-ER 最も支配的な性能向上 (77.6% → 83.6%) KV connection hidden / per-head / per-layer per-layerのKVを渡すと僅かに良い(94.0% → 95.9%) Flow samples flowサンプル数をK=1,2,4,8で変化 K=8が僅かに良い (94.1% → 95.9%) Fine tuning LoRA / expert only / full Full finetuningが有効 (93.1% → 97.2%) Think recipe Noise / gate / mixed 全て有効化で僅かに良い (97.5% → 98.1%) 19

19.

論文にのっていないこと ⚫ Task-specificなファインチューニングに要した学習データ量 ⚫ Action Reasoning Modelに関する実機ベンチマーク ⚫ Molmo2-ERを使わない場合のAblation ⚫ Molmo2-ERがMolmo2のどのcheckpointから分岐したものなのか 20

20.

所感 ⚫ Pi0.5に並ぶベースラインとして有用ではありそう ⚫ 結局性能向上に寄与したのがデータなのかアーキテクチャなのかが判然としなかった印象． ⚫ 論文としてはAction Reasoning Modelを打ち出したいが実際のところVLMの学習につかったデータの影響が支配的なのでは？ ⚫ 一方で各学習ステップに要したデータ構成や学習量などが全て開示されているのは非常に価値がある 21

21.

まとめ Key takeaways ⚫ MolmoAct2: fully openな実世界deployment向け Action Reasoning Model ⚫ 貢献: Molmo2-ER / 3 robot datasets / OpenFAST / KV action expert / MolmoAct2-Think ⚫ 性能: embodied reasoning・out-of-the-box・fine-tuning・real-worldで強い ⚫ 示唆: VLAの次の論点は「データ規模」だけでなく，空間推論を低遅延で制御に接続する設計 ⚫ 所感: π0.7がsteering/prompting重視なら，MolmoAct2はopen reproducibility + accessible robot deployment重視 22