【DL輪読会】MolmoAct2: Action Reasoning Models for Real-World Deployment

543 Views

May 14, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] MolmoAct2 Action Reasoning Models for Real-World Deployment Tomoki Arita, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 題名 MolmoAct2 Action Reasoning Models for Real-World Deployment 著者 Allen Institute for AI 会議 Preprint, 2026 / https://allenai.org/blog/molmoact2 概要 ・ 完全オープンな実ロボット向け Action Reasoning Model ・ Molmo2-ER・新規ロボットデータ・OpenFAST・KV接続 action expert・adaptive depth reasoning を統合 ※ スライド中の図表は該当論文から引用 2

3.

概要 SOTA性能のVLAアーキテクチャ・データをあらゆる面でオープンにした 低〜中価格帯ロボットで out-of-the-box deploy 3

4.

背景:MolmoAct MolmoAct: Allen Institute for AI が開発するVLAモデル VLM backbone Action Expert Dataset MolmoAct (2025) 7.65B N/A 事前学習:723h 事後学習:22h MolmoAct2 (2026) 4.86B 621M 事前学習:1800~2000h 事後学習:1800~2000h PaliGemma 3B 300M N/A (1万h以上?) Gemma3 4B 860M N/A Model 参考 4

5.

課題と提案 ※ スライド中の図表はAIで生成 5

6.

データ・学習全体像 総計 ≈2.0k h robot data(推定) Samplin g weight Datasize YAM 27% 720 hours~ SO-100/101 27% 184 hours DROID 27% 350 hours BC-Z / BridgeData V2 / RT-1 / MolmoAct Dataset 9% 600 hours~ Multimodal data 10% 本論文の主なスコープ Tokenizer学習 Molmo2 VLM追加学習 (Mulmo2-ER) VLA 事前学習 VLA Mid-training VLA 事後学習 embodiment Fine tuning Task-specific Fine tuning ※ Reasoningモデルのみ 6

7.

Molmo2-ER 行動生成に必要な空間・身体性スキルをVLM backboneとして学習 Molmo2 [Allen Institute for AI, 2026] 学習途中のcheckpointから 空間を認識するタスクのデータを混ぜて学習 7

8.

アーキテクチャ 5B VLM + 621M action expert のVLA VLM backboneは3つの出力 インターフェースを持つ 1. 事前学習以降で予測する 離散アクショントークン 2. 事後学習以降でAction Expert に渡すTransformerのKV値 3. Depthを推定するDepthトークン (Action Reasoning Modelのみ) 8

9.

Pre-training 1秒分の連続行動を離散action token列として Action expertを用いずにnext-token prediction 行動系列を 周波数領域に変換 計1980h分のデータセット全体 教師ラベル を生成 H100 × 64 を使って 5760 GPU hours 学習 (4日ぐらい?) FAST tokenizer [Physical Intelligence, 2025] ※ 学習データセットに10%VLM用のマルチモーダルデータセットが混ぜられており, そのデータに対してはQwen2Tokenizerを使う 9

10.

Post-training Flow matching のaction expertを用いて連続の行動系列を学習 離散トークン列の損失関数 連続行動列の損失関数 ・ 事前学習と学習データの構成比は同じ ・ Optimizerのupdateは事前学習の半分 VLAのtransformerにおけるKV値を Action ExpertのAttention層に渡す (200k step → 100k step) 10

11.

MolmoAct2-Think • RGB observation frame からDepth Anything V2 で monocular depth map を推定 • 10x10の画像領域ごとにVQ-VAEでエンコード • エンコードしたDepth Tokenで損失を計算する • 推論時には変化した画像領域に対応するDepth Tokenのみ再計算してAction Expertに渡す • あくまで現在シーンのdepthを推定するReasoning なのでWorld Modelではない 11

12.

その他訓練・推論の工夫 Language re-annotation: 既存データセットに含まれる不正確/反復的なinstructionをVLMで再生成 Robot prompt wrappers: Promptでembodiment・制御形式を明示 Multi-camera randomization: カメラの入力順序をランダムに変更して固定camera slotへのショートカット学習を防ぐ 12

13.

実験:Molmo2-ER 評価 13個の embodied reasoning benchmark で強力なbackboneを確認 ・ Point Benchなどでは Molmo2-ERが最高性能 (OpenEQAは低い) 14

14.

実験:Out-of-the-box Deployment DROID / SO-100/101向けcheckpointを task-specificな追加fine-tuningなしで評価 ・ 本論文の主結果 ・ シミュレーション・実機環境・未知物体・ランダムなカメラ位置でも 追加FTなしに動き、低コストSO-100/101にも展開可能 15

15.

実験:Fine-tuningの評価 新タスク・新embodimentへ少数データで適応 ・ LIBEROでは 500demos ✕ 4 suitesで 2000 demo使用 ・ 一方YAM実機環境では具体的な データ量記述なし 16

16.

実験:MolmoAct2-Think adaptive depth reasoning はhard suiteほど効く? ・ そもそもベンチマークが サチっている印象. ・ 本文中では有効と書いてあるが ここからは読み取りにくい. LIBEROタスク成功率 17

17.

実験:推論速度 • 同一アクションチャンク内のKV値を 使いまわすことで高速化 • MolmoAct2本体は十分高速化できる がMolmoAct2-Thinkはdepth reasoningの逐次デコードがボトルネッ クで、まだ低速 18

18.

その他 Ablation Study 各コンポーネントが性能に寄与しているかをLIBEROで検証 比較 結論 VLM backbone Molmo2 → Molmo2-ER 最も支配的な性能向上 (77.6% → 83.6%) KV connection hidden / per-head / per-layer per-layerのKVを渡すと 僅かに良い(94.0% → 95.9%) Flow samples flowサンプル数をK=1,2,4,8で変化 K=8が僅かに良い (94.1% → 95.9%) Fine tuning LoRA / expert only / full Full finetuningが有効 (93.1% → 97.2%) Think recipe Noise / gate / mixed 全て有効化で僅かに良い (97.5% → 98.1%) 19

19.

論文にのっていないこと ⚫ Task-specificなファインチューニングに要した学習データ量 ⚫ Action Reasoning Modelに関する実機ベンチマーク ⚫ Molmo2-ERを使わない場合のAblation ⚫ Molmo2-ERがMolmo2のどのcheckpointから分岐したものなのか 20

20.

所感 ⚫ Pi0.5に並ぶベースラインとして有用ではありそう ⚫ 結局性能向上に寄与したのがデータなのかアーキテクチャなのかが判然と しなかった印象. ⚫ 論文としてはAction Reasoning Modelを打ち出したいが 実際のところVLMの学習につかったデータの影響が支配的なのでは? ⚫ 一方で各学習ステップに要したデータ構成や学習量などが全て開示されて いるのは非常に価値がある 21

21.

まとめ Key takeaways ⚫ MolmoAct2: fully openな実世界deployment向け Action Reasoning Model ⚫ 貢献: Molmo2-ER / 3 robot datasets / OpenFAST / KV action expert / MolmoAct2-Think ⚫ 性能: embodied reasoning・out-of-the-box・fine-tuning・real-worldで強い ⚫ 示唆: VLAの次の論点は「データ規模」だけでなく,空間推論を低遅延で制御に接続する設 計 ⚫ 所感: π0.7がsteering/prompting重視なら,MolmoAct2はopen reproducibility + accessible robot deployment重視 22