---
title: 【DL輪読会】MolmoAct2: Action Reasoning Models for Real-World Deployment
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/GE8DXX6VED.jpg?width=480
description: 【DL輪読会】MolmoAct2: Action Reasoning Models for Real-World Deployment by Deep Learning JP
published: May 14, 26
canonical: https://www.docswell.com/s/DeepLearning2023/ZJWX7M-2026-05-18-111904
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/GE8DXX6VED.jpg)

DEEP LEARNING JP
[DL Papers]
MolmoAct2
Action Reasoning Models for Real-World Deployment
Tomoki Arita, Matsuo Lab
http://deeplearning.jp/
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/LELM889R7R.jpg)

書誌情報
題名
MolmoAct2
Action Reasoning Models for Real-World Deployment
著者
Allen Institute for AI
会議
Preprint, 202６ / https://allenai.org/blog/molmoact2
概要
・ 完全オープンな実ロボット向け Action Reasoning Model
・ Molmo2-ER・新規ロボットデータ・OpenFAST・KV接続 action
expert・adaptive depth reasoning を統合
※ スライド中の図表は該当論文から引用
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4JMY66ZPJW.jpg)

概要
SOTA性能のVLAアーキテクチャ・データをあらゆる面でオープンにした
低〜中価格帯ロボットで out-of-the-box deploy
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/PJR9PP6Y79.jpg)

背景：MolmoAct
MolmoAct: Allen Institute for AI が開発するVLAモデル
VLM
backbone
Action
Expert
Dataset
MolmoAct
(2025)
7.65B
N/A
事前学習：723h
事後学習：22h
MolmoAct2
(2026)
4.86B
621M
事前学習：1800～2000h
事後学習：1800～2000h
PaliGemma 3B
300M
N/A (1万h以上？)
Gemma3 4B
860M
N/A
Model
参考
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/PEXQ33M4JX.jpg)

課題と提案
※ スライド中の図表はAIで生成
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/3EK9YYGPED.jpg)

データ・学習全体像
総計 ≈2.0k h robot data（推定）
Samplin
g
weight
Datasize
YAM
27%
720 hours～
SO-100/101
27%
184 hours
DROID
27%
350 hours
BC-Z / BridgeData V2 / RT-1 /
MolmoAct Dataset
9%
600 hours～
Multimodal data
10%
本論文の主なスコープ
Tokenizer学習
Molmo2
VLM追加学習
(Mulmo2-ER)
VLA
事前学習
VLA
Mid-training
VLA
事後学習
embodiment
Fine tuning
Task-specific
Fine tuning
※ Reasoningモデルのみ
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/L73W99N475.jpg)

Molmo2-ER
行動生成に必要な空間・身体性スキルをVLM backboneとして学習
Molmo２
[Allen Institute for AI, 2026]
学習途中のcheckpointから
空間を認識するタスクのデータを混ぜて学習
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/87DKGGW5JG.jpg)

アーキテクチャ
5B VLM + 621M action expert のVLA
VLM backboneは３つの出力
インターフェースを持つ
1. 事前学習以降で予測する
離散アクショントークン
2. 事後学習以降でAction Expert
に渡すTranｓformerのKV値
3. Depthを推定するDepthトークン
（Action Reasoning Modelのみ)
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/VJPK339DE8.jpg)

Pre-training
1秒分の連続行動を離散action token列として
Action expertを用いずにnext-token prediction
行動系列を
周波数領域に変換
計1980h分のデータセット全体
教師ラベル
を生成
H100 × 64
を使って
5760 GPU hours
学習
（4日ぐらい?)
FAST tokenizer
[Physical Intelligence, 2025]
※ 学習データセットに10%VLM用のマルチモーダルデータセットが混ぜられており，
そのデータに対してはQwen2Tokenizerを使う
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/2EVV44MGEQ.jpg)

Post-training
Flow matching のaction expertを用いて連続の行動系列を学習
離散トークン列の損失関数
連続行動列の損失関数
・ 事前学習と学習データの構成比は同じ
・ Optimizerのupdateは事前学習の半分
VLAのtransformerにおけるKV値を
Action ExpertのAttention層に渡す
(200k step → 100k step)
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/57GL11XDEL.jpg)

MolmoAct2-Think
• RGB observation frame からDepth Anything
V2 で monocular depth map を推定
• 10x10の画像領域ごとにVQ-VAEでエンコード
• エンコードしたDepth Tokenで損失を計算する
• 推論時には変化した画像領域に対応するDepth
Tokenのみ再計算してAction Expertに渡す
• あくまで現在シーンのdepthを推定するReasoning
なのでWorld Modelではない
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/4EQYDD8XJP.jpg)

その他訓練・推論の工夫
Language re-annotation:
既存データセットに含まれる不正確/反復的なinstructionをVLMで再生成
Robot prompt wrappers:
Promptでembodiment・制御形式を明示
Multi-camera randomization:
カメラの入力順序をランダムに変更して固定camera slotへのショートカット学習を防ぐ
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/KJ4WZZ2271.jpg)

実験：Molmo2-ER 評価
13個の embodied reasoning benchmark で強力なbackboneを確認
・ Point Benchなどでは
Molmo2-ERが最高性能
(OpenEQAは低い)
14


# Page. 14

![Page Image](https://bcdn.docswell.com/page/LE1YRRMK7G.jpg)

実験：Out-of-the-box Deployment
DROID / SO-100/101向けcheckpointを
task-specificな追加fine-tuningなしで評価
・ 本論文の主結果
・ シミュレーション・実機環境・未知物体・ランダムなカメラ位置でも
追加FTなしに動き、低コストSO-100/101にも展開可能
15


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GEWG113PJ2.jpg)

実験：Fine-tuningの評価
新タスク・新embodimentへ少数データで適応
・ LIBEROでは
500demos ✕ 4 suitesで
2000 demo使用
・ 一方YAM実機環境では具体的な
データ量記述なし
16


# Page. 16

![Page Image](https://bcdn.docswell.com/page/47ZLPPV6J3.jpg)

実験：MolmoAct2-Think
adaptive depth reasoning はhard suiteほど効く？
・ そもそもベンチマークが
サチっている印象．
・ 本文中では有効と書いてあるが
ここからは読み取りにくい．
LIBEROタスク成功率
17


# Page. 17

![Page Image](https://bcdn.docswell.com/page/YJ6WMM5LJV.jpg)

実験：推論速度
• 同一アクションチャンク内のKV値を
使いまわすことで高速化
• MolmoAct2本体は十分高速化できる
がMolmoAct2-Thinkはdepth
reasoningの逐次デコードがボトルネッ
クで、まだ低速
18


# Page. 18

![Page Image](https://bcdn.docswell.com/page/GJ5MZZYMJ4.jpg)

その他 Ablation Study
各コンポーネントが性能に寄与しているかをLIBEROで検証
比較
結論
VLM
backbone
Molmo2 → Molmo2-ER
最も支配的な性能向上
(77.6% → 83.6%)
KV
connection
hidden / per-head / per-layer
per-layerのKVを渡すと
僅かに良い(94.0% → 95.9%)
Flow samples
flowサンプル数をK=1,2,4,8で変化
K=8が僅かに良い
(94.1% → 95.9%)
Fine
tuning
LoRA / expert only / full
Full finetuningが有効
(93.1% → 97.2%)
Think recipe
Noise / gate / mixed
全て有効化で僅かに良い
(97.5% → 98.1%)
19


# Page. 19

![Page Image](https://bcdn.docswell.com/page/LE3W9959E5.jpg)

論文にのっていないこと
⚫ Task-specificなファインチューニングに要した学習データ量
⚫ Action Reasoning Modelに関する実機ベンチマーク
⚫ Molmo2-ERを使わない場合のAblation
⚫ Molmo2-ERがMolmo2のどのcheckpointから分岐したものなのか
20


# Page. 20

![Page Image](https://bcdn.docswell.com/page/8EDKGGD87G.jpg)

所感
⚫ Pi0.5に並ぶベースラインとして有用ではありそう
⚫ 結局性能向上に寄与したのがデータなのかアーキテクチャなのかが判然と
しなかった印象．
⚫ 論文としてはAction Reasoning Modelを打ち出したいが
実際のところVLMの学習につかったデータの影響が支配的なのでは？
⚫ 一方で各学習ステップに要したデータ構成や学習量などが全て開示されて
いるのは非常に価値がある
21


# Page. 21

![Page Image](https://bcdn.docswell.com/page/V7PK33XWJ8.jpg)

まとめ
Key takeaways
⚫ MolmoAct2: fully openな実世界deployment向け Action Reasoning Model
⚫ 貢献: Molmo2-ER / 3 robot datasets / OpenFAST / KV action expert /
MolmoAct2-Think
⚫ 性能: embodied reasoning・out-of-the-box・fine-tuning・real-worldで強い
⚫ 示唆: VLAの次の論点は「データ規模」だけでなく，空間推論を低遅延で制御に接続する設
計
⚫ 所感: π0.7がsteering/prompting重視なら，MolmoAct2はopen
reproducibility + accessible robot deployment重視
22