---
title: 【DL輪読会】LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/GJ5M3GZGJ4.jpg?width=480
description: 【DL輪読会】LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model by Deep Learning JP
published: July 02, 26
canonical: https://www.docswell.com/s/DeepLearning2023/5DMMRD-2026-07-03-160612
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/GJ5M3GZGJ4.jpg)

DEEP LEARNING JP
[DL Papers]
LaST₀: Latent Spatio-Temporal Chain-of-Thought
for Robotic Vision-Language-Action Model
Hiroto Osaka, Matsuo Iwasawa Lab, M2
http://deeplearning.jp/


# Page. 2

![Page Image](https://bcdn.docswell.com/page/LE3W6R9PE5.jpg)

書誌情報
Paper Information
論⽂タイトル
LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-LanguageAction Model
会議 / 著者
ICML 2026
Zhuoyang Liu, Jiaming Liu, Hao Chen ほか（全 14 名）
‒ Peking Univ. / Beijing Humanoid Robotics Center / CUHK / Simplexity Robotics
概要
明⽰的 CoT VLA の「推論遅延」と「⾔語空間の表現限界」を
latent な時空間 CoT で解消
未来の 視覚 / 3D 構造 / 固有受容 を latent で⾃⼰回帰予測 → dualsystem MoT で実時間動作
実世界 +13% / +14% / +14%、対 explicit-CoT 14× ⾼速化
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/8EDKVYG37G.jpg)

背景①
VLA と reason-before-act
VLA とは
VLM の意味理解‧常識推論を継承し、ロボの low-level 制御と統合
‒ 出⼒は連続値の低レベル制御信号 — ⾔語トークンとは性質が異なる系列
指⽰ l ＋ 観測 I → ⾏動系列 a（例: 7-DoF end-eﬀector, SE(3)）
reason-before-act の潮流
① テキスト CoT — ⾔語で計画を書く（π0.5, Embodied CoT）
② 未来画像予測 — 次フレームを描いてから動く（CoT-VLA）
③ 未来マルチモーダル予測 — より細かい将来状態を予測
⼀般 VLM の CoT パラダイムが VLA に輸⼊されつつある — ただし robot
固有の制約がある（→次⾴）
VLA の⼀般形 — Ma et al., “A Survey on Vision-Language-Action Models for Embodied AI” (arXiv:2405.14093)
Fig. より引⽤
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/V7PKV63PJ8.jpg)

背景②
明⽰的 CoT VLA の 2 つの限界
限界① 推論遅延（latency）
⾃⼰回帰⽣成は計算オーバーヘッドが不可避
‒ ロボは 10 Hz 級の closed-loop 制御が前提 — 1 ⾏動ごとの⻑い⽣成は間に合わない
実時間性↓ → 時間分解能↓ → closed-loop 制御の時間的⼀貫性が崩れる
例：explicit CoT の CoT-VLA は 1.1 Hz（制御に全く不⾜）
限界② ⾔語空間ボトルネック
推論が⾔語空間に閉じる → ⾔葉にしにくい物理属性（ineﬀable）を忠実に表せ
ない
‒ 例: 接触⼒‧微妙な位置関係‧姿勢の連続変化は⾔語トークンに離散化しにくい
しかしロボは物理世界を推論し相互作⽤する必要がある
→ 「遅い」「表せない」の 2 点が LaST₀ の出発点
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/2JVVZ34VJQ.jpg)

背景③
Latent CoT という解 ＆ 本研究の位置づけ
Latent CoT の系譜
観点
LVR (ICLR&#039;26)
LaST₀ (ICML&#039;26)
ドメイン
VLM 知覚
VLA 操作
latent の中⾝
ROI パッチ（視覚のみ）
RGB＋点群＋固有受容
時間
なし
未来キーフレーム
教師信号
MSE
cosine 類似度
⾼速化
固定トークン数
⾮同期周波数
構造
単⼀ MLLM
dual-system MoT
RL
GRPO latent
なし（SFT のみ）
⼀般 LLM：Coconut（連続 latent で推論）が契機
視覚拡張：Mirage / Monet / latent visual reasoning 群
Embodied：LCDrive（運転）/ ThinkAct（motion plan 圧縮）
LaST₀ の⽴ち位置
ロボ操作に特化し、物理的に接地した latent で推論（意味＋幾何＋ロボ状態）
LVR は「知覚」、LaST₀ は「⾏動」 — 同じ latent CoT を空間 × 時間 × ⾼速化
の 3 ⽅向に増築
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/5EGL4311JL.jpg)

提案⼿法
LaST₀ の全体像（2 本柱）
2 本柱
柱① Spatio-Temporal Latent CoT 空間 ＝ 何を latent で考えるか
‒ 未来の RGB / 点群 / 固有受容 を⾃⼰回帰予測
柱② Dual-System MoT ＝ どう速く動かすか
‒ slow 推論 expert（低頻度）＋ fast ⾏動 expert（⾼頻度）
reason（slow）と act（fast）を分離しつつ、shared attention で繋ぐ
のが⼼臓部
基盤
Janus-Pro（DeepSeek-LLM 1.5B, 24 層, d=2048）を MoT dual-system に
改造
‒ ⾮埋め込み層（FFN‧QKV 等）を expert 別に複製し、attention だけ共有
両 expert とも同じ事前学習 VLM から初期化
LaST₀ Architecture（論⽂ Fig.2a）— 2 experts ＋ shared attention ＋ ﬂow matching
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/4JQYG5DN7P.jpg)

提案⼿法 ①
Spatio-Temporal Latent CoT 空間
3 モダリティ（未来ステップ k ごと）
視覚 z^v_k：未来 RGB → frozen SigLIP-Large（384²）
幾何 z^p_k：未来点群 → Uni3D（訓練時のみ∕推論では使わない）
‒ 教師信号を作るためだけ → デプロイ時のセンサ要件を増やさない設計
固有受容 z^s_k：未来ロボ状態 → action tokenizer
トークン効率 ＆ 系列構造
average pooling で各モダリティ 1 トークンに圧縮 → interleave（⻑さ 3×H）
‒ 1 トークンで⾜りる（増やしても改善しない）ことは ablation で確認（→ p14 (b)）
&lt;latent_start&gt; / &lt;latent_end&gt; / &lt;latent_pad&gt; の特殊トークンで区切る
訓練：pad を Z_GT で置換（teacher forcing）∕推論：pad を⾃⼰回帰で埋める
latent 構築（論⽂ Fig.2b 上段）— 3 encoders → 各 1 トークン → interleave
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/K74W59Z3E1.jpg)

提案⼿法 ①
Latent Supervision 戦略
教師 latent の作り⽅（アノテーション不要）
未来キーフレームの実観測を frozen encoder に通し GT latent Z_GT を得る
‒ SigLIP（RGB）/ Uni3D（点群）/ action tokenizer（状態）→ 各 1 トークン（図‧上段）
slow expert は指⽰‧観測‧過去 latent を⽂脈に、次の latent ẑ_t を⾃⼰回帰予測
‒ 教師は軌跡データから⾃動構築できる — ⼈⼿ラベル不要
損失：cosine 類似度（連続ベクトルの回帰）
⼤きさ（ノルム）でなく⽅向を揃える（directional alignment）
‒ 3 encoder の embedding はスケールがバラバラ — ノルムまで合わせる MSE より、⽅向だけ合わせる
⽅が 3 モダリティ共通の教師に向く
latent の教師と損失（論⽂ Fig.2b）— 下段: slow expert の予測列と GT 列を
cosine 類似度で整列
何が嬉しいか
離散 vocab に落とさず、⾔語化しにくい物理中間値をそのまま運べる（背景② の解消）
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/LJ1YWKRZEG.jpg)

提案⼿法 ②
Dual-System Coordination
⾮同期周波数（asynchronous frequency）
更新⽐ κ ∈ {2,4,8}
slow 推論 expert：キーフレームのみ起動（t mod κ = 0）→ latent CoT ⽣成
fast ⾏動 expert：毎ステップ起動 → ﬂow matching で⾏動、直近 latent に条件付け
‒ ﬂow matching = 連続な⾏動チャンクを⼀括⽣成するヘッド（逐次トークン⽣成より軽い）
重い推論は間引き‧⾏動は毎ステップ → 1.1→15.4 Hz（14×）の正体
MoT の中⾝
⾮埋め込み成分（FFN, W_Q/K/V/O, LayerNorm）は expert ごとに別重み
self-attention は共有 → fast 側が⾔語 goal と latent CoT を両⽅参照可
⼊⼒の⾮対称
⾮同期周波数（論⽂ Fig.3）— slow＝疎（keyframe）/ fast＝毎ステップ、直近
latent を共有 attention 経由で参照
slow：⾔語 l ＋ 低頻度観測 I_slow ∕ fast：⾼頻度観測 I_fast のみ
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/GJWG6D1672.jpg)

提案⼿法 ②
Training Recipe
① ⼤規模ロボ事前学習
400K+ trajectory（Open-X-Embodiment, DROID, ROBOMIND ほか）
1
400K+ trajectories（OXE, DROID, ROBOMIND …）で dualexpert を慣らす
2 expert が単⼀ VLA 内で滑らかに相互作⽤する素地を作る
② Joint SFT
slow：L_latent（cosine 回帰）∕ fast：L_flow（ﬂow matching）
Stage 1 — Pretrain
2
Stage 2 — Joint SFT
L_latent（cosine）＋ L_ﬂow を同時最適化。fast-slow ⽐ 1:1 /
1:2 / 1:4 を混合
fast-slow ⽐をランダム混合（1:1, 1:2, 1:4）で訓練 → デプロイ時に頻度を適応選
択
鍵
混合⽐訓練は性能を落とさず、推論の robustness を上げる
3
Adaptive Deploy
タスク‧状況に応じて協調周波数 κ を適応選択
単⼀固定⽐でなく混合⽐で鍛える → 実機で「速さ ↔ 精度」を状況に応じて選べ
る
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/4EZLYGPR73.jpg)

実験
実験設定
Backbone / Simulation / Real-World
⽐較対象
Janus-Pro（DeepSeek-LLM 1.5B）→ 総 3.3B。RGB 384² / 点群 1024 点、SigLIP‧
sim：OpenVLA / SpatialVLA / CogACT / CoT-VLA / π0.5 /
Uni3D は frozen
HybridVLA
Sim：RLBench 10 タスク（Franka, CoppeliaSim）。100 traj/task、8×A800、20
real：π0.5（2D SOTA）/ SpatialVLA（3D SOTA）/ CoT-VLA（明
rollout×3 seed
Real：3 プラットフォーム（Franka 単腕+双腕 / AgileX mobile / TienKung ⼈型
dexterous）、200 demo/task、15 rollout×3
Franka（単腕＋双腕）（論⽂ Fig.6-8）
⽰ CoT）
‒ CoT-VLA は同じ Janus-Pro で再実装 → explicit vs latent の公平な純粋対
決
指標：success rate ＋ inference Hz
AgileX mobile（4 arms）（論⽂ Fig.6-8）
TienKung 2.0 humanoid（論⽂ Fig.6-8）
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/Y76WDYM17V.jpg)

実験結果 ①
Simulation（RLBench）
主結果
attention 可視化（Fig.4）
LaST₀-3.3B：mean 82%、7/10 タスクで最⾼
no-CoT / explicit-CoT は対象‧ロボに注意が集まらない
HybridVLA-7B（74%）を +8%、π0.5-3B（65%）を +17%、CogACT-7B（61%）を
LaST₀ は操作対象＋ロボに集中 → 時空間理解の裏付け
+21%
速度
15.4 Hz ∕ CoT-VLA（1.1 Hz）の 14×、π0.5（13.8 Hz）と同等
‒ 3.3B で 7B 級 baseline を上回りつつ 14× ⾼速 — 速さと精度は⼆律背反でない
attention（論⽂ Fig.4 抜粋）— 左: w/o CoT ∕ 中: explicit CoT ∕ 右: LaST CoT
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/G75M3GZL74.jpg)

実験結果 ②
Simulation（LIBERO）
実験設定
4 suites（Spatial / Object / Goal / Long）× 各 10 タスク‧500 demos
suite ごとに個別学習し、500 trials/suite で評価
主結果
LaST₀：mean 98.1%（SOTA）— Spatial 99.2 / Object 99.6 / Goal 98.0 / Long
95.6
OpenVLA-OFT（97.1）‧π0.5（96.9）を上回り、explicit CoT の CoT-VLA（
81.1）には +17%
‒ Spatial / Object（新レイアウト‧新物体への汎化）はほぼ飽和（99%+）
LIBERO 4 suites の成功率（論⽂ Table 2）
解釈
LIBERO-Long 95.6 vs π0.5 92.4 / OFT 94.5 — RLBench‧実機と同じく⻑
horizon で最も差が出る
compact latent reasoning の利点が sim ベンチを跨いで⼀貫（RLBench 0.82 /
LIBERO 98.1%）
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/9J29ZYR3ER.jpg)

実験結果 ③
Ablation — 4 つの設計選択
(a) latent モダリティ：単独でも 74-76% でほぼ並ぶが、全部組合せで 82%
共通則：増やすほど良い、ではなく適量の latent が最適
‒ ⾒た⽬‧幾何‧⾃⼰状態は相補的 — どれか 1 つでは世界状態を表しきれない
「1 トークン / 4 step で飽和」は LVR の「固定 4-8 トークンで飽和」と同現
(b) トークン数：0→68% / 1→82%、2 個以上に増やしても改善なし
象 — 少数 latent への圧縮可能性が 2 論⽂で独⽴に再現
‒ 未来 1 step の必要情報は 1 トークンに圧縮可能。0 個の⼤幅劣化が latent CoT ⾃体の効果を⽰す
(c) 時間被覆：0→68% / 4 step→82%、4 超で頭打ち → 4 keyframe 採⽤
‒ 中期の⾒通しが最適 — 遠すぎる未来の予測は不確実でノイズ源になる
(d) 協調周波数：固定⽐は 75-79% ⽌まり（1:8 は 74% に低下）、混合訓練で 82%
‒ 単⼀⽐への過学習を防ぎ、デプロイ時の頻度選択（速さ↔精度）にも頑健になる
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/DEY4RGD8JM.jpg)

実験結果 ④
Real-World ＆ Long-Horizon
実機 3 プラットフォーム
Franka（6 タスク平均）：0.72 vs π0.5 0.59 / CoT-VLA 0.50 / SpatialVLA 0.41
（+13%）
AgileX mobile：+14% ∕ TienKung dexterous：+14%（対 π0.5）
Long-horizon（3 連続）
LaST₀：0.66 → 0.47 → 0.33 ∕ π0.5：0.47 → 0.20 → 0.07
実機ロールアウト例（論⽂ Fig.9 抜粋）
horizon が伸びるほど差が拡⼤
‒ 時間拡張された latent がタスク進⾏‧環境状態の coherence を維持 — 単発精度でなく「継続成功」で差が出る
実機の成功率（論⽂ Table 3 より）
15


# Page. 16

![Page Image](https://bcdn.docswell.com/page/VJNYDG6978.jpg)

まとめ
まとめ ＆ 限界
本論⽂の貢献
限界
① 時空間 latent CoT 空間 — 未来の意味（RGB）‧幾何（点群）‧固有受容を
精密な接触で失敗が残る — 拭き残し‧⽫同⼠の衝突‧ハンドル位置ずれ（論
各 1 トークンで⾃⼰回帰‧時間展開
⽂ Fig.12 → Appendix）
‒ ⾔語化しにくい物理 dynamics を、離散 vocab を介さず連続 latent のまま推論する問題
latent の中⾝は直接検証されていない — 解析は attention 可視化まで。何を
設定
② Dual-System MoT — 低頻度 latent 推論 × ⾼頻度 ﬂow-matching ⾏動を
shared attention で協調
‒ explicit CoT ⽐ 14×（15.4 Hz）で reason-before-act を実時間制御に載せた
③ 幅広い実証 — sim 2 種＋実機 3 プラットフォームで⼀貫 SOTA
‒ RLBench 0.82 / LIBERO 98.1% / 実機 +13〜14%。⻑ horizon ほど差が拡⼤
④ 設計則の提⽰ — ablation で「1 トークン‧4 keyframe‧混合周波数」＝ 適
符号化しているかは開いた課題
訓練には点群（depth）データが必要 — 推論時は不要だが、データ収集側の
要件としては残る
SFT（模倣）のみ — 失敗からの回復や探索（RL）は扱っていない
汎化の評価は新レイアウト‧新物体（LIBERO）まで — 未知タスクへのゼロ
ショットは対象外
量 latent の経験則
総括：explicit CoT の 2 つの壁（推論遅延‧⾔語空間の表現限界）を、latent 化
× dual-system で同時に解消
16


# Page. 17

![Page Image](https://bcdn.docswell.com/page/YE9PGWL3J3.jpg)

参考⽂献
References
Liu et al. “LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic VLA.” ICML
2026. arXiv:2601.05248 / vla-last0.github.io
Hao et al. “Training LLMs to Reason in a Continuous Latent Space” (Coconut). 2024.
Wang et al. “Monet: Reasoning in Latent Visual Space Beyond Images and Language.”
2025.
Li et al. “Latent Visual Reasoning (LVR).” ICLR 2026.（前回輪読）
Zhao et al. “CoT-VLA: Visual Chain-of-Thought Reasoning for VLA.” 2025.
Intelligence et al. “π0.5: A VLA Model with Open-World Generalization.” 2025.
Liu et al. “HybridVLA: Collaborative Diﬀusion and Autoregression in a Uniﬁed VLA.”
2025.
Qu et al. “SpatialVLA: Exploring Spatial Representations for VLA.” 2025.
Li et al. “CogACT: A Foundational VLA Model.” 2024.
Kim et al. “OpenVLA: An Open-Source VLA Model.” 2024.
Chen et al. “Janus-Pro: Uniﬁed Multimodal Understanding and Generation.” 2025.
Zhai et al. “Sigmoid Loss for Language Image Pre-training” (SigLIP). 2023.
Zhou et al. “Uni3D: Exploring Uniﬁed 3D Representation at Scale.” 2023.
Open X-Embodiment Collab. “Open X-Embodiment / RT-X.” 2023. ∕ DROID 2024 ∕
ROBOMIND 2025.
James et al. “RLBench: The Robot Learning Benchmark.” 2020.
Tan et al. “LCDrive.” 2025. ∕ Huang et al. “ThinkAct.” 2025.
Ma et al. “A Survey on Vision-Language-Action Models for Embodied AI.” 2024.
arXiv:2405.14093（p3 図の出典）
17


# Page. 18

![Page Image](https://bcdn.docswell.com/page/GE8DVNXLED.jpg)

Appendix
失敗例から⾒る限界（論⽂ Fig.12）
3 つの失敗モード
Manipulation Height：アームが⼗分下がらず拭き残し
Object Collision：⽫同⼠が衝突して重ねられない
Manipulation Position：指がハンドルに届かず引けない
共通するのは接触⼨前の精密さ（⾼さ‧位置‧⼲渉）で崩れること
latent が物理を「どこまで」表せているか（中⾝の可視化‧検証）とい
う残課題と地続き（→ p16 の限界）
失敗例（論⽂ Fig.12）— ⾚枠が失敗箇所
18


