【DL輪読会】LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

>100 Views

July 02, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 51.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model Hiroto Osaka, Matsuo Iwasawa Lab, M2 http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 Paper Information 論⽂タイトル LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-LanguageAction Model 会議 / 著者 ICML 2026 Zhuoyang Liu, Jiaming Liu, Hao Chen ほか（全 14 名） ‒ Peking Univ. / Beijing Humanoid Robotics Center / CUHK / Simplexity Robotics 概要明⽰的 CoT VLA の「推論遅延」と「⾔語空間の表現限界」を latent な時空間 CoT で解消未来の視覚 / 3D 構造 / 固有受容を latent で⾃⼰回帰予測 → dualsystem MoT で実時間動作実世界 +13% / +14% / +14%、対 explicit-CoT 14× ⾼速化 2

背景① VLA と reason-before-act VLA とは VLM の意味理解‧常識推論を継承し、ロボの low-level 制御と統合 ‒ 出⼒は連続値の低レベル制御信号 — ⾔語トークンとは性質が異なる系列指⽰ l ＋観測 I → ⾏動系列 a（例: 7-DoF end-eﬀector, SE(3)） reason-before-act の潮流 ① テキスト CoT — ⾔語で計画を書く（π0.5, Embodied CoT） ② 未来画像予測 — 次フレームを描いてから動く（CoT-VLA） ③ 未来マルチモーダル予測 — より細かい将来状態を予測⼀般 VLM の CoT パラダイムが VLA に輸⼊されつつある — ただし robot 固有の制約がある（→次⾴） VLA の⼀般形 — Ma et al., “A Survey on Vision-Language-Action Models for Embodied AI” (arXiv:2405.14093) Fig. より引⽤ 3

背景② 明⽰的 CoT VLA の 2 つの限界限界① 推論遅延（latency）⾃⼰回帰⽣成は計算オーバーヘッドが不可避 ‒ ロボは 10 Hz 級の closed-loop 制御が前提 — 1 ⾏動ごとの⻑い⽣成は間に合わない実時間性↓ → 時間分解能↓ → closed-loop 制御の時間的⼀貫性が崩れる例：explicit CoT の CoT-VLA は 1.1 Hz（制御に全く不⾜）限界② ⾔語空間ボトルネック推論が⾔語空間に閉じる → ⾔葉にしにくい物理属性（ineﬀable）を忠実に表せない ‒ 例: 接触⼒‧微妙な位置関係‧姿勢の連続変化は⾔語トークンに離散化しにくいしかしロボは物理世界を推論し相互作⽤する必要がある → 「遅い」「表せない」の 2 点が LaST₀ の出発点 4

背景③ Latent CoT という解＆本研究の位置づけ Latent CoT の系譜観点 LVR (ICLR'26) LaST₀ (ICML'26) ドメイン VLM 知覚 VLA 操作 latent の中⾝ ROI パッチ（視覚のみ） RGB＋点群＋固有受容時間なし未来キーフレーム教師信号 MSE cosine 類似度⾼速化固定トークン数⾮同期周波数構造単⼀ MLLM dual-system MoT RL GRPO latent なし（SFT のみ）⼀般 LLM：Coconut（連続 latent で推論）が契機視覚拡張：Mirage / Monet / latent visual reasoning 群 Embodied：LCDrive（運転）/ ThinkAct（motion plan 圧縮） LaST₀ の⽴ち位置ロボ操作に特化し、物理的に接地した latent で推論（意味＋幾何＋ロボ状態） LVR は「知覚」、LaST₀ は「⾏動」 — 同じ latent CoT を空間 × 時間 × ⾼速化の 3 ⽅向に増築 5

提案⼿法 LaST₀ の全体像（2 本柱） 2 本柱柱① Spatio-Temporal Latent CoT 空間＝何を latent で考えるか ‒ 未来の RGB / 点群 / 固有受容を⾃⼰回帰予測柱② Dual-System MoT ＝どう速く動かすか ‒ slow 推論 expert（低頻度）＋ fast ⾏動 expert（⾼頻度） reason（slow）と act（fast）を分離しつつ、shared attention で繋ぐのが⼼臓部基盤 Janus-Pro（DeepSeek-LLM 1.5B, 24 層, d=2048）を MoT dual-system に改造 ‒ ⾮埋め込み層（FFN‧QKV 等）を expert 別に複製し、attention だけ共有両 expert とも同じ事前学習 VLM から初期化 LaST₀ Architecture（論⽂ Fig.2a）— 2 experts ＋ shared attention ＋ ﬂow matching 6

提案⼿法 ① Spatio-Temporal Latent CoT 空間 3 モダリティ（未来ステップ k ごと）視覚 z^v_k：未来 RGB → frozen SigLIP-Large（384²）幾何 z^p_k：未来点群 → Uni3D（訓練時のみ∕推論では使わない） ‒ 教師信号を作るためだけ → デプロイ時のセンサ要件を増やさない設計固有受容 z^s_k：未来ロボ状態 → action tokenizer トークン効率＆系列構造 average pooling で各モダリティ 1 トークンに圧縮 → interleave（⻑さ 3×H） ‒ 1 トークンで⾜りる（増やしても改善しない）ことは ablation で確認（→ p14 (b)） <latent_start> / <latent_end> / <latent_pad> の特殊トークンで区切る訓練：pad を Z_GT で置換（teacher forcing）∕推論：pad を⾃⼰回帰で埋める latent 構築（論⽂ Fig.2b 上段）— 3 encoders → 各 1 トークン → interleave 7

提案⼿法 ① Latent Supervision 戦略教師 latent の作り⽅（アノテーション不要）未来キーフレームの実観測を frozen encoder に通し GT latent Z_GT を得る ‒ SigLIP（RGB）/ Uni3D（点群）/ action tokenizer（状態）→ 各 1 トークン（図‧上段） slow expert は指⽰‧観測‧過去 latent を⽂脈に、次の latent ẑ_t を⾃⼰回帰予測 ‒ 教師は軌跡データから⾃動構築できる — ⼈⼿ラベル不要損失：cosine 類似度（連続ベクトルの回帰）⼤きさ（ノルム）でなく⽅向を揃える（directional alignment） ‒ 3 encoder の embedding はスケールがバラバラ — ノルムまで合わせる MSE より、⽅向だけ合わせる⽅が 3 モダリティ共通の教師に向く latent の教師と損失（論⽂ Fig.2b）— 下段: slow expert の予測列と GT 列を cosine 類似度で整列何が嬉しいか離散 vocab に落とさず、⾔語化しにくい物理中間値をそのまま運べる（背景② の解消） 8

提案⼿法 ② Dual-System Coordination ⾮同期周波数（asynchronous frequency）更新⽐ κ ∈ {2,4,8} slow 推論 expert：キーフレームのみ起動（t mod κ = 0）→ latent CoT ⽣成 fast ⾏動 expert：毎ステップ起動 → ﬂow matching で⾏動、直近 latent に条件付け ‒ ﬂow matching = 連続な⾏動チャンクを⼀括⽣成するヘッド（逐次トークン⽣成より軽い）重い推論は間引き‧⾏動は毎ステップ → 1.1→15.4 Hz（14×）の正体 MoT の中⾝⾮埋め込み成分（FFN, W_Q/K/V/O, LayerNorm）は expert ごとに別重み self-attention は共有 → fast 側が⾔語 goal と latent CoT を両⽅参照可⼊⼒の⾮対称⾮同期周波数（論⽂ Fig.3）— slow＝疎（keyframe）/ fast＝毎ステップ、直近 latent を共有 attention 経由で参照 slow：⾔語 l ＋低頻度観測 I_slow ∕ fast：⾼頻度観測 I_fast のみ 9

10.

提案⼿法 ② Training Recipe ① ⼤規模ロボ事前学習 400K+ trajectory（Open-X-Embodiment, DROID, ROBOMIND ほか） 1 400K+ trajectories（OXE, DROID, ROBOMIND …）で dualexpert を慣らす 2 expert が単⼀ VLA 内で滑らかに相互作⽤する素地を作る ② Joint SFT slow：L_latent（cosine 回帰）∕ fast：L_flow（ﬂow matching） Stage 1 — Pretrain 2 Stage 2 — Joint SFT L_latent（cosine）＋ L_ﬂow を同時最適化。fast-slow ⽐ 1:1 / 1:2 / 1:4 を混合 fast-slow ⽐をランダム混合（1:1, 1:2, 1:4）で訓練 → デプロイ時に頻度を適応選択鍵混合⽐訓練は性能を落とさず、推論の robustness を上げる 3 Adaptive Deploy タスク‧状況に応じて協調周波数 κ を適応選択単⼀固定⽐でなく混合⽐で鍛える → 実機で「速さ ↔ 精度」を状況に応じて選べる 10

11.

実験実験設定 Backbone / Simulation / Real-World ⽐較対象 Janus-Pro（DeepSeek-LLM 1.5B）→ 総 3.3B。RGB 384² / 点群 1024 点、SigLIP‧ sim：OpenVLA / SpatialVLA / CogACT / CoT-VLA / π0.5 / Uni3D は frozen HybridVLA Sim：RLBench 10 タスク（Franka, CoppeliaSim）。100 traj/task、8×A800、20 real：π0.5（2D SOTA）/ SpatialVLA（3D SOTA）/ CoT-VLA（明 rollout×3 seed Real：3 プラットフォーム（Franka 単腕+双腕 / AgileX mobile / TienKung ⼈型 dexterous）、200 demo/task、15 rollout×3 Franka（単腕＋双腕）（論⽂ Fig.6-8）⽰ CoT） ‒ CoT-VLA は同じ Janus-Pro で再実装 → explicit vs latent の公平な純粋対決指標：success rate ＋ inference Hz AgileX mobile（4 arms）（論⽂ Fig.6-8） TienKung 2.0 humanoid（論⽂ Fig.6-8） 11

12.

実験結果 ① Simulation（RLBench）主結果 attention 可視化（Fig.4） LaST₀-3.3B：mean 82%、7/10 タスクで最⾼ no-CoT / explicit-CoT は対象‧ロボに注意が集まらない HybridVLA-7B（74%）を +8%、π0.5-3B（65%）を +17%、CogACT-7B（61%）を LaST₀ は操作対象＋ロボに集中 → 時空間理解の裏付け +21% 速度 15.4 Hz ∕ CoT-VLA（1.1 Hz）の 14×、π0.5（13.8 Hz）と同等 ‒ 3.3B で 7B 級 baseline を上回りつつ 14× ⾼速 — 速さと精度は⼆律背反でない attention（論⽂ Fig.4 抜粋）— 左: w/o CoT ∕ 中: explicit CoT ∕ 右: LaST CoT 12

13.

実験結果 ② Simulation（LIBERO）実験設定 4 suites（Spatial / Object / Goal / Long）× 各 10 タスク‧500 demos suite ごとに個別学習し、500 trials/suite で評価主結果 LaST₀：mean 98.1%（SOTA）— Spatial 99.2 / Object 99.6 / Goal 98.0 / Long 95.6 OpenVLA-OFT（97.1）‧π0.5（96.9）を上回り、explicit CoT の CoT-VLA（ 81.1）には +17% ‒ Spatial / Object（新レイアウト‧新物体への汎化）はほぼ飽和（99%+） LIBERO 4 suites の成功率（論⽂ Table 2）解釈 LIBERO-Long 95.6 vs π0.5 92.4 / OFT 94.5 — RLBench‧実機と同じく⻑ horizon で最も差が出る compact latent reasoning の利点が sim ベンチを跨いで⼀貫（RLBench 0.82 / LIBERO 98.1%） 13

14.

実験結果 ③ Ablation — 4 つの設計選択 (a) latent モダリティ：単独でも 74-76% でほぼ並ぶが、全部組合せで 82% 共通則：増やすほど良い、ではなく適量の latent が最適 ‒ ⾒た⽬‧幾何‧⾃⼰状態は相補的 — どれか 1 つでは世界状態を表しきれない「1 トークン / 4 step で飽和」は LVR の「固定 4-8 トークンで飽和」と同現 (b) トークン数：0→68% / 1→82%、2 個以上に増やしても改善なし象 — 少数 latent への圧縮可能性が 2 論⽂で独⽴に再現 ‒ 未来 1 step の必要情報は 1 トークンに圧縮可能。0 個の⼤幅劣化が latent CoT ⾃体の効果を⽰す (c) 時間被覆：0→68% / 4 step→82%、4 超で頭打ち → 4 keyframe 採⽤ ‒ 中期の⾒通しが最適 — 遠すぎる未来の予測は不確実でノイズ源になる (d) 協調周波数：固定⽐は 75-79% ⽌まり（1:8 は 74% に低下）、混合訓練で 82% ‒ 単⼀⽐への過学習を防ぎ、デプロイ時の頻度選択（速さ↔精度）にも頑健になる 14

15.

実験結果 ④ Real-World ＆ Long-Horizon 実機 3 プラットフォーム Franka（6 タスク平均）：0.72 vs π0.5 0.59 / CoT-VLA 0.50 / SpatialVLA 0.41 （+13%） AgileX mobile：+14% ∕ TienKung dexterous：+14%（対 π0.5） Long-horizon（3 連続） LaST₀：0.66 → 0.47 → 0.33 ∕ π0.5：0.47 → 0.20 → 0.07 実機ロールアウト例（論⽂ Fig.9 抜粋） horizon が伸びるほど差が拡⼤ ‒ 時間拡張された latent がタスク進⾏‧環境状態の coherence を維持 — 単発精度でなく「継続成功」で差が出る実機の成功率（論⽂ Table 3 より） 15

16.

まとめまとめ＆限界本論⽂の貢献限界 ① 時空間 latent CoT 空間 — 未来の意味（RGB）‧幾何（点群）‧固有受容を精密な接触で失敗が残る — 拭き残し‧⽫同⼠の衝突‧ハンドル位置ずれ（論各 1 トークンで⾃⼰回帰‧時間展開⽂ Fig.12 → Appendix） ‒ ⾔語化しにくい物理 dynamics を、離散 vocab を介さず連続 latent のまま推論する問題 latent の中⾝は直接検証されていない — 解析は attention 可視化まで。何を設定 ② Dual-System MoT — 低頻度 latent 推論 × ⾼頻度 ﬂow-matching ⾏動を shared attention で協調 ‒ explicit CoT ⽐ 14×（15.4 Hz）で reason-before-act を実時間制御に載せた ③ 幅広い実証 — sim 2 種＋実機 3 プラットフォームで⼀貫 SOTA ‒ RLBench 0.82 / LIBERO 98.1% / 実機 +13〜14%。⻑ horizon ほど差が拡⼤ ④ 設計則の提⽰ — ablation で「1 トークン‧4 keyframe‧混合周波数」＝適符号化しているかは開いた課題訓練には点群（depth）データが必要 — 推論時は不要だが、データ収集側の要件としては残る SFT（模倣）のみ — 失敗からの回復や探索（RL）は扱っていない汎化の評価は新レイアウト‧新物体（LIBERO）まで — 未知タスクへのゼロショットは対象外量 latent の経験則総括：explicit CoT の 2 つの壁（推論遅延‧⾔語空間の表現限界）を、latent 化 × dual-system で同時に解消 16

17.

参考⽂献 References Liu et al. “LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic VLA.” ICML 2026. arXiv:2601.05248 / vla-last0.github.io Hao et al. “Training LLMs to Reason in a Continuous Latent Space” (Coconut). 2024. Wang et al. “Monet: Reasoning in Latent Visual Space Beyond Images and Language.” 2025. Li et al. “Latent Visual Reasoning (LVR).” ICLR 2026.（前回輪読） Zhao et al. “CoT-VLA: Visual Chain-of-Thought Reasoning for VLA.” 2025. Intelligence et al. “π0.5: A VLA Model with Open-World Generalization.” 2025. Liu et al. “HybridVLA: Collaborative Diﬀusion and Autoregression in a Uniﬁed VLA.” 2025. Qu et al. “SpatialVLA: Exploring Spatial Representations for VLA.” 2025. Li et al. “CogACT: A Foundational VLA Model.” 2024. Kim et al. “OpenVLA: An Open-Source VLA Model.” 2024. Chen et al. “Janus-Pro: Uniﬁed Multimodal Understanding and Generation.” 2025. Zhai et al. “Sigmoid Loss for Language Image Pre-training” (SigLIP). 2023. Zhou et al. “Uni3D: Exploring Uniﬁed 3D Representation at Scale.” 2023. Open X-Embodiment Collab. “Open X-Embodiment / RT-X.” 2023. ∕ DROID 2024 ∕ ROBOMIND 2025. James et al. “RLBench: The Robot Learning Benchmark.” 2020. Tan et al. “LCDrive.” 2025. ∕ Huang et al. “ThinkAct.” 2025. Ma et al. “A Survey on Vision-Language-Action Models for Embodied AI.” 2024. arXiv:2405.14093（p3 図の出典） 17

18.

Appendix 失敗例から⾒る限界（論⽂ Fig.12） 3 つの失敗モード Manipulation Height：アームが⼗分下がらず拭き残し Object Collision：⽫同⼠が衝突して重ねられない Manipulation Position：指がハンドルに届かず引けない共通するのは接触⼨前の精密さ（⾼さ‧位置‧⼲渉）で崩れること latent が物理を「どこまで」表せているか（中⾝の可視化‧検証）という残課題と地続き（→ p16 の限界）失敗例（論⽂ Fig.12）— ⾚枠が失敗箇所 18