>100 Views
July 02, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model Hiroto Osaka, Matsuo Iwasawa Lab, M2 http://deeplearning.jp/
書誌情報 Paper Information 論⽂タイトル LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-LanguageAction Model 会議 / 著者 ICML 2026 Zhuoyang Liu, Jiaming Liu, Hao Chen ほか(全 14 名) ‒ Peking Univ. / Beijing Humanoid Robotics Center / CUHK / Simplexity Robotics 概要 明⽰的 CoT VLA の「推論遅延」と「⾔語空間の表現限界」を latent な時空間 CoT で解消 未来の 視覚 / 3D 構造 / 固有受容 を latent で⾃⼰回帰予測 → dualsystem MoT で実時間動作 実世界 +13% / +14% / +14%、対 explicit-CoT 14× ⾼速化 2
背景① VLA と reason-before-act VLA とは VLM の意味理解‧常識推論を継承し、ロボの low-level 制御と統合 ‒ 出⼒は連続値の低レベル制御信号 — ⾔語トークンとは性質が異なる系列 指⽰ l + 観測 I → ⾏動系列 a(例: 7-DoF end-effector, SE(3)) reason-before-act の潮流 ① テキスト CoT — ⾔語で計画を書く(π0.5, Embodied CoT) ② 未来画像予測 — 次フレームを描いてから動く(CoT-VLA) ③ 未来マルチモーダル予測 — より細かい将来状態を予測 ⼀般 VLM の CoT パラダイムが VLA に輸⼊されつつある — ただし robot 固有の制約がある(→次⾴) VLA の⼀般形 — Ma et al., “A Survey on Vision-Language-Action Models for Embodied AI” (arXiv:2405.14093) Fig. より引⽤ 3
背景② 明⽰的 CoT VLA の 2 つの限界 限界① 推論遅延(latency) ⾃⼰回帰⽣成は計算オーバーヘッドが不可避 ‒ ロボは 10 Hz 級の closed-loop 制御が前提 — 1 ⾏動ごとの⻑い⽣成は間に合わない 実時間性↓ → 時間分解能↓ → closed-loop 制御の時間的⼀貫性が崩れる 例:explicit CoT の CoT-VLA は 1.1 Hz(制御に全く不⾜) 限界② ⾔語空間ボトルネック 推論が⾔語空間に閉じる → ⾔葉にしにくい物理属性(ineffable)を忠実に表せ ない ‒ 例: 接触⼒‧微妙な位置関係‧姿勢の連続変化は⾔語トークンに離散化しにくい しかしロボは物理世界を推論し相互作⽤する必要がある → 「遅い」「表せない」の 2 点が LaST₀ の出発点 4
背景③ Latent CoT という解 & 本研究の位置づけ Latent CoT の系譜 観点 LVR (ICLR'26) LaST₀ (ICML'26) ドメイン VLM 知覚 VLA 操作 latent の中⾝ ROI パッチ(視覚のみ) RGB+点群+固有受容 時間 なし 未来キーフレーム 教師信号 MSE cosine 類似度 ⾼速化 固定トークン数 ⾮同期周波数 構造 単⼀ MLLM dual-system MoT RL GRPO latent なし(SFT のみ) ⼀般 LLM:Coconut(連続 latent で推論)が契機 視覚拡張:Mirage / Monet / latent visual reasoning 群 Embodied:LCDrive(運転)/ ThinkAct(motion plan 圧縮) LaST₀ の⽴ち位置 ロボ操作に特化し、物理的に接地した latent で推論(意味+幾何+ロボ状態) LVR は「知覚」、LaST₀ は「⾏動」 — 同じ latent CoT を空間 × 時間 × ⾼速化 の 3 ⽅向に増築 5
提案⼿法 LaST₀ の全体像(2 本柱) 2 本柱 柱① Spatio-Temporal Latent CoT 空間 = 何を latent で考えるか ‒ 未来の RGB / 点群 / 固有受容 を⾃⼰回帰予測 柱② Dual-System MoT = どう速く動かすか ‒ slow 推論 expert(低頻度)+ fast ⾏動 expert(⾼頻度) reason(slow)と act(fast)を分離しつつ、shared attention で繋ぐ のが⼼臓部 基盤 Janus-Pro(DeepSeek-LLM 1.5B, 24 層, d=2048)を MoT dual-system に 改造 ‒ ⾮埋め込み層(FFN‧QKV 等)を expert 別に複製し、attention だけ共有 両 expert とも同じ事前学習 VLM から初期化 LaST₀ Architecture(論⽂ Fig.2a)— 2 experts + shared attention + flow matching 6
提案⼿法 ① Spatio-Temporal Latent CoT 空間 3 モダリティ(未来ステップ k ごと) 視覚 z^v_k:未来 RGB → frozen SigLIP-Large(384²) 幾何 z^p_k:未来点群 → Uni3D(訓練時のみ∕推論では使わない) ‒ 教師信号を作るためだけ → デプロイ時のセンサ要件を増やさない設計 固有受容 z^s_k:未来ロボ状態 → action tokenizer トークン効率 & 系列構造 average pooling で各モダリティ 1 トークンに圧縮 → interleave(⻑さ 3×H) ‒ 1 トークンで⾜りる(増やしても改善しない)ことは ablation で確認(→ p14 (b)) <latent_start> / <latent_end> / <latent_pad> の特殊トークンで区切る 訓練:pad を Z_GT で置換(teacher forcing)∕推論:pad を⾃⼰回帰で埋める latent 構築(論⽂ Fig.2b 上段)— 3 encoders → 各 1 トークン → interleave 7
提案⼿法 ① Latent Supervision 戦略 教師 latent の作り⽅(アノテーション不要) 未来キーフレームの実観測を frozen encoder に通し GT latent Z_GT を得る ‒ SigLIP(RGB)/ Uni3D(点群)/ action tokenizer(状態)→ 各 1 トークン(図‧上段) slow expert は指⽰‧観測‧過去 latent を⽂脈に、次の latent ẑ_t を⾃⼰回帰予測 ‒ 教師は軌跡データから⾃動構築できる — ⼈⼿ラベル不要 損失:cosine 類似度(連続ベクトルの回帰) ⼤きさ(ノルム)でなく⽅向を揃える(directional alignment) ‒ 3 encoder の embedding はスケールがバラバラ — ノルムまで合わせる MSE より、⽅向だけ合わせる ⽅が 3 モダリティ共通の教師に向く latent の教師と損失(論⽂ Fig.2b)— 下段: slow expert の予測列と GT 列を cosine 類似度で整列 何が嬉しいか 離散 vocab に落とさず、⾔語化しにくい物理中間値をそのまま運べる(背景② の解消) 8
提案⼿法 ② Dual-System Coordination ⾮同期周波数(asynchronous frequency) 更新⽐ κ ∈ {2,4,8} slow 推論 expert:キーフレームのみ起動(t mod κ = 0)→ latent CoT ⽣成 fast ⾏動 expert:毎ステップ起動 → flow matching で⾏動、直近 latent に条件付け ‒ flow matching = 連続な⾏動チャンクを⼀括⽣成するヘッド(逐次トークン⽣成より軽い) 重い推論は間引き‧⾏動は毎ステップ → 1.1→15.4 Hz(14×)の正体 MoT の中⾝ ⾮埋め込み成分(FFN, W_Q/K/V/O, LayerNorm)は expert ごとに別重み self-attention は共有 → fast 側が⾔語 goal と latent CoT を両⽅参照可 ⼊⼒の⾮対称 ⾮同期周波数(論⽂ Fig.3)— slow=疎(keyframe)/ fast=毎ステップ、直近 latent を共有 attention 経由で参照 slow:⾔語 l + 低頻度観測 I_slow ∕ fast:⾼頻度観測 I_fast のみ 9
提案⼿法 ② Training Recipe ① ⼤規模ロボ事前学習 400K+ trajectory(Open-X-Embodiment, DROID, ROBOMIND ほか) 1 400K+ trajectories(OXE, DROID, ROBOMIND …)で dualexpert を慣らす 2 expert が単⼀ VLA 内で滑らかに相互作⽤する素地を作る ② Joint SFT slow:L_latent(cosine 回帰)∕ fast:L_flow(flow matching) Stage 1 — Pretrain 2 Stage 2 — Joint SFT L_latent(cosine)+ L_flow を同時最適化。fast-slow ⽐ 1:1 / 1:2 / 1:4 を混合 fast-slow ⽐をランダム混合(1:1, 1:2, 1:4)で訓練 → デプロイ時に頻度を適応選 択 鍵 混合⽐訓練は性能を落とさず、推論の robustness を上げる 3 Adaptive Deploy タスク‧状況に応じて協調周波数 κ を適応選択 単⼀固定⽐でなく混合⽐で鍛える → 実機で「速さ ↔ 精度」を状況に応じて選べ る 10
実験 実験設定 Backbone / Simulation / Real-World ⽐較対象 Janus-Pro(DeepSeek-LLM 1.5B)→ 総 3.3B。RGB 384² / 点群 1024 点、SigLIP‧ sim:OpenVLA / SpatialVLA / CogACT / CoT-VLA / π0.5 / Uni3D は frozen HybridVLA Sim:RLBench 10 タスク(Franka, CoppeliaSim)。100 traj/task、8×A800、20 real:π0.5(2D SOTA)/ SpatialVLA(3D SOTA)/ CoT-VLA(明 rollout×3 seed Real:3 プラットフォーム(Franka 単腕+双腕 / AgileX mobile / TienKung ⼈型 dexterous)、200 demo/task、15 rollout×3 Franka(単腕+双腕)(論⽂ Fig.6-8) ⽰ CoT) ‒ CoT-VLA は同じ Janus-Pro で再実装 → explicit vs latent の公平な純粋対 決 指標:success rate + inference Hz AgileX mobile(4 arms)(論⽂ Fig.6-8) TienKung 2.0 humanoid(論⽂ Fig.6-8) 11
実験結果 ① Simulation(RLBench) 主結果 attention 可視化(Fig.4) LaST₀-3.3B:mean 82%、7/10 タスクで最⾼ no-CoT / explicit-CoT は対象‧ロボに注意が集まらない HybridVLA-7B(74%)を +8%、π0.5-3B(65%)を +17%、CogACT-7B(61%)を LaST₀ は操作対象+ロボに集中 → 時空間理解の裏付け +21% 速度 15.4 Hz ∕ CoT-VLA(1.1 Hz)の 14×、π0.5(13.8 Hz)と同等 ‒ 3.3B で 7B 級 baseline を上回りつつ 14× ⾼速 — 速さと精度は⼆律背反でない attention(論⽂ Fig.4 抜粋)— 左: w/o CoT ∕ 中: explicit CoT ∕ 右: LaST CoT 12
実験結果 ② Simulation(LIBERO) 実験設定 4 suites(Spatial / Object / Goal / Long)× 各 10 タスク‧500 demos suite ごとに個別学習し、500 trials/suite で評価 主結果 LaST₀:mean 98.1%(SOTA)— Spatial 99.2 / Object 99.6 / Goal 98.0 / Long 95.6 OpenVLA-OFT(97.1)‧π0.5(96.9)を上回り、explicit CoT の CoT-VLA( 81.1)には +17% ‒ Spatial / Object(新レイアウト‧新物体への汎化)はほぼ飽和(99%+) LIBERO 4 suites の成功率(論⽂ Table 2) 解釈 LIBERO-Long 95.6 vs π0.5 92.4 / OFT 94.5 — RLBench‧実機と同じく⻑ horizon で最も差が出る compact latent reasoning の利点が sim ベンチを跨いで⼀貫(RLBench 0.82 / LIBERO 98.1%) 13
実験結果 ③ Ablation — 4 つの設計選択 (a) latent モダリティ:単独でも 74-76% でほぼ並ぶが、全部組合せで 82% 共通則:増やすほど良い、ではなく適量の latent が最適 ‒ ⾒た⽬‧幾何‧⾃⼰状態は相補的 — どれか 1 つでは世界状態を表しきれない 「1 トークン / 4 step で飽和」は LVR の「固定 4-8 トークンで飽和」と同現 (b) トークン数:0→68% / 1→82%、2 個以上に増やしても改善なし 象 — 少数 latent への圧縮可能性が 2 論⽂で独⽴に再現 ‒ 未来 1 step の必要情報は 1 トークンに圧縮可能。0 個の⼤幅劣化が latent CoT ⾃体の効果を⽰す (c) 時間被覆:0→68% / 4 step→82%、4 超で頭打ち → 4 keyframe 採⽤ ‒ 中期の⾒通しが最適 — 遠すぎる未来の予測は不確実でノイズ源になる (d) 協調周波数:固定⽐は 75-79% ⽌まり(1:8 は 74% に低下)、混合訓練で 82% ‒ 単⼀⽐への過学習を防ぎ、デプロイ時の頻度選択(速さ↔精度)にも頑健になる 14
実験結果 ④ Real-World & Long-Horizon 実機 3 プラットフォーム Franka(6 タスク平均):0.72 vs π0.5 0.59 / CoT-VLA 0.50 / SpatialVLA 0.41 (+13%) AgileX mobile:+14% ∕ TienKung dexterous:+14%(対 π0.5) Long-horizon(3 連続) LaST₀:0.66 → 0.47 → 0.33 ∕ π0.5:0.47 → 0.20 → 0.07 実機ロールアウト例(論⽂ Fig.9 抜粋) horizon が伸びるほど差が拡⼤ ‒ 時間拡張された latent がタスク進⾏‧環境状態の coherence を維持 — 単発精度でなく「継続成功」で差が出る 実機の成功率(論⽂ Table 3 より) 15
まとめ まとめ & 限界 本論⽂の貢献 限界 ① 時空間 latent CoT 空間 — 未来の意味(RGB)‧幾何(点群)‧固有受容を 精密な接触で失敗が残る — 拭き残し‧⽫同⼠の衝突‧ハンドル位置ずれ(論 各 1 トークンで⾃⼰回帰‧時間展開 ⽂ Fig.12 → Appendix) ‒ ⾔語化しにくい物理 dynamics を、離散 vocab を介さず連続 latent のまま推論する問題 latent の中⾝は直接検証されていない — 解析は attention 可視化まで。何を 設定 ② Dual-System MoT — 低頻度 latent 推論 × ⾼頻度 flow-matching ⾏動を shared attention で協調 ‒ explicit CoT ⽐ 14×(15.4 Hz)で reason-before-act を実時間制御に載せた ③ 幅広い実証 — sim 2 種+実機 3 プラットフォームで⼀貫 SOTA ‒ RLBench 0.82 / LIBERO 98.1% / 実機 +13〜14%。⻑ horizon ほど差が拡⼤ ④ 設計則の提⽰ — ablation で「1 トークン‧4 keyframe‧混合周波数」= 適 符号化しているかは開いた課題 訓練には点群(depth)データが必要 — 推論時は不要だが、データ収集側の 要件としては残る SFT(模倣)のみ — 失敗からの回復や探索(RL)は扱っていない 汎化の評価は新レイアウト‧新物体(LIBERO)まで — 未知タスクへのゼロ ショットは対象外 量 latent の経験則 総括:explicit CoT の 2 つの壁(推論遅延‧⾔語空間の表現限界)を、latent 化 × dual-system で同時に解消 16
参考⽂献 References Liu et al. “LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic VLA.” ICML 2026. arXiv:2601.05248 / vla-last0.github.io Hao et al. “Training LLMs to Reason in a Continuous Latent Space” (Coconut). 2024. Wang et al. “Monet: Reasoning in Latent Visual Space Beyond Images and Language.” 2025. Li et al. “Latent Visual Reasoning (LVR).” ICLR 2026.(前回輪読) Zhao et al. “CoT-VLA: Visual Chain-of-Thought Reasoning for VLA.” 2025. Intelligence et al. “π0.5: A VLA Model with Open-World Generalization.” 2025. Liu et al. “HybridVLA: Collaborative Diffusion and Autoregression in a Unified VLA.” 2025. Qu et al. “SpatialVLA: Exploring Spatial Representations for VLA.” 2025. Li et al. “CogACT: A Foundational VLA Model.” 2024. Kim et al. “OpenVLA: An Open-Source VLA Model.” 2024. Chen et al. “Janus-Pro: Unified Multimodal Understanding and Generation.” 2025. Zhai et al. “Sigmoid Loss for Language Image Pre-training” (SigLIP). 2023. Zhou et al. “Uni3D: Exploring Unified 3D Representation at Scale.” 2023. Open X-Embodiment Collab. “Open X-Embodiment / RT-X.” 2023. ∕ DROID 2024 ∕ ROBOMIND 2025. James et al. “RLBench: The Robot Learning Benchmark.” 2020. Tan et al. “LCDrive.” 2025. ∕ Huang et al. “ThinkAct.” 2025. Ma et al. “A Survey on Vision-Language-Action Models for Embodied AI.” 2024. arXiv:2405.14093(p3 図の出典) 17
Appendix 失敗例から⾒る限界(論⽂ Fig.12) 3 つの失敗モード Manipulation Height:アームが⼗分下がらず拭き残し Object Collision:⽫同⼠が衝突して重ねられない Manipulation Position:指がハンドルに届かず引けない 共通するのは接触⼨前の精密さ(⾼さ‧位置‧⼲渉)で崩れること latent が物理を「どこまで」表せているか(中⾝の可視化‧検証)とい う残課題と地続き(→ p16 の限界) 失敗例(論⽂ Fig.12)— ⾚枠が失敗箇所 18