【DL輪読会】"Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper"

>100 Views

November 13, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper Tatsuya Kamijo, Matsuo-Iwasawa Lab, M2 1

2.

書誌情報 題名 Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper 著者 Xinyue Zhu*, binghao Huang*, Yunzhu Li 所属 Columbia University 会議 NeurIPS 2025 概要 • UMIを触覚領域に拡張し,スケーラブルな visuo-tactile データ収集 • 大規模 visuo-tactile データで encoder を事前学習する有用性 ※スライド中の図表は該当論文から引用 2

3.

概要 スケーラブルな visuo-tactile データ収集システムと大規模事前学習に基づく方策学習 3

4.

背景 スケーラブルなデータ収集システムの発展と触覚統合の難しさ • (左)UMI [Chi+, 2024] により,ロボットを使わない低コストなデータ収集 が実現 • (右)低コストな光学式触覚センサは分厚く,接触可能領域が小さい UMI [Chi+, 2024] Chi et al., "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion", RSS 2023. DIGIT GelSight Mini 4

5.

データ収集システム UMIに薄く柔らかい触覚センサを貼付 • ピエゾ抵抗型圧力センサ(圧力に応じて電気抵抗が変化する現象を利用) 5

6.

大規模 visuo-tactile データ収集 計2700デモ,43タスクで収集 6

7.

エンコーダ事前学習と方策学習 visuo-tactile エンコーダを大規模データで事前学習して各タスクで fine-tuning • 事前学習時の損失関数:触覚の (masked) 再構成誤差 • Cross-modal fusion で画像と触覚を統合 • 事前学習で得られたエンコーダ出力を Diffusion Policy に条件付けて学習 7

8.

実験:事前学習されたエンコーダの定性的評価 触覚の一部を maskしても,視覚を使って触覚を再構成できている • ViTの最終層のattentionを見ると,接触部 分をきちんと見ている (右図中央列) • 触覚の再構成を見ると,OODタスクでもうま く再構成できている 8

9.

実験:事前学習データサイズの ablation 事前学習に使うデータセットが大きいほど触覚再構成誤差は小さくなる • (左)実際の画像・触覚データと masked 触覚データ • (右上)事前学習データ数と触覚再構成誤差の関係:事前学習データが多い方が良い • (右下)事前学習データを増やすに連れて予測が正確になる (定性的評価) 9

10.

実験:方策学習の評価方法 触覚が必要なタスク4つを使用 • タスク – – – – Test Tube Collection Pencil Insertion Fluid Transfer Whiteboard Erasing • Baseline – Vision-Only – Ours w/o Cross-Attention • concat (vision + tactile) – Ours w/o Pretraining – Ours w/ Pretraining 10

11.

実験:方策学習の評価結果 エンコーダ事前学習 + Cross-Attention が最も高い性能 11

12.

実験:事前学習の ablation 方策学習に使うタスクデータが少ない領域で特に事前学習の有効性が顕著 12

13.

まとめ • スケーラブルな visuo-tactile データ収集を可能にするポータブルなハードウェ アを提案 • 提案ハードウェアを使って集めた大規模データで visuo-tactile エンコーダを事前学 習することで,後段の方策学習の性能向上 に大きく寄与することを確認 13