[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autonomous Robot Motion Generation”

806 Views

July 30, 21

#deep learning #Deep Learning #Robotics #Spatial Attention Point Network #Autonomous Robot Motion #Machine Learning

スライド概要

2021/07/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Spatial Attention Point Network for Deep-learning-based Robust Autonomous Robot Motion Generation” Koki Yamane, University of Tsukuba http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル – Spatial Attention Point Network for Deep-learning-based Robust Autonomous Robot Motion Generation • 著者 – Hideyuki Ichiwara, Hiroshi Ito, Kenjiro Yamamoto, Hiroki Mori, Tetsuya Ogata • 所属 – 早稲田大学尾形研究室 • https://arxiv.org/abs/2103.01598 2

https://arxiv.org/abs/2103.01598

概要 • オブジェクトを限定しない汎用的なpick-and-place • 画像を使った模倣学習 • end-to-end learning – タスクに必要な状態表現とタスク自体を同時に学習 • 画像を特徴点で表すことで必要な情報のみを抽出 – 画像特有の環境変化の影響を抑制してロバストな動作を実現 3

背景 • ロボットのタスクの大半はpick-and-place • 現状はオブジェクトごとに個別のアルゴリズムを設計して使用 – オブジェクトごとに物体検出の学習をしたり掴み方や運び方をプログラミングするのは大変 • 模倣学習 – 人間の操作したデータを教師データとして学習 – 明示的にプログラミングする必要がない – 比較的サンプル効率が高い – データを集めるのは大変 • 限られたデータで汎化性能を実現する必要がある 4

既存研究 • Deep Spatial Auto Encoder (DSAE) [Abbeel+, 2016] – CNNの最後に2D Softmaxを入れて注目すべき位置を抽出 – ヒューリスティックな後処理 • カルマンフィルタで値が飛ぶのを抑制 • 学習時の分布から離れた特徴点は削除 5

既存研究 • Deep Spatial Auto Encoder (DSAE) [Abbeel+, 2016] – 画像なしで強化学習を行い，集めた画像で表現学習してから画像あり強化学習 – 特徴点の位置と速度を状態とする – 4つのタスクで実験 6

提案手法 • Spatial Attention Point Network – 現在の画像と関節角を入力し，次ステップの画像と関節角を予測 – 2D Softmaxで特徴点抽出 – 通常の画像特徴量を別で抽出し，画像予測のみに利用 • 明るさや背景などの動作に関わらない情報はLSTMを通さないようにする 7

提案手法 • Loss関数 – 画像のMSE – 関節角のMSE – 前ステップの画像特徴点と現在の画像特徴点のMSE • 特徴点がなるべく動かないようにする正則化項 • 現実世界の物体は瞬間移動しないという事前知識を与える 8

補足 • 提案手法ではゼロパディングを積極的に用いている • ゼロパディングの有効性 – How much position information do convolutional neural networks encode?[Islam+, 2020] – CNNが暗黙的に各ピクセルの位置情報を保持しているという仮説を検証 – 画像から各ピクセルの位置を表す値を予測するタスク – パディングが全くないモデルはパディングを入れたモデルと比べて非常に精度が悪かった – パディングが位置を表すのに大きな役割を果たしていることを示唆 9

10.

実験 • 7自由度ロボットアーム • ２つのタスク – Picking task • 物体位置ごとに各4回のデータ – Pick-and-place task • 組み合わせごとに各3回のデータ • ベースライン – 2D Softmax + LSTM[Abbeel+, 2015] – DSAE＋LSTM[Abbeel+, 2016] – MRAE[Ogata+, 2020] 10

11.

実験 • 環境設定 – – – – 学習時と同じ環境明るさを変えた環境背景を変えた環境障害物を配置した環境 11

12.

結果 • Picking task – 100%の成功率を達成 • Pick-and-place task – 90%近い成功率を達成 • 環境変化しても成功率はほぼ変わらず 12

13.

結果 • LSTMの内部状態を主成分分析で可視化 – 提案手法は既存手法と比べて，物体の位置に応じて内部状態が均等に分布している – Placeでは内部状態が一点に収束 – Pickでは物体の位置に応じて内部状態が変化 – 物体の位置を内部状態に適切に反映している • 位置に対してロバスト • 内挿性能が高い 13

14.

まとめ • • • • 画像内の物体の位置を抽象的に学習次ステップの画像を予測して学習に利用 pickで100%,pick-and-placeで90％近くの成功率を達成明るさや背景などの状況の変化に対して汎化性能を持つ 14

15.

今後の課題 • タスクによって特徴点では必要な情報を表しきれない可能性がある – 物体の向きや種類，画像内のロボットの姿勢を解釈できない – 布や紐など，非剛体を扱うことはできるか • 画像のEncoder-Decoderは同時に学習するべきか？ – 同時に学習することでより最適な表現を学習できる – 並列処理できないLSTMが学習のボトルネックになる – 画像と動作という複数のLossを足すことで学習がやや不安定になる 15