[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization

>100 Views

July 07, 20

#deep learning #Deep Learning #Differentiable Mapping Networks #Visual Localization #Robotics #Spatial Structures

スライド概要

2020/07/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization Jumpei Arima http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル： Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization • 著者： Peter Karkus, Anelia Angelova, Vincent Vanhoucke, Rico Jonschkowski – first authorはNational University of Singapore – Robotics at Googleでのインターン中の成果 • 会議：ICRA2020 • project page: https://sites.google.com/view/differentiable-mapping • arxiv: https://arxiv.org/abs/2005.09530 2

背景 • Robot 学習の課題 – 実データのコストが高い、reality gap、Long horizon task、… • Visual Navigation – DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES[ICLR2020] • simでのvisual navigation方策獲得に2.5 billion steps(180 days of GPU-time) ・データ効率を上げる・従来のRoboticsの技術の活用・Robotics特有の事前知識の導入 3

背景 • Differentiable Algorithm Networks for Composable Robot Learning[RSS2019] – データ駆動とモデル駆動の利点を融合した手法 • Learning Explore Using Active Neural SLAM[CVPR2020] – habitat challenge2019優勝チームの手法 – Mapping, Localization, Planningを別々に学習(一部解析的手法含む) – 階層的なシステムで、サンプル効率・性能ともに向上 4

背景 • 微分可能なRobotics研究 5

問題設定 <Sparse visual mapping and localization> →street viewから得られるな情報(数視点からの画像)からMappingし与えられた画像から位置を推定する <課題> • 疎な情報だけからマッピングをする • 視点が大きく変わったところから推定する必要がある＜応用先＞ • 自動運転(都市環境での自己位置推定) • multi-robot mapping • 外観の変化が多い倉庫 etc. 6

背景 <良い地図表現とは> • 地図は環境の変化と下位タスク(自己位置推定など)のために柔軟に対応する必要がある • 少ないデータから空間構造を構築する必要がある <従来のマッピング> ＜DNNを用いた手法＞・空間構造・変化に対応しづらい・タスクごとに変更できない・柔軟に対応可能・タスクに特化したマップ生成可能・空間構造が欠ける 7

Proposed Method • DNNによる柔軟な環境表現と幾何情報による空間把握を組み合わせた方法を提案 →全体が微分可能なモデルなので、タスクに特化したマップ表現が可能 8

Proposed Method <Mapping> 数視点からの画像から潜在Mapを生成 <Egocentric Spatial Attention> query視点から潜在Mapを解釈するための注意機構 (query視点に潜在Mapを座標変換) <Particle Filter Localization> 微分可能なPFで自己位置推定 9

10.

Proposed Method <Mapping> • Context画像を画像埋め込み表現: 𝑉 𝑖 視点座標: 𝑠 𝑖 = (𝑥, 𝑦, 𝑠𝑖𝑛𝜑, 𝑐𝑜𝑠𝜑) で表現された潜在マップ m を生成 𝑚 = < 𝑉 𝑖 , 𝑠 𝑖 > 𝑖 = 1: 𝑁𝑐 • Feature Extractorは4層のCNN – Context画像間で重みは共有 10

11.

Proposed Method <Egocentric Spatial Attention> • query基準の空間構造に対しての注意機構 • query keyとview keysのスカラ積を重みとした Context画像埋め込み表現を重み付け和を算出 • 地図の空間構造を活用し、特徴量抽出の難易度を大幅に減少する 11

12.

Proposed Method ＜Particle Filter Localization＞ • Differentiable PFを用いて潜在マップとquery画像から自己位置推定を行う • 𝑏𝑡 𝑠 ≈< 𝑠𝑡𝑘 , log 𝜔𝑡𝑘 > 𝑘 = 1: 𝐾 – 𝑠𝑡𝑘 : ロボットの候補位置(query画像の視点)←初期分布𝑏0 – log 𝜔𝑡𝑘 : particleの対数尤度 m: View embedding map Observation Model log 𝜔𝑡𝑘 = 𝑘 +𝜂 log 𝑙𝜃 + log 𝜔𝑡−1 Transition Model 𝑘 𝑠𝑡𝑘 = 𝑓𝑇 (𝑠𝑡−1 −, ∆𝑡 ) 𝑠𝑡 = ෍ 𝜔𝑡𝑘 𝑠𝑡𝑘 𝑘 12

13.

Proposed Method <Observation Model> • particleの位置𝑠𝑡𝑘 と潜在マップ𝑚 を与えられたとき画像𝑄𝑡 を観測する条件付き対数確率 𝑙𝜃 (𝑄𝑡 , 𝑠𝑡𝑘 , 𝑚) ≈ log 𝑝(𝑄𝑡 |𝑠𝑡𝑘 , 𝑚) を推定 • Networkはparticleの対数尤度𝑙𝑡𝑘 = log 𝑝(𝑄𝑡 |𝑠𝑡𝑘 , 𝑚)を直接出力する 𝑘 log 𝜔𝑡𝑘 = log 𝑙𝜃 (𝑄𝑡 , 𝑠𝑡𝑘 , 𝑚) + log 𝜔𝑡−1 +𝜂 – 正規化されてないので 𝑘 log 𝜔𝑡 𝜂 = − log σ𝐾 𝑒 で正規化する 𝑗=1 • particle間で学習パラメータは共有 13

14.

Proposed Method ＜End-to-End training＞ • DMNは全体が微分可能であるので、localizationのタスクに対してマッピングを最適化するように学習が可能。 • 損失関数はMSE (αはハイパラ(0.5)) ℒ = 𝑠 − 𝑠∗ 2 = 𝑥 − 𝑥∗ 2 + (𝑦 − 𝑦 ∗ )2 + 𝛼(𝜑 − 𝜑∗ )2 コンテキストの数とパーティクルの数は重みを共有しているので変えることが可能 14

15.

Experiments <dataset> • sim: GQN dataset(データ量はGQNの1%) – Rooms(100k env * 10img), Mazes(960 env * 300 img) • real: Street View dataset – 40*40mの範囲からランダムに10画像をsample(train:3838746test: 16359) <評価> • Global LocalizationとTrackingにおける自己位置推定精度 – (x,yのRMSEが8.94m以下(範囲の約15%)のときglobal localizationが成功とする) 15

16.

Experiments ＜比較手法＞ • Mapping – Latent image map • 空間構造を明に表現しないnetwork – Latent vector map • Latent image mapのmap部分をvectorで表現 • Localization – Regression • 回帰によってposeを直接推定(DMNのparticleが一つと同じ) – Closet context • query poseに最も近いcontextのpose(画像の類似度による手法の上限としての指標) – Uninformed estimate • 初期分布から狀態遷移のみを考慮した場合(タスクの難しさを示す) 16

17.

Experiments <simでのGlobal Localization> • 複雑な環境になると(Rooms →Mazes) RegressionよりPFが優れていることがわかる 17

18.

Experiments <realでのGlobal Localization> • 提案手法であるView-embed(提案手法)とPF(提案手法)の双方が real dataの複雑で広範囲のlocalizationには効果的であることがわかる 18

19.

Experiments <5stepのtracking後の自己位置推定精度> • Street Viewで最も提案手法の有用性が示せてる • PFが複雑な環境で効果的 19

20.

Experiments <データ効率(Fig. 7)> 比較手法に比べてtrainingデータ量が少ない時に性能が高い＜Contextの数(Fig. 8,9)＞ Contextの数の上昇によっての成功率の増加率は提案手法が高い 20

21.

Experiments <長距離tracking精度 (Fig. 10) > PFが長距離を考えるには適している <particleの数 (Fig. 11) > 増やした方が良い結果(計算コストとトレードオフ) 21

22.

Conclusion • Sparseな画像のみが与えられるLocalizationに最適化された微分可能な地図生成ネットワーク(DMN)を提案 • Egocentric Spatial Attentionで空間的に構造化された潜在マップを用いることで、広範囲な複雑な環境において、学習データが少なくても適用できることを示した＜Future Work＞ • 世界中どこでもVisual Localizationを可能にする • 微分可能なVisual SLAMへの応用 22