[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization

>100 Views

July 07, 20

スライド概要

2020/07/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization Jumpei Arima http://deeplearning.jp/ 1

2.

書誌情報 • タイトル: Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization • 著者: Peter Karkus, Anelia Angelova, Vincent Vanhoucke, Rico Jonschkowski – first authorはNational University of Singapore – Robotics at Googleでのインターン中の成果 • 会議:ICRA2020 • project page: https://sites.google.com/view/differentiable-mapping • arxiv: https://arxiv.org/abs/2005.09530 2

3.

背景 • Robot 学習の課題 – 実データのコストが高い、reality gap、Long horizon task、… • Visual Navigation – DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES[ICLR2020] • simでのvisual navigation方策獲得に2.5 billion steps(180 days of GPU-time) ・データ効率を上げる ・従来のRoboticsの技術の活用 ・Robotics特有の事前知識の導入 3

4.

背景 • Differentiable Algorithm Networks for Composable Robot Learning[RSS2019] – データ駆動とモデル駆動の利点を融合した手法 • Learning Explore Using Active Neural SLAM[CVPR2020] – habitat challenge2019優勝チームの手法 – Mapping, Localization, Planningを別々に学習(一部解析的手法含む) – 階層的なシステムで、サンプル効率・性能ともに向上 4

5.

背景 • 微分可能なRobotics研究 5

6.

問題設定 <Sparse visual mapping and localization> →street viewから得られるな情報(数視点からの画像)からMappingし 与えられた画像から位置を推定する <課題> • 疎な情報だけからマッピングをする • 視点が大きく変わったところから 推定する必要がある <応用先> • 自動運転(都市環境での自己位置推定) • multi-robot mapping • 外観の変化が多い倉庫 etc. 6

7.

背景 <良い地図表現とは> • 地図は環境の変化と下位タスク(自己位置推定など)のために 柔軟に対応する必要がある • 少ないデータから空間構造を構築する必要がある <従来のマッピング> <DNNを用いた手法> ・空間構造 ・変化に対応しづらい ・タスクごとに変更できない ・柔軟に対応可能 ・タスクに特化したマップ生成可能 ・空間構造が欠ける 7

8.

Proposed Method • DNNによる柔軟な環境表現と幾何情報による空間把握を 組み合わせた方法を提案 →全体が微分可能なモデルなので、タスクに特化したマップ表現が可能 8

9.

Proposed Method <Mapping> 数視点からの画像から潜在Mapを生成 <Egocentric Spatial Attention> query視点から潜在Mapを解釈 するための注意機構 (query視点に潜在Mapを座標変換) <Particle Filter Localization> 微分可能なPFで自己位置推定 9

10.

Proposed Method <Mapping> • Context画像を 画像埋め込み表現: 𝑉 𝑖 視点座標: 𝑠 𝑖 = (𝑥, 𝑦, 𝑠𝑖𝑛𝜑, 𝑐𝑜𝑠𝜑) で表現された潜在マップ m を生成 𝑚 = < 𝑉 𝑖 , 𝑠 𝑖 > 𝑖 = 1: 𝑁𝑐 • Feature Extractorは4層のCNN – Context画像間で重みは共有 10

11.

Proposed Method <Egocentric Spatial Attention> • query基準の空間構造に対しての注意機構 • query keyとview keysのスカラ積を重みとした Context画像埋め込み表現を重み付け和を算出 • 地図の空間構造を活用し、特徴量抽出の難易度を大幅に減少する 11

12.

Proposed Method <Particle Filter Localization> • Differentiable PFを用いて潜在マップとquery画像から自己位置推定を行う • 𝑏𝑡 𝑠 ≈< 𝑠𝑡𝑘 , log 𝜔𝑡𝑘 > 𝑘 = 1: 𝐾 – 𝑠𝑡𝑘 : ロボットの候補位置(query画像の視点)←初期分布𝑏0 – log 𝜔𝑡𝑘 : particleの対数尤度 m: View embedding map Observation Model log 𝜔𝑡𝑘 = 𝑘 +𝜂 log 𝑙𝜃 + log 𝜔𝑡−1 Transition Model 𝑘 𝑠𝑡𝑘 = 𝑓𝑇 (𝑠𝑡−1 −, ∆𝑡 ) 𝑠𝑡 = ෍ 𝜔𝑡𝑘 𝑠𝑡𝑘 𝑘 12

13.

Proposed Method <Observation Model> • particleの位置𝑠𝑡𝑘 と潜在マップ𝑚 を与えられたとき 画像𝑄𝑡 を観測する条件付き対数確率 𝑙𝜃 (𝑄𝑡 , 𝑠𝑡𝑘 , 𝑚) ≈ log 𝑝(𝑄𝑡 |𝑠𝑡𝑘 , 𝑚) を推定 • Networkはparticleの対数尤度𝑙𝑡𝑘 = log 𝑝(𝑄𝑡 |𝑠𝑡𝑘 , 𝑚)を直接出力する 𝑘 log 𝜔𝑡𝑘 = log 𝑙𝜃 (𝑄𝑡 , 𝑠𝑡𝑘 , 𝑚) + log 𝜔𝑡−1 +𝜂 – 正規化されてないので 𝑘 log 𝜔𝑡 𝜂 = − log σ𝐾 𝑒 で正規化する 𝑗=1 • particle間で学習パラメータは共有 13

14.

Proposed Method <End-to-End training> • DMNは全体が微分可能であるので、localizationのタスクに対して マッピングを最適化するように学習が可能。 • 損失関数はMSE (αはハイパラ(0.5)) ℒ = 𝑠 − 𝑠∗ 2 = 𝑥 − 𝑥∗ 2 + (𝑦 − 𝑦 ∗ )2 + 𝛼(𝜑 − 𝜑∗ )2 コンテキストの数とパーティクルの数は重みを共有しているので 変えることが可能 14

15.

Experiments <dataset> • sim: GQN dataset(データ量はGQNの1%) – Rooms(100k env * 10img), Mazes(960 env * 300 img) • real: Street View dataset – 40*40mの範囲からランダムに10画像をsample(train:3838746test: 16359) <評価> • Global LocalizationとTrackingにおける自己位置推定精度 – (x,yのRMSEが8.94m以下(範囲の約15%)のときglobal localizationが成功とする) 15

16.

Experiments <比較手法> • Mapping – Latent image map • 空間構造を明に表現しないnetwork – Latent vector map • Latent image mapのmap部分をvectorで表現 • Localization – Regression • 回帰によってposeを直接推定(DMNのparticleが一つと同じ) – Closet context • query poseに最も近いcontextのpose(画像の類似度による手法の上限としての指標) – Uninformed estimate • 初期分布から狀態遷移のみを考慮した場合(タスクの難しさを示す) 16

17.

Experiments <simでのGlobal Localization> • 複雑な環境になると(Rooms →Mazes) RegressionよりPFが優れていることがわかる 17

18.

Experiments <realでのGlobal Localization> • 提案手法であるView-embed(提案手法)とPF(提案手法)の双方が real dataの複雑で広範囲のlocalizationには効果的であることがわかる 18

19.

Experiments <5stepのtracking後の自己位置推定精度> • Street Viewで最も提案手法の有用性が示せてる • PFが複雑な環境で効果的 19

20.

Experiments <データ効率(Fig. 7)> 比較手法に比べてtrainingデータ量が少ない時に性能が高い <Contextの数(Fig. 8,9)> Contextの数の上昇によっての成功率の増加率は提案手法が高い 20

21.

Experiments <長距離tracking精度 (Fig. 10) > PFが長距離を考えるには適している <particleの数 (Fig. 11) > 増やした方が良い結果(計算コストとトレードオフ) 21

22.

Conclusion • Sparseな画像のみが与えられるLocalizationに最適化された 微分可能な地図生成ネットワーク(DMN)を提案 • Egocentric Spatial Attentionで空間的に構造化された潜在マップを 用いることで、広範囲な複雑な環境において、 学習データが少なくても適用できることを示した <Future Work> • 世界中どこでもVisual Localizationを可能にする • 微分可能なVisual SLAMへの応用 22