【DL輪読会】LoFTR: Detector-Free Local Feature Matching with Transformers

2.6K Views

April 23, 21

スライド概要

2021/04/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] LoFTR: Detector-Free Local Feature Matching with Transformers Kento Doi, Matsuo Lab http://deeplearning.jp/ 1

2.

紹介する論⽂ • LoFTR: Detector-Free Local Feature Matching with Transformers • • • • Conference arXiv Project page GitHub : CVPR2021 : https://arxiv.org/abs/2104.00680 : https://zju3dv.github.io/loftr/ : https://github.com/zju3dv/LoFTR • Transformerを⽤いた画像マッチングの⼿法の提案 üDense matching üDetector-free üHigh-quality matches on regions with: • low-texture • repetitive patterns https://zju3dv.github.io/loftr/

3.

Matches on a low-texture area https://zju3dv.github.io/loftr/

4.

Qualitative comparison with SuperGlue https://zju3dv.github.io/loftr/

5.

背景 • 特徴点マッチング • 異なる視点の画像間で同じ物体の特徴点を対応づけるタスク • 特徴点の検出→記述⼦の計算→マッチング のパイプライン • Pros & Cons ü特徴点を絞り込むことで探索空間を削減できる テクスチャの乏しいシーンが苦⼿ 繰り返しのパターンに弱い 視点変化、照明条件の変化 • Consへの対策:Detector-freeかつpixel-wiseの密なマッチング • CNNを⽤いる場合、受容野の広さが限られるという課題 ØTransformerによる⼤域的なコンテキストを考慮したマッチングを提案

6.

関連研究 : SuperGlue • SuperGlue: Learning Feature Matching with Graph Neural Networks (ECCV2020) • • • • GNN + 最適輸送アルゴリズムによる特徴点マッチング GNNにself-/cross-attentionを導⼊ 最適輸送アルゴリズムでマッチングを学習 密なマッチングではない P.-E. Sarlin et al. SuperGlue: Learning Feature Matching with Graph Neural Networks. ECCV, 2020.

7.

提案⼿法 : LoFTR • LoFTR : Local Feature Transformer • 4つのモジュールから構成されるネットワーク J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

8.

1. Local Feature Network • ⼊⼒:画像ペア (𝐼 ! , 𝐼 " ) • 出⼒:2枚の特徴マップ • それぞれ1/8, 1/2 スケール • FPNネットワーク J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

9.

2. Local Feature Transformer (LoFTR) Module • ⼊⼒:パッチに分割した特徴マップ (1/8スケールの⽅) • 出⼒:パッチの総数と同じ数の特徴ベクトル • self-attentionとcross-attentionを繰り返すTransformer (左図) • 計算量削減のため、Linear Attention (右図) を使⽤ J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

10.

3. Matching Module • ⼊⼒:LoFTRモジュールの出⼒ • 出⼒:割り当て⾏列(マッチングを表現する0, 1の⾏列) • 最適輸送アルゴリズムにより微分可能なマッチングを⾏う • ⾏・列⽅向の正規化を繰り返す J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

11.

4. Coarse-to-fine Module • ⼊⼒:割り当て⾏列、1/2スケールの特徴マップ • 出⼒:ピクセルレベルのマッチング • correlationとsoftmaxによりサブピクセルレベルでマッチングを計算 J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

12.

Loss function • Coarse matching : クロスエントロピーロス • Fine matching : 回帰 (L2) ロス

13.

実験 4つのタスクで検証 1. 2. 3. 4. Homography estimation Relative post estimation Visual localization 提案⼿法の分析 タスク1 データセット タスク2 V, Balntas et al. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors. CVPR, 2017. タスク3 データセット J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021. C. Tofl et al.Long-Term Visual Localization Revisited. T-PAMI, 2020.

14.

1. Homography estimation • ホモグラフィ変換 (平⾯の幾何的な変換) のパラメータを推定 • 変換した場合のコーナー位置の誤差 (AUC) で評価

15.

2. Relative post estimation • 屋内環境 (ScanNet) と屋外環境 (MegaDepth) で検証 • Pose error (rotation, translationの両者を考慮した指標) で⽐較

16.

2. Relative post estimation • マッチングの結果を可視化 • マッチングの失敗を⾚で表⽰ • 視点・照明の変化が⼤きい場合、テクスチャが少ない場合でも⾼精度 J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

17.

3. Visual localization • カメラ姿勢 (6DoF) を3Dモデルに対して求めるタスク • 屋外データセット、屋内データセットで評価 • 時刻の変化、geometryの変化、テクスチャの乏しいシーンがデータセットに は含まれる 屋外データセット (day-night) 屋内データセット C. Tofl et al.Long-Term Visual Localization Revisited. T-PAMI, 2020. H. Taira et al. InLoc: Indoor visual localization with dense matching and view synthesis. CVPR, 2018.

18.

3. Visual localization • 閾値に対する正解率で⽐較 • SuperGlueと同等の性能 • Table 4の実験設定までは確認しきれず… (すみません) J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

19.

4.提案⼿法の分析 • Ablation study & Attentionの可視化 J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

20.

まとめ • Transformerを⽤いた密な画像マッチング⼿法の提案 • CNN + Transformer + Matching moduleにより実現 • SuperGlueを参考にしたアーキテクチャ • 複数の実験で、提案⼿法の有効性を確認 • 次のような難しいシチュエーションで従来⼿法より⾼性能 • ⼤きな視点変化 • テクスチャの乏しい画像 • ⼤きな照明条件の変化 • 疑問:実⽤性はあるか • モデルを⼩さくした実装で104msの時間が必要

21.

参考⽂献 • J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021. • P.-E. Sarlin et al. SuperGlue: Learning Feature Matching with Graph Neural Networks. ECCV, 2020. • V, Balntas et al. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors. CVPR, 2017. • C. Tofl et al.Long-Term Visual Localization Revisited. T-PAMI, 2020.