[DL輪読会]ReDet: A Rotation-equivariant Detector for Aerial Object Detection

>100 Views

May 21, 21

deep learning

スライド概要

2021/05/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.8K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.1K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.6K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] ReDet: A Rotation-equivariant Detector for Aerial Object Detection Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

http://deeplearning.jp/

書籍情報 • タイトル  ReDet: A Rotation-equivariant Detector for Aerial Object Detection • 著者  Jiaming Han, Jian Ding, Nan Xue, Gui-Song Xia (中国武漢大学) • CVPR2021に採択 • Paper  https://arxiv.org/abs/2103.07733 • Code  https://github.com/csuhan/ReDet 2

概要 • 航空写真における物体検出  物体のrotationを配慮すべき  oriented object detectionタスクでもいう  Oriented Bounding Boxes (OBBs)で対応 • 提案手法のcontribution  Backboneにrotation-equivariant CNNを導入し、rotation equivariance[1]とrotation invarianceをencode（oriented object detectionにおけるrotation equivarianceの導入が初）  RiRoI alignを提案し、rotation-equivariant特徴を抽出とrotation-invariant featureを抽出  ネットワークを軽量化すると同時に、SOTAを達成 [1] Equivariance（同変？） is a property that applying transformations to the input produces transformations of the feature in a predictable way 𝛷 𝑇𝑟 𝐼 = 𝑇𝑟 𝛷 𝐼 3

既往研究 - oriented object detection • 既往手法 – – – – – – – 様々な角度で回転させたanchorで、bboxの位置を回帰 → 計算量が増加 RoI transformerで、普通のRoIをrotated RoIに変換し、anchor数を削減物体領域を別の方法で表現（Gliding vertex/mask） R3Det、S2A-Netは、一般の特量マップとrotated bboxをalignする DRNは動的に特徴を選択し、 rotated bboxを検出 CSLは角度の推定をもう一つのタスクとして学習 CenterNetベース（小さい物体にいい精度を示す） • 課題 – 一般的なCNNの場合、入力画像に回転かける≠特徴マップに同じ回転をかける（rotation equivariance）→異なる回転に対応しきれない – Rotation-equivariant networkは、回転不変の特徴を対象としていない • 本手法は、backboneからrotation equivariance特徴を抽出し、headから回転不変特徴を抽出 4

既往研究 - Rotation-equivariant Networks • group conv/hexaconvというconvで畳み込む • 内挿等でリサンプリングしたフィルタや、 circular harmonics（球面調和関数）をフィルタにするなど、 equivariance情報を抽出 • 本手法は、Rotation-equivariant Networksを物体検出のbackboneに導入（初） 5

既往研究 - Rotation-invariant Object Detection • 従来の物体検出手法に対し、回転情報をencodeする機構（パラメータ）と学習データの拡張が必要 • RoI warping拡張し、instance-levelの回転不変情報を抽出 – Rotated RoI warping • 一般的なCNNだと、回転equivariantではないため、回転不変情報の抽出が不完全 • 本手法は、Rotation-invariant RoI Align (RiRoI Align)で、回転equivariant 特徴量から、回転不変特徴を抽出 6

提案手法 - Rotation-equivariant Detector • rotation-equivariant networksをbackboneとする • Rotation-invariant RoI Alignを提案し、RoI毎回転不変特徴を抽出 7

提案手法 - Rotation-equivariant Backbone(ReResNet) • equivariance ：𝛷 𝑇𝑟𝑋 𝐼 = 𝑇𝑟𝑌 𝛷 𝐼 – Where, 𝑇𝑟 =transformation group • translation-equivariance – CNNはtranslation equivariant – 𝑇𝑡 𝑓 ∗ 𝜑 𝑥 = 𝑇𝑡 𝑓 ∗ 𝜑 𝑥 – Where, 𝑇𝑡 =translation group, f=feature map, 𝜑=convolution filters, ∗=convolution operation • translation and rotation-equivariant convolution – 最近の研究成果では、CNNを大きいgroupに拡張することで、同時に達成できる – 𝑇𝑔 𝑓 ∗ 𝜑 𝑔 = 𝑇𝑔 𝑓 ∗ 𝜑 𝑔 – Where, 𝑇𝑔 =rotation group, g=平行移動と回転の半直積 • Rotation-equivariant Networks – 複数rotation-equivariantレイヤで構成 8

提案手法 - Rotation-invariant RoI（RiRoI） Align • rotated RoI（RRoI）は、空間次元（spatial dimension）対応し、回転次元（orientation dimension）特徴に対応しきれていない – max poolingにより、特徴マップから、反応が強い回転情報のみ残す • 空間次元に対し、RiRoIはRRoIと同様に、特徴マップからwarpingし、 alignmentする • 回転次元に対する特徴alignment • 𝑓𝑅 = 𝐼𝑛𝑡 𝑆𝐶 𝑓𝑅 , 𝑟 , 𝜃 , 𝑟 = 𝜃𝑁/2𝜋 • Where, SC=switching channels, Int=feature interpolation, r=index 9

10.

提案手法 - 回転角度の推定 • Rotation-invariant Features – – – – 入力画像に𝑇𝑟 かけても、出力に変化がなければrotation-invariant featuresといえる image、instance、pixel-levelに分解できる RiRoI Alignから得られた特徴マップ 𝛷 𝐼𝑅 = 𝑇𝑟′ 𝛷 𝑇𝑟 𝐼𝑅 Where, HRoI 𝐼𝑅 as the rotation-invariant representation of RRoI 𝑇𝑅 𝐼𝑅 𝛷は特徴空間上の表現 𝑇𝑟′ は𝑇𝑟 の逆変換 𝑇𝑟 = 𝑇 𝜃 , 𝜃は一般的な物体検出手法で学習できる 10

11.

実験 - Datasets • DOTA:回転情報をもつ最大級の航空写真物体検出データセット – Version: • v1.0：2806枚画像（800～4000pixel）、188,282個物体 • v1.5：小さい物体（<10pixel）が追加され、402,089個物体、v1.0より学習が安定 – 1024×1024のパッチ画像にして（stride=824）学習 – Train/test Augmentation: random horizontal flip, multiscale=(0.5,1.0,1.5), random rotation • HRSC2016:船の検出データセット – 1061枚画像（300~1500pixel） – 800×512にリサンプリングして学習 – Augmentation: random horizontal flip 11

12.

実験 – 実施詳細 • baseline – ResNet + FPN – ResNetはImageNetでpretrain • 提案手法 – ReResNet: ImageNet-1Kでpretrain – mmdetectionで手法を構築 12

13.

実験結果 – Ablation Studies • Rotation-equivariant backbone(ReResNet) – 分類精度が落ちるが、検出の精度が良くなる – モデルサイズも大幅に削減 13

14.

実験結果 – Ablation Studies • RiRoI Align – 提案手法の有効性を確認 – interpolationは隣のrotation-equivariant特徴マップで行った方がいい • やり過ぎると、情報が曖昧になってしまう 14

15.

実験結果 – Ablation Studies • rotation augmentation – 提案手法は、特殊なネットワーク内部のrotation augmentationとみなせる – 直接回転のaugmentationとの効果が近いが、収束が早くなる（モデルサイズが同じレベル） 15

16.

実験結果 – Ablation Studies • 汎化性能（別のデータセットで実験） – 他のデータセットでも、提案手法の有効性を確認 – 特に、AP75の結果から、位置推定の性能向上が顕著 16

17.

実験結果 -既存SOTAとの比較 17

18.

実験結果 -既存SOTAとの比較 • 小さい物体において、提案手法の有効性がさらに顕著 18

19.

実験結果 -既存SOTAとの比較 • 単一物体のデータセットでも有効性を確認 19

20.

実験結果 - 結果サンプル 20

21.

まとめ • Backboneに、rotation-equivariant layerを導入、 rotation-equivariant情報を抽出 • RiRoI alignを提案し、 rotation-equivariant情報から、rotation-invariant情報を抽出 • ネットワークサイズを削減する同時に、検出精度を向上 21