【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)

>100 Views

July 15, 22

スライド概要

2022/7/15
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

2.

書誌情報 • タイトル – HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation • 著者 – Lukas Hoyer1, Dengxin Dai2, and Luc Van Gool1,3 – 1ETH Zurich, 2MPI for Informatics, Germany, 3KU Leuven, Belgium • ECCV2022に採択 • Paper – https://arxiv.org/abs/2204.13132 • Code – https://github.com/lhoyer/HRDA 2

3.

論文概要 • 高解像度(HR)と低解像度(LR)入力を同時に考慮するUDA(unsupervised domain adaptation) in semantic segmentation手法 – 従来は低解像度画像を入力とする • Semantic segmentationのほか、DAのネットワークもあり、GPUメモリから、低解像度入力を採用 • long-range contextを対応(context情報や、シーンのlayoutはドメイン不変の傾向) – 高解像度入力は、context detail情報を提供し、小物体や境界の推定に重要 – 提案手法は、HRとLRを効率よくfusionする手法を提案 • 提案手法のcontribution – – – – UDAにおける解像度による影響を検討(初) 小物体や細部の推定に、HRを利用 scale attention機構を用い、複数解像度入力による学習 計算効率のため、nested context and detail cropを提案 3

4.

既往研究 • Semantic segmentation – 複数解像度を入力とする手法は既に提案されていた 1. 2. 基本は、異なる解像度の中間特徴マップを利用(single/multiple scale input) 推論する際、異なる解像度データを入力とし、結果を融合 – average/max poolingが適用。ただし、データ中身に依存しないため、異なる解像度の情報をうまく融合で きていない – 最近の解決策 • Scale attention的な機構で、データの中身により、最適な解像度の情報を利用 4

5.

既往研究 • UDA – 流派:adversarial trainingとself-training • adversarial training: style transfer的な方法で、sourceをtargetに変換(domain shiftを再現) • self-training: pseudo labelを生成し、targetの学習をガイド – pseudo labelはノイジーであり、様々な改善策が提案されている • 既存手法は、複数解像度の入力を視野に入れていなかった 5

6.

提案手法の概要 • Preliminary – HR source 𝑆,𝑚 • image: 𝜒 𝑆 = 𝑥𝐻𝑅 𝑆,𝑚 • label: 𝓎𝑆 = 𝑦𝐻𝑅 𝑁𝑠 𝑆,𝑚 𝐻𝑠 ×𝑊𝑠 ×3 , 𝑤𝑖𝑡ℎ 𝑥 ∈ ℝ 𝐻𝑅 𝑚=1 𝑁𝑠 𝑆,𝑚 , 𝑤𝑖𝑡ℎ 𝑦 ∈ 0,1 𝐻𝑅 𝑚=1 𝐻𝑠 ×𝑊𝑠 ×𝐶 – LR source • 𝑇 Bilinear法でHRデータをダウサンプリング:𝑥𝐿𝑅 =𝜁 𝑇 𝑥𝐻𝑅 , 1/𝑠𝑇 𝐻𝑇 𝑊𝑇 × ×3 𝑠𝑇 𝑠𝑇 ∈ℝ , 𝑤𝑖𝑡ℎ 𝑠𝑇 = 𝑠𝑐𝑎𝑙𝑒 𝑓𝑎𝑐𝑡𝑜𝑟 – HR target 𝑇,𝑚 • image: 𝜒 𝑇 = 𝑥𝐻𝑅 𝑁𝑇 𝑇,𝑚 𝐻𝑇 ×𝑊𝑇 ×3 , 𝑤𝑖𝑡ℎ 𝑥 ∈ ℝ 𝐻𝑅 𝑚=1 6

7.

提案手法の概要 • sourceはlabelがあるため、cross entropyで学習 • targetはpseudo labelで学習(distillation) 𝑇 𝑇 𝑇 – ℒ 𝑇 = ℒ𝑐𝑒 𝑦ො𝐿𝑅 , 𝑝𝐿𝑅 , 𝑞𝐿𝑅 𝑇 𝑇 • 𝑦ො𝐿𝑅 = 𝑓𝜃 𝑥𝐿𝑅 (𝑓𝜃 : student network) 𝑇 𝑇 • 𝑝𝐿𝑅,𝑖𝑗𝑐 = 𝑐 = arg max 𝑔𝜙 𝑥𝐿𝑅 𝑐′ 𝑖𝑗𝑐′ (𝑔𝜙 : teacher network) 𝑇 • 𝑞𝐿𝑅 is confidence • パラメータ更新: 𝜙𝑡+1 = 𝛼𝜙𝑡 + 1 − 𝛼 𝜃𝑡 • 提案手法のネットワークは、DAFormer[1]を利用 – 同じ著者らの論文(CVPR2022) 7

8.

DAFormerの概要 • Transformerベースencoderをbackboneにし、汎化性能を向上 – EncoderはSegFormer[2]をベース – DecoderはASPP的に、featureを融合 • Rare Class Sampling: rare classをサンプリングする確率を高める(各epochの早い段階に rare classを学習するように) • Thing-Class ImageNet Feature Distance: – ImageNet pre-trained featureはsegmentationのclassと関連。ただし、学習につれ、そのfeatureを捨てた – Segmentation特徴(class毎にmaskする)とImageNet pre-trained featureの距離を測る 出典: DAFormer, CVPR2022 8

9.

提案手法の詳細 • Context and Detail Crop – LR context crop: long-range context relationを抽出 • 入力画像から、ランダムに切り出す(離散一様分布) • Bilinear downsampling – HR detail crop: fine segmentation detailを抽出 • HRはLRの領域内に切り出す(離散一様分布) – Weight shared encoder𝑓 𝐸 とsemantic decoder 𝑓 𝑆 でsegmentation maskを推定 • GPUメモリとモデルのrobust性を考慮したため – 推論(validation)する際は、sliding windowで画 像全域をカバー 出典: HRDA, ECCV2022 9

10.

提案手法の詳細 • Multi-Resolution Fusion – Scale attentionでlong-range contextとdetail情報を融合 • HRとLRの推定結果から、信用できる結果を最終出力とする 𝑠 • 𝑎𝑐 = 𝜎 𝑓 𝑓 𝐴 𝑥𝑐 𝜖 0,1 ℎ𝑐 𝑤𝑐 × 𝑜 ×𝐶 𝑜 (表記ミス?) • 𝜎 𝑖𝑠 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛 • cropの領域に応じて、attention 𝑎′𝑐 を生成 ෡𝑑 • 最終出力: 𝑦ො𝑐,𝐹 = 𝜁 1 − 𝑎′𝑐 ⨀𝑦ො𝑐 , 𝑠 + 𝜁 𝑎′𝑐 , 𝑠 ⨀𝑦′ – Loss function 𝑆 𝑆 𝑆 • ℒ𝐻𝑅𝐷𝐴 = 1 − 𝜆𝑑 ℒ 𝑐𝑒 𝑦ො𝑐,𝐹 , 𝑦𝑐,𝐻𝑅 , 1 + 𝜆𝑑 ℒ 𝑐𝑒 𝑦ො𝑑𝑆 , 𝑦𝑑𝑆 , 1 𝑇 𝑇 𝑇 𝑇 • ℒ𝐻𝑅𝐷𝐴 = 1 − 𝜆𝑑 ℒ 𝑐𝑒 𝑦ො𝑐,𝐹 , 𝑝𝑐,𝐹 , 𝑞𝑐,𝐹 + 𝜆𝑑 ℒ𝑐𝑒 𝑦ො𝑑𝑇 , 𝑝𝑑𝑇 , 𝑞𝑑𝑇 • HR detail cropに対し、別途lossを計算:learn more robust features 出典: HRDA, ECCV2022 10

11.

提案手法の詳細 • Pseudo-Label Generation with Overlapping Sliding Window – Self-trainingにとって、pseudo labelの質が肝 – Pseudo label、sourceの最終出力と同様に作成 𝑇 𝑇 • 𝑦ො𝑐,𝐹 = 𝜁 1 − 𝑎𝑐𝑇 ⨀𝑦ො𝑐𝑇 , 𝑠 + 𝜁 𝑎𝑐𝑇 , 𝑠 ⨀𝑦ො𝑐,𝐻𝑅 𝑇 – LRの全域に𝑦ො𝑐,𝐻𝑅 を推定 • • • • Sliding windowで、LRをcrop。Stride=ℎ𝑑 Τ2 × 𝑤𝑑 Τ2 平均をとって最終出力とする 各cropは並列で処理(1 batchとして推定) LRのcropも同様で、画像全体に対しで行う。Stride=𝑠ℎ𝑐 Τ2 × 𝑠𝑤𝑐 Τ2 11

12.

実験設定 • Datasets: – Target(実データ): Cityscapes – Source(疑似データ): GTA5, Synthia • Network構造 – DAFormer[1]をベース – Scale attention: lightweight SegFormer MLP decoder[2] with an embedding dimension of 256 – 比較対象:ResNet101 backbone + DeepLabV2 decoder • 入力サイズ – HR: 512×512 – LR: 1024×1024 → 512×512 – 既存手法の場合 • Cityscapes: 2048×1024 → 1024×512 • GTA5: 1914×1052 → 1280×720 12

13.

実験結果 • 既存SOTAとの比較 – DAFormerより5%程度改善 • 特に小物体では効果が顕著 13

14.

実験結果 • 提案手法は他のUDA手法に適用可能 • その適用結果を評価 – 提案手法は他のUDA手法にも効果を発揮 14

15.

実験結果 • UDAにおける解像度とcrop sizeの影響を検証 – Dataset: GTA5→Cityscapes – 入力データの解像度とcrop sizeが高ければ、性能が高い傾向 – UDAの方が、大きいcrop sizeによる貢献度が高い • 大きいcrop sizeはより多いcontext情報を提供できる(当たり前) • 特にgapを埋めにくいcategory(wall, fence, truck, bus, and train)に有効 – 解像度について、2つ手法への貢献度は同レベル • 小物体に効果を発揮 15

16.

実験結果 • 大きいcontext crop sizeは、性能向上に貢献(Tab. 3) • Detail crop sizeも同様な傾向(Tab. 4) – 異なる解像度の入力をfusionすることで、性能を向上 – context情報はdetail cropにとって、肝ではないが、性能向上にはつながる 16

17.

実験結果 • 提案するmulti-resolution fusionは、zoom-in context情報だけでなく、高解 像のdetail情報も学習することで、性能を向上 • 高解像度入力のみで学習するモデルと比較した結果、fusionするころで、同 程度なGPUメモリを消費し、性能を向上 – batch sizeは言及せず 17

18.

実験結果 • Ablation Study – 提案手法の有効性を確認 – Learnable scale attentionが最も性能に寄与 18

19.

定性評価 • LRは大きい物体に、HRは小物体に注目することを確認 19

20.

まとめ • 本論文は、異なる解像度の入力データをfusionするUDA手法を提案 – LRからlong-range context情報を、HRからdetail情報を学習 – Scale attention機構で両方をfusion – GPUメモリを抑え、高い性能を達成 • 所感 – 割とシンプルな方法を提案 – 処理速度が気になる 20

21.

Reference [1] Hoyer, L., Dai, D., Van Gool, L.: DAFormer: Improving network architectures and training strategies for domain-adaptive semantic segmentation. In: CVPR (2022) [2] Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. In: NeurIPS (2021) 21