【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)

216 Views

July 15, 22

#deep learning #Deep Learning #Semantic Segmentation #High-Resolution #Domain-Adaptive #Unsupervised Domain Adaptation

スライド概要

2022/7/15
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル – HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation • 著者 – Lukas Hoyer1, Dengxin Dai2, and Luc Van Gool1,3 – 1ETH Zurich, 2MPI for Informatics, Germany, 3KU Leuven, Belgium • ECCV2022に採択 • Paper – https://arxiv.org/abs/2204.13132 • Code – https://github.com/lhoyer/HRDA 2

論文概要 • 高解像度（HR）と低解像度(LR)入力を同時に考慮するUDA(unsupervised domain adaptation) in semantic segmentation手法 – 従来は低解像度画像を入力とする • Semantic segmentationのほか、DAのネットワークもあり、GPUメモリから、低解像度入力を採用 • long-range contextを対応（context情報や、シーンのlayoutはドメイン不変の傾向） – 高解像度入力は、context detail情報を提供し、小物体や境界の推定に重要 – 提案手法は、HRとLRを効率よくfusionする手法を提案 • 提案手法のcontribution – – – – UDAにおける解像度による影響を検討（初）小物体や細部の推定に、ＨＲを利用 scale attention機構を用い、複数解像度入力による学習計算効率のため、nested context and detail cropを提案 3

既往研究 • Semantic segmentation – 複数解像度を入力とする手法は既に提案されていた 1. 2. 基本は、異なる解像度の中間特徴マップを利用(single/multiple scale input) 推論する際、異なる解像度データを入力とし、結果を融合 – average/max poolingが適用。ただし、データ中身に依存しないため、異なる解像度の情報をうまく融合できていない – 最近の解決策 • Scale attention的な機構で、データの中身により、最適な解像度の情報を利用 4

既往研究 • UDA – 流派：adversarial trainingとself-training • adversarial training: style transfer的な方法で、sourceをtargetに変換（domain shiftを再現） • self-training: pseudo labelを生成し、targetの学習をガイド – pseudo labelはノイジーであり、様々な改善策が提案されている • 既存手法は、複数解像度の入力を視野に入れていなかった 5

提案手法の概要 • Preliminary – HR source 𝑆,𝑚 • image: 𝜒 𝑆 = 𝑥𝐻𝑅 𝑆,𝑚 • label: 𝓎𝑆 = 𝑦𝐻𝑅 𝑁𝑠 𝑆,𝑚 𝐻𝑠 ×𝑊𝑠 ×3 , 𝑤𝑖𝑡ℎ 𝑥 ∈ ℝ 𝐻𝑅 𝑚=1 𝑁𝑠 𝑆,𝑚 , 𝑤𝑖𝑡ℎ 𝑦 ∈ 0,1 𝐻𝑅 𝑚=1 𝐻𝑠 ×𝑊𝑠 ×𝐶 – LR source • 𝑇 Bilinear法でHRデータをダウサンプリング：𝑥𝐿𝑅 =𝜁 𝑇 𝑥𝐻𝑅 , 1/𝑠𝑇 𝐻𝑇 𝑊𝑇 × ×3 𝑠𝑇 𝑠𝑇 ∈ℝ , 𝑤𝑖𝑡ℎ 𝑠𝑇 = 𝑠𝑐𝑎𝑙𝑒 𝑓𝑎𝑐𝑡𝑜𝑟 – HR target 𝑇,𝑚 • image: 𝜒 𝑇 = 𝑥𝐻𝑅 𝑁𝑇 𝑇,𝑚 𝐻𝑇 ×𝑊𝑇 ×3 , 𝑤𝑖𝑡ℎ 𝑥 ∈ ℝ 𝐻𝑅 𝑚=1 6

提案手法の概要 • sourceはlabelがあるため、cross entropyで学習 • targetはpseudo labelで学習（distillation） 𝑇 𝑇 𝑇 – ℒ 𝑇 = ℒ𝑐𝑒 𝑦ො𝐿𝑅 , 𝑝𝐿𝑅 , 𝑞𝐿𝑅 𝑇 𝑇 • 𝑦ො𝐿𝑅 = 𝑓𝜃 𝑥𝐿𝑅 (𝑓𝜃 : student network) 𝑇 𝑇 • 𝑝𝐿𝑅,𝑖𝑗𝑐 = 𝑐 = arg max 𝑔𝜙 𝑥𝐿𝑅 𝑐′ 𝑖𝑗𝑐′ (𝑔𝜙 : teacher network) 𝑇 • 𝑞𝐿𝑅 is confidence • パラメータ更新： 𝜙𝑡+1 = 𝛼𝜙𝑡 + 1 − 𝛼 𝜃𝑡 • 提案手法のネットワークは、DAFormer[1]を利用 – 同じ著者らの論文（CVPR2022） 7

DAFormerの概要 • Transformerベースencoderをbackboneにし、汎化性能を向上 – EncoderはSegFormer[2]をベース – DecoderはASPP的に、featureを融合 • Rare Class Sampling: rare classをサンプリングする確率を高める（各epochの早い段階に rare classを学習するように） • Thing-Class ImageNet Feature Distance: – ImageNet pre-trained featureはsegmentationのclassと関連。ただし、学習につれ、そのfeatureを捨てた – Segmentation特徴（class毎にmaskする）とImageNet pre-trained featureの距離を測る出典: DAFormer, CVPR2022 8

提案手法の詳細 • Context and Detail Crop – LR context crop: long-range context relationを抽出 • 入力画像から、ランダムに切り出す（離散一様分布） • Bilinear downsampling – HR detail crop: fine segmentation detailを抽出 • HRはLRの領域内に切り出す（離散一様分布） – Weight shared encoder𝑓 𝐸 とsemantic decoder 𝑓 𝑆 でsegmentation maskを推定 • GPUメモリとモデルのrobust性を考慮したため – 推論(validation)する際は、sliding windowで画像全域をカバー出典: HRDA, ECCV2022 9

10.

提案手法の詳細 • Multi-Resolution Fusion – Scale attentionでlong-range contextとdetail情報を融合 • HRとLRの推定結果から、信用できる結果を最終出力とする 𝑠 • 𝑎𝑐 = 𝜎 𝑓 𝑓 𝐴 𝑥𝑐 𝜖 0,1 ℎ𝑐 𝑤𝑐 × 𝑜 ×𝐶 𝑜 (表記ミス？) • 𝜎 𝑖𝑠 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛 • cropの領域に応じて、attention 𝑎′𝑐 を生成 ෡𝑑 • 最終出力: 𝑦ො𝑐,𝐹 = 𝜁 1 − 𝑎′𝑐 ⨀𝑦ො𝑐 , 𝑠 + 𝜁 𝑎′𝑐 , 𝑠 ⨀𝑦′ – Loss function 𝑆 𝑆 𝑆 • ℒ𝐻𝑅𝐷𝐴 = 1 − 𝜆𝑑 ℒ 𝑐𝑒 𝑦ො𝑐,𝐹 , 𝑦𝑐,𝐻𝑅 , 1 + 𝜆𝑑 ℒ 𝑐𝑒 𝑦ො𝑑𝑆 , 𝑦𝑑𝑆 , 1 𝑇 𝑇 𝑇 𝑇 • ℒ𝐻𝑅𝐷𝐴 = 1 − 𝜆𝑑 ℒ 𝑐𝑒 𝑦ො𝑐,𝐹 , 𝑝𝑐,𝐹 , 𝑞𝑐,𝐹 + 𝜆𝑑 ℒ𝑐𝑒 𝑦ො𝑑𝑇 , 𝑝𝑑𝑇 , 𝑞𝑑𝑇 • HR detail cropに対し、別途lossを計算：learn more robust features 出典: HRDA, ECCV2022 10

11.

提案手法の詳細 • Pseudo-Label Generation with Overlapping Sliding Window – Self-trainingにとって、pseudo labelの質が肝 – Pseudo label、sourceの最終出力と同様に作成 𝑇 𝑇 • 𝑦ො𝑐,𝐹 = 𝜁 1 − 𝑎𝑐𝑇 ⨀𝑦ො𝑐𝑇 , 𝑠 + 𝜁 𝑎𝑐𝑇 , 𝑠 ⨀𝑦ො𝑐,𝐻𝑅 𝑇 – LRの全域に𝑦ො𝑐,𝐻𝑅 を推定 • • • • Sliding windowで、LＲをcrop。Stride=ℎ𝑑 Τ2 × 𝑤𝑑 Τ2 平均をとって最終出力とする各cropは並列で処理(1 batchとして推定) ＬＲのcropも同様で、画像全体に対しで行う。Stride=𝑠ℎ𝑐 Τ2 × 𝑠𝑤𝑐 Τ2 11

12.

実験設定 • Datasets: – Target（実データ）: Cityscapes – Source（疑似データ）: GTA5, Synthia • Network構造 – DAFormer[1]をベース – Scale attention: lightweight SegFormer MLP decoder[2] with an embedding dimension of 256 – 比較対象：ResNet101 backbone + DeepLabV2 decoder • 入力サイズ – HR: 512×512 – LR: 1024×1024 → 512×512 – 既存手法の場合 • Cityscapes: 2048×1024 → 1024×512 • GTA5: 1914×1052 → 1280×720 12

13.

実験結果 • 既存SOTAとの比較 – DAFormerより5％程度改善 • 特に小物体では効果が顕著 13

14.

実験結果 • 提案手法は他のUDA手法に適用可能 • その適用結果を評価 – 提案手法は他のＵＤＡ手法にも効果を発揮 14

15.

実験結果 • UDAにおける解像度とcrop sizeの影響を検証 – Dataset: GTA5→Cityscapes – 入力データの解像度とcrop sizeが高ければ、性能が高い傾向 – UDAの方が、大きいcrop sizeによる貢献度が高い • 大きいcrop sizeはより多いcontext情報を提供できる（当たり前） • 特にgapを埋めにくいcategory(wall, fence, truck, bus, and train)に有効 – 解像度について、２つ手法への貢献度は同レベル • 小物体に効果を発揮 15

16.

実験結果 • 大きいcontext crop sizeは、性能向上に貢献(Tab. 3) • Detail crop sizeも同様な傾向(Tab. 4) – 異なる解像度の入力をfusionすることで、性能を向上 – context情報はdetail cropにとって、肝ではないが、性能向上にはつながる 16

17.

実験結果 • 提案するmulti-resolution fusionは、zoom-in context情報だけでなく、高解像のdetail情報も学習することで、性能を向上 • 高解像度入力のみで学習するモデルと比較した結果、fusionするころで、同程度なGPUメモリを消費し、性能を向上 – batch sizeは言及せず 17

18.

実験結果 • Ablation Study – 提案手法の有効性を確認 – Learnable scale attentionが最も性能に寄与 18

19.

定性評価 • LRは大きい物体に、HRは小物体に注目することを確認 19

20.

まとめ • 本論文は、異なる解像度の入力データをfusionするUDA手法を提案 – LRからlong-range context情報を、HRからdetail情報を学習 – Scale attention機構で両方をfusion – GPUメモリを抑え、高い性能を達成 • 所感 – 割とシンプルな方法を提案 – 処理速度が気になる 20

21.

Reference [1] Hoyer, L., Dai, D., Van Gool, L.: DAFormer: Improving network architectures and training strategies for domain-adaptive semantic segmentation. In: CVPR (2022) [2] Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. In: NeurIPS (2021) 21