[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

101 Views

March 09, 18

#deep learning #Deep Learning #Semantic Image Segmentation #DeepLab #Atrous Convolution #Atrous Spatial Pyramid Pooling

スライド概要

2018/3/9
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation” 土居健人, 航空宇宙工学科岩崎研 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 著者 – Googleの研究グループ – 主著のChen氏はDeepLab, Mobile Netの発案者 • 発表日 2018/02/07 – 現時点でのSemantic Segmentationタスクのstate of the art • 選定理由 – DeepLab系の論文をまとめる良い機会． – atrous (dilated) convolutionが他のタスクでも使えそう． 2

発表の流れ • DeepLab系のネットワークまとめ – DeepLab v1 & v2 • atrous convolution • atrous spatial pyramid pooling – DeepLab v3 • cascade and parallel of atrous convolution – DeepLab v3+ • effective decoder module • Xception model • depthwise convolution 3

DeepLab v1,2 • “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs” • v1, v2の違いはベースのアーキテクチャの違い(VGGとResNet) • この論文のポイントは以下の３つ – atrous convolution – atrous spatial pyramid pooling – CRFによる後処理この２つについて話します 4

Atrous Convolution • dilated convolutionとも呼ばれる • 畳み込み演算を離れたピクセルの値で行う – 特徴マップを縮小せず受容野を拡大 “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 5

Atrous Spatial Pyramid Pooling (ASPP) • Spatial Pyramid Pooling (SPP)からの着想 • SPPとは – 一つの特徴マップにいくつかのスケールのPoolingをかける – 任意のサイズの特徴マップを決まった大きさのベクトルに変形 ➢ Atrous Spatial Pyramid Pooling (ASPP)はこれをatrous convolutionで行う “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”, K. He et al. 2014 6

Atrous Spatial Pyramid Pooling (ASPP) • 異なるatrous convolutionを特徴マップに適用 • 右図では赤いピクセルの特徴量を計算 • ASSPをした後の特徴マップのサイズは任意に設定可能 “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 7

DeepLab v1のアーキテクチャ “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 • VGG16の全結合層をatrous convolution, ASPP, 1x1 convで置き換え 8

DeepLab v3 • “Rethinking Atrous Convolution for Semantic Image Segmentation” • DeepLab v1, v2との差分 – atrous convolution in cascade (直列) – atrous convolution in paralell (並列) • タイトルにもある通り，atrous convolutionを再考し発展させた 9

10.

atrous convolutionの直列, 並列化 L.-C. Chen et al. “Re- thinking atrous convolution for semantic image segmentation.” arXiv:1706.05587, 2017. • ResNetをさらに深くしていき，stride=2のconcolutionの代わりにatrous convolutionを重ねた • この時，atrous convolutionは異なるdilated rateのを並列した 10

11.

DeepLab v3+ • “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation” • DeepLabv3+からの差分 – Decoder部分の構造を改良した • これまではbilinearでupsamplingしていた – Xceptionネットワークの構造を取り入れた 11

12.

Decoderの改良 • Low-Level featureの活用 12

13.

Xceptionモデルの活用 • encoderをXceptionNetに変更 • 空間方向とチャネル方向でconvolutionを分けている • stride2のpoolingをdepth-wise convolutionに変更 13

14.

実験結果まとめ “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, At rous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 • pascal voc 2012 test setの実験結果 14

15.

まとめ • DeepLab v1, 2 – atrous convolution – atrous spatial pyramid pooling • DeepLab v3 – atrous convolution in cascade – atrous convolution in parallel • DeepLab v3+ – decoder部分でlow-level featureの活用 – Xceptionをencoderとして活用 15

16.

参考文献 • “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation”, L. Chen et al. 2018 • “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 • “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”, K. He et al. 2014 • F. Chollet. Xception: Deep learning with depthwise separable convolutions. In CVPR, 2017. 16