[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

>100 Views

March 09, 18

スライド概要

2018/3/9
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation” 土居健人, 航空宇宙工学科岩崎研 http://deeplearning.jp/ 1

2.

書誌情報 • 著者 – Googleの研究グループ – 主著のChen氏はDeepLab, Mobile Netの発案者 • 発表日 2018/02/07 – 現時点でのSemantic Segmentationタスクのstate of the art • 選定理由 – DeepLab系の論文をまとめる良い機会. – atrous (dilated) convolutionが他のタスクでも使えそう. 2

3.

発表の流れ • DeepLab系のネットワークまとめ – DeepLab v1 & v2 • atrous convolution • atrous spatial pyramid pooling – DeepLab v3 • cascade and parallel of atrous convolution – DeepLab v3+ • effective decoder module • Xception model • depthwise convolution 3

4.

DeepLab v1,2 • “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs” • v1, v2の違いはベースのアーキテクチャの違い(VGGとResNet) • この論文のポイントは以下の3つ – atrous convolution – atrous spatial pyramid pooling – CRFによる後処理 この2つについて話します 4

5.

Atrous Convolution • dilated convolutionとも呼ばれる • 畳み込み演算を離れたピクセルの値で行う – 特徴マップを縮小せず受容野を拡大 “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 5

6.

Atrous Spatial Pyramid Pooling (ASPP) • Spatial Pyramid Pooling (SPP)か らの着想 • SPPとは – 一つの特徴マップにいくつかのスケー ルのPoolingをかける – 任意のサイズの特徴マップを決まった 大きさのベクトルに変形 ➢ Atrous Spatial Pyramid Pooling (ASPP)はこれをatrous convolutionで行う “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”, K. He et al. 2014 6

7.

Atrous Spatial Pyramid Pooling (ASPP) • 異なるatrous convolutionを特徴 マップに適用 • 右図では赤いピクセルの特徴量 を計算 • ASSPをした後の特徴マップのサ イズは任意に設定可能 “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 7

8.

DeepLab v1のアーキテクチャ “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 • VGG16の全結合層をatrous convolution, ASPP, 1x1 convで置き換え 8

9.

DeepLab v3 • “Rethinking Atrous Convolution for Semantic Image Segmentation” • DeepLab v1, v2との差分 – atrous convolution in cascade (直列) – atrous convolution in paralell (並列) • タイトルにもある通り,atrous convolutionを再考し発展させた 9

10.

atrous convolutionの直列, 並列化 L.-C. Chen et al. “Re- thinking atrous convolution for semantic image segmentation.” arXiv:1706.05587, 2017. • ResNetをさらに深くしていき,stride=2のconcolutionの代わりにatrous convolutionを重ねた • この時,atrous convolutionは異なるdilated rateのを並列した 10

11.

DeepLab v3+ • “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation” • DeepLabv3+からの差分 – Decoder部分の構造を改良した • これまではbilinearでupsamplingしていた – Xceptionネットワークの構造を取り入れた 11

12.

Decoderの改良 • Low-Level featureの活用 12

13.

Xceptionモデルの活用 • encoderをXceptionNetに変更 • 空間方向とチャネル方向でconvolutionを分けている • stride2のpoolingをdepth-wise convolutionに変更 13

14.

実験結果まとめ “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, At rous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 • pascal voc 2012 test setの実験結果 14

15.

まとめ • DeepLab v1, 2 – atrous convolution – atrous spatial pyramid pooling • DeepLab v3 – atrous convolution in cascade – atrous convolution in parallel • DeepLab v3+ – decoder部分でlow-level featureの活用 – Xceptionをencoderとして活用 15

16.

参考文献 • “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation”, L. Chen et al. 2018 • “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, L. Chen et al. 2016 • “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”, K. He et al. 2014 • F. Chollet. Xception: Deep learning with depthwise separable convolutions. In CVPR, 2017. 16