【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation (CVPR 2022)”

308 Views

August 09, 22

#@deep learning jp #Deep Learning #Panoptic Segmentation #Depth Estimation #Image Recognition #Framework

スライド概要

2022/8/5
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP “PanopticDepth: A Uniﬁed Framework for Depth-aware Panoptic Segmentation [DL Papers] (CVPR 2022)” Yoshifumi Seki http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● 投稿先 ○ CVPR 2022 ● 投稿者 ○ 後で ● 選定理由 ○ 最近画像認識周りを転職先の仕事もあって勉強し始めていて Panoptic Segmentation周りを今掘っていたところだった ○

● 深さの推定とPanoptic Segmentationを同時にやることで全体のパフォーマンス向上を狙う。

フレームワークの全体像

フレームワークは3つのsub-networkからなる ● Kernel Producer ○ ● Panoptic Segmentation ○ ● instance classification, instance-specific mask, depth convolution kernelを生み出すところ Panoptic Segmentationをやるところ Instance-wise depth map generator ○ インスタンスごとの深さ推定をやるところ

Kernel Producer ● PanopticFCNで作られている ○ ● Panoptic SegmentationのSOTA (CVPR2021) Dynamic Convolution Techniqueを採用 ○ 訓練時間もGPUのメモリも他の新しいモデルと比較して少なく抑えられる

● Kernel Weight Map Gとtwo position mapをthingsとstuffそれぞれで出力する ○ ● thingsはinstanceのcenter, stuffはregionにそれぞれ対応する出力したこの2つをKernel FusionによりマージしてInstance Classification, Mask Kernel, Depth Kernelを生成する ○ ここのfusion方法は具体的な記述がない

Panoptic Segmentation ここもPanopticFCNのまま

PanopticFCN (再掲)

10.

Instance-wise Depth Estimation ● ● Depth Kernelをdepth Embeddingに適用して、 instanceごとのdepth mapを生成する Panoptic Segmentationを用いてそれぞれのmapを統合する

11.

Depth Map Generator ● ● depth Kernelとdepth Embeddingによってdepth mapを生成各instance maskにおいて、depthの分布を正規化する ○ ○ ○ ● ● dmaxは今回の実験データセットでは 88にこてい d_r: depth range: N+1次元 d_s: depth shift: N+1次元ニュアンスとしては、depthのbiasとvarianceを表現しているこのように生成したDとMを掛け合わせて統合

12.

Depth Loss ● logarithmic errorとRSEの組み合わせ ● Pixel LevelのLossとInstance LevelのLossを組み合わせる

13.

実装上の工夫 ● Adaptive Kernel Fusion (AKS) ○ ● Kernel Fusionのタイミングにおける Average Clusterの改良 Full Scale Fine Tuning (FSFT) ○ ○ ○ 距離が離れたインスタンス同士が融合してしまうことを発見 ■ image cloppingによっておこる類似の問題が怒っている他の研究では、 original imageで訓練することで対応するが、 GPUメモリをめちゃめちゃに使ってしまう Fine tuningの時のみFull Imageを使ったfine-tuningを小さなbatch sizeで行うことで、この問題に対応

14.

評価指標 Panoptic Quality Depth-awareなPanoptic Quality λはしきい値、Pλはλよりerrorが小さいピクセルのみを考慮する λの値を{0.1, 0.25, 0.5}でそれぞれ計算した時の平均を取る

15.

16.

Experience: Panoptic Segmentation

17.

● ● ViP-DeepLabは現在公開されている唯一のDepth-awareなPanoptic Segmentationなモデル精度は及ばなかったが、Vip-DeepLabは大規模な追加データセット、半教師、 AutoAug, Test-time segmentationというテクニックが採用されている ○ こういうのを採用すれば伸びるのでは？

18.

Monocular Depth Estimation ● ● ● シンプルな単眼画像による深さ推定では、提案手法が最も良い結果となった深さを推定するのにinstan

19.

Ablation Study ● ● ● A vs Bはあまり変化がない C vs Dも同じぐらい、AとBに比べると改善 E vs FではFがよく、Eが悪化している ○ T2が改善していて、 T1が悪化するのは、 ground truthのdepthがnoisyなことに起因すると予想

20.

21.

まとめ ● ● おそらく単眼深度における精度向上が工夫されての採択？数式が省略されているところが多くて追い辛い ○ ○ ○ ● ● 特にkernelの部分、これで通すのかぁというカルチャーショック実装は公開されている arxivにappendixとかあるのかな、と思ったけどなかった精度の改善ポイントとしては局所的なnormalizedが一番効いているのは面白い Boundaryがなめらかになってるでしょ？と言われてもよくわからなかった ○ 画像処理に精通するとわかるようになるのか