[DL輪読会]Network Deconvolution

165 Views

June 30, 20

#deep learning #Network Deconvolution #Deepx/Matsuolab #CNN #Image recognition #Training efficiency

スライド概要

2020/06/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

Network Deconvolution Deepx/Matsuolab 冨⼭翔司

TL;DR • 画像の隣接するピクセルの情報が相関を持っている場合、それらは物体認識などのタスクをする上で冗⻑な情報であり、CNNの訓練を難しくしている。 • 本論⽂では、CNNの各層の初めにこれらの相関を除去する操作（＝network deconvolution）を⼊れることで、特徴表現のスパース化を実現した。 • これによって、CNNの学習速度及び精度が向上することを確認した。 2

書誌情報 • 筆者 – Chengxi Ye∗ , Matthew Evanusa, Hua He, Anton Mitrokhin, Tom Goldstein, James A. Yorke† , Cornelia Fermüller, Yiannis Aloimonos • 研究機関 – Department of Computer Science, University of Maryland, College Park • 学会 – ICLR 2020 • 6, 8, 8 3

解きたい課題 CNNの各特徴量のpixelwise及びchannel wiseの両⽅の相関を無くすこと。 • 仮説：隣接するピクセル、また、チャンネル間の相関があることで、学習が難しくなる – 相関がある情報＝冗⻑な情報 • カメラに映る写真も、何かのフィルタがかかった結果だとすると、deconvできるはずでは？ Convolution: 𝑏 = 𝑘 ∗ 𝑥 = 𝐾𝑥 Deconvolution: 𝑥 = 𝐾 !" 𝑏 4

関連研究 • ⽩⾊化 – データの要素間を相関をなくし、学習の効率化を狙う • 正規化 – データの偏りをなくし、学習の効率化を狙う • 特に、batch normalizationは、レイヤーの前に特徴量に処理を加える、と⾔う観点で似たことをやっている。 5

数学的な動機付け共分散⾏列が単位⾏列であれば、勾配法は最も効率よく最適解にたどり着く。 6

⼿法 im2colによって、畳み込みを⾏列計算として、𝑐𝑜𝑣 "#.%で無相関の空間にXを⾶ばす • Note – 𝑋 ' 𝑐𝑜𝑣 !".$ = Zと⾒ると、𝑍 % 𝑍 = 𝑐𝑜𝑣 !".$ ' 𝑐𝑜𝑣 ' 𝑐𝑜𝑣 !".$ = 𝐼で、確かに共分散⾏列が単位⾏列になっている。 – 図は１チャネルの例だが、複数チャネルの場合、その分Xの列が増える 7

𝑐𝑜𝑣 !".$ の求め⽅ • CGや数値計算の分野で、研究の歴史があるそうです。 • 細かい説明は割愛します（というか理解してないです🙇） – 気になる⼈は元論⽂をチェック！ 8

アルゴリズム 9

10.

結果 • Fashion-MNISTをつかって、４つの条件で実験 – いずれもSGDやBatch Normalization(BN)に⽐べて、収束が早く精度も良い 10

11.

結果 CIFAR10, 100, ImageNetで精度向上（どれくらい凄いんですかね？） 11

12.

Deconvolutionされた⼊⼒画像 ZCAっぽい 12

13.

⽣物の視覚野との関係 • 霊⻑類の視覚野の多くの受容野は、中⼼-周囲型の⾏動を⽰す。霊⻑類の視覚野の中には、オンセンター細胞と呼ばれる受容野があり、中⼼部に刺激が与えられ、かつ、その周囲の円の中で刺激が不⾜しているときに最⼤に反応する。 • 図2に⽰すように、我々のデコンボリューションカーネルは、⾃然界に存在するような中⼼周囲型フィルタに強く似ている。（translated by DeepL) 13

14.

感想 • ⼿法がシンプル。 • im2col賢い。 • いまいち、⽩⾊化（PCA、ZCA）との違いの整理がついていない – モチベーションは同じだが、固有値分解とかしてる部分を𝑐𝑜𝑣 !".$ を数値計算でダイレクトに解きにいってる、と⾔う差？ 14