【DL輪読会】Is it Enough to Optimize CNN Architectures on ImageNet?

>100 Views

March 26, 21

#@ deep learning jp #Deep Learning #ImageNet #Model Performance #Network Depth #Network Width

スライド概要

2021/03/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Is it Enough to Optimize CNN Architectures on ImageNet?” Naoki Nonaka http://deeplearning.jp/ 2023/10/10 1

http://deeplearning.jp/

書誌情報 • 会議：Arxiv投稿 • 著者： 2023/10/10 2

概要 画像分類モデルの性能評価はImageNetデータセットが用いられる 暗黙的に，「ImageNetで性能が良い → 画像分類精度が高い」 実際にはこの仮定が必ずしも成立しないことを実験的に示す ImageNet subsetを使うと問題を低減できることも示した 2023/10/10 3

ImageNetと別データセットでの精度の関係 ImageNetでのエラー（横軸）が小さくとも，別データセット（縦軸）では必ずしもエラーは小さくならない 2023/10/10 4

データセット: 計9つの画像データセットを使用 2023/10/10 5

ネットワーク構造: AnyNetXから500パターンをサンプリング  AnyNetXによるパラメータ空間からサンプリング ◼ Stem, Body, Headの3つの部分からなる ◼ StemとHeadは全ネットワークで共通 ◼ Bodyに4つのstageが存在し，それぞれd個のブロックが存在  500のネットワーク構造を生成し実験 AnyNetX模式図 2023/10/10 6

評価指標: ImageNetに対する相関 (APR) APR: Architecture-performance relationship 1. 同一モデル構造でのテストセットにおけるエラーの散布図を作成 2. Pearsonの相関係数を算出対象のデータセットにおける test set error Pearsonの相関係数 ImageNetにおけるtest set error 2023/10/10 7

データセットごとのAPR: 相関の低いデータセットも存在 ◼ Insect, MLC2008, HAM10000, CIFAR-100は相関が高い ◼ Concrete, CIFAR-10は相関がほぼない ◼ Powerline, Naturalは負の相関正の相関 2023/10/10 相関なし負の相関 8

データセットごとのAPR: 相関の低いデータセットも存在 ◼ Insect, MLC2008, HAM10000, CIFAR-100は相関が高い ◼ Concrete, CIFAR-10は相関がほぼない ◼ Powerline, Naturalは負の相関「ImageNetで性能が良い → 画像分類精度が高い」は必ずしも成立しない 2023/10/10 9

10.

データセットごとのAPR: 相関の低いデータセットも存在「ImageNetで性能が良い → 画像分類精度が高い」は必ずしも成立しない予測性能に寄与する素性の探索  モデルの構造（Width/Depth）  データセットに含まれるクラス数 2023/10/10 10

11.

モデル構造と分類精度の関係分析 500モデルのうち各データセットにおける上位15モデルの構造を分析 Body部分の4stageそれぞれの Bottleneck ratio, block depth, group width, block width の平均値をプロット 2023/10/10 11

12.

モデル構造と分類精度の関係分析: ImageNetとの相関と関連類似のパターン（ImageNetとの）相関係数: 0.891 2023/10/10 異なるパターン（ImageNetとの）相関係数: -0.441 12

13.

Depthのエラー率に対する影響モデルの累積Depthとtest set errorの関係をデータセットごとに算出 ◼ ImageNet, Insects: 相関なし ◼ HAM10000, Natural, Powerline, CIFAR-10: 相関あり相関なし 2023/10/10 正の相関 13

14.

Widthのエラー率に対する影響モデルの累積Widthとtest set errorの関係をデータセットごとに算出 ◼ ImageNet, Insects, HAM10000: 負の相関 ◼ Natural, Powerline: 相関なし ◼ CIFAR-100: 強い負の相関負の相関 2023/10/10 相関なし 14

15.

Depth/WidthとImageNetとの相関まとめ Dataset ImageNet vs ImageNet error Depth Width - -0.174 -0.437 Insects 0.891 -0.09 -0.37 HAM10000 0.569 0.316 -0.307 Powerline -0.385 0.65 -0.019 Natural -0.441 0.368 0.174 CIFAR-100 -0.616 0.493 -0.53 ◼ 最適なネットワークの深さと幅は，データセット間で異なる可能性があり，ネットワーク構造の移植性を左右する重要な要素 ◼ クラス数が2番目に多い「Insects」は、 APRにおいてもImageNetとの類似性が最も明確 2023/10/10 15

16.

クラス数の影響を分析: クラス数が減少→相関が小 ImageNet-X subset ImageNetからランダムにXのクラスを取得し，それクラス以外のデータを削除 ◼ Original ImageNet -> ImageNet-1000 ◼ 例: 5クラスを選択 -> ImageNet-5 クラス数が減少すると相関が小さくなる 2023/10/10 16

17.

クラス数とDepth/Widthの関係を分析 ImageNet-X subsetごとにネットワークの深さと幅との相関を検証クラスの数は，ネットワークの深さと幅の両方に同時に影響 2023/10/10 17

18.

ImageNet-Xとの相関: クラス数を揃えると相関が高くなる ImageNetとの相関 → ImageNet-Xとの相関相関の度合いが強くなる 2023/10/10 18

19.

結論 ImageNetにおいて優れた性能を示しても，必ずしも他のデータセットにて同様に優れているとは限らない ネットワークの深さと幅が重要な要素である クラス数を同程度にするとImageNetとの相関は高くなる 2023/10/10 19

20.

Appendix 2023/10/10 20

21.

予備実験 eCDF: empirical cumulative error distribution 例）10個のモデルのエラー率 → [0.1, 0.1, 0.2, 0.2, 0.2, 0.3, 0.4, 0.4, 0.5, 0.6] eCDF(0.15) = 2/10 = 0.2 eCDF(0.25) = 5/10 = 0.5 2023/10/10 21

22.

予備実験の結果 2023/10/10 22