[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks"

1.1K Views

August 24, 18

#deep learning #Deep Learning #CNN #Training #Parameter Initialization #Mean Field Theory

スライド概要

2018/08/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

1 DEEP LEARNING JP [DL Papers] “Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla” (ICML2018) Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 2 タイトル： Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks (ICML2018, Oral) 著者： Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein, Samuel S. Schoenholz, Jeffrey Pennington 所属： Google Brain, Work done as part of the Google AI Residency program ICML(2018)： https://icml.cc/Conferences/2018/Schedule?showEvent=2730 Arxiv：https://arxiv.org/abs/1806.05393 Wakasugi, Panasonic Corp.

概要 3 10000層のCNNの学習が可能に • 10000層のCNNの学習を可能にした． skip connectionやBM，学習率減衰などを使わずに． • 平均場理論を用いて，第∞層の共分散を導出． • 重みの初期分散に応じて無限極限での消失or発散が決まる →適切な重みを設定することで，深いNNが学習可能 [Xiao et al., 2018] Wakasugi, Panasonic Corp.

背景 4 性能向上のために深いNNを学習したい高い表現能力 • deep neural network 高い汎化性能学習可能 • • • 学習率の設計 Skip Connection Batch Normalization • flat minima この論文はここに着目深いNNを如何にして学習させるか？ Wakasugi, Panasonic Corp.

関連研究 5 • Poole et al. (NIPS2016) →深層ネットの表現能力の推定 https://papers.nips.cc/paper/6322-exponential-expressivity-in-deep-neural-networksthrough-transient-chaos • Schoenholz et al. (ICLR2017) →ランダムネットワークにおける層の深さの限界を推定 https://openreview.net/forum?id=H1W1UN9gg • Pennington et al. (NISP2017) →深層学習における等長性について理論解析 http://papers.nips.cc/paper/7064-resurrecting-the-sigmoid-in-deep-learning-throughdynamical-isometry-theory-and-practice Wakasugi, Panasonic Corp.

この後の流れ 6 • 理論解析  データの相関が第L層まで伝達するかを推定  第∞層まで伝達する初期パラメータを導出 • 実験  上記初期パラメータで学習を実施．  早く安定な学習を実現．  10000層のCNNで学習． Wakasugi, Panasonic Corp.

CNNのForward Propagation preactivation（h）の漸化式 ℎ𝑙 → 共分散の漸化式 ℎ𝑙+1 𝑤 𝑙+1 𝛽 𝛼 𝑖 𝑗 𝑖 7 𝛼 𝑗 𝑏は省略 Wakasugi, Panasonic Corp.

CNNのForward Propagation preactivation（h）の漸化式 → 8 共分散の漸化式ここで𝜔~𝑁 0, 𝜎𝜔 /𝑐(2𝑘 + 1) , 𝑏~𝑁(0, 𝜎𝑏 )とおいて，中心極限定理を適用 →ℎ𝑗𝑙+1 (𝛼)が平均0のガウス分布に従うので，分散共分散に着目 𝑙+1 𝑙+1 ∑𝑙+1 = 𝐸[ℎ 𝛼 ℎ 𝛼′ ]とおくと ′ 𝑗 𝑗 𝛼,𝛼 Wakasugi, Panasonic Corp.

CNNのForward Propagation 9 略記すると以下のようになる Wakasugi, Panasonic Corp.

10.

第𝑙層の共分散とその収束点共分散の漸化式 → 10 共分散の収束点を導出収束した場合を考えると下記のようになる．対角成分と非対角成分に分かれる→実質的に𝑞∗ と𝑐 ∗ の２つの変数で議論できる 𝑞∗ と𝑐 ∗ は初期分散𝜎𝜔 ，𝜎𝑏 の関数となるので，𝜎𝜔 ，𝜎𝑏 の値に応じて収束点が決まる 𝑞 ∗ と𝑐 ∗ の収束点，安定性および収束までに必要な層数を推定できる Wakasugi, Panasonic Corp.

11.

安定性解析 11 収束点の安定性を評価 𝜖 𝑙 = ∑∗ -∑𝑙 とおいて，誤差の伝播を計算する要素毎にテイラー展開して∑∗ まわりの摂動を関数の外に出す ※𝜒𝑞∗ ，𝜒𝑐 ∗ は初期分散𝜎𝜔 ，𝜎𝑏 から求める Wakasugi, Panasonic Corp.

12.

安定性解析 12 第𝑙層までの摂動の伝播を計算 𝑙0 ~𝑙までCNNを演算すると Wakasugi, Panasonic Corp.

13.

フーリエ変換によるCNN演算の代替 13 フーリエ変換し，第𝑙層における摂動を導出フーリエ変換をするとこの後の解析のメインとなる式．基本的な解釈は𝜆, 𝜒 ≠ 1 のとき発散or消失 ※ 𝜆𝛼,𝛼′ は畳み込み領域を表す関数のフーリエ変換後の値．最大値は1. →矩形派のフーリエ変換のようなイメージ Wakasugi, Panasonic Corp.

14.

摂動の伝達の深さを推定 14 非対角項に着目し，摂動の減衰の程度を推定ただし，𝜉𝛼,𝛼′ = −1/log(𝜆𝛼,𝛼′ 𝜒𝑐 ∗ ) よって𝜆𝛼,𝛼′ 𝜒𝑐 ∗ → 1で減衰の程度が発散 ※ 𝜆𝛼,𝛼′ は畳み込み領域を表す関数のフーリエ変換後の値．最大値は1. →矩形派のフーリエ変換のようなイメージ ※𝜒𝑞∗ ，𝜒𝑐 ∗ は初期分散𝜎𝜔 ，𝜎𝑏 から求める Wakasugi, Panasonic Corp.

15.

Back Propagationの理論解析 15 Back Propagationについても同様の議論が可能第𝑙層の微分の計算微分の漸化式共分散の漸化式 → 𝜒 = 1が勾配消失/発散しない条件 Wakasugi, Panasonic Corp.

16.

学習高速化 16 ヤコビアン𝐽に等長性を持たせる初期化 𝑊の初期値を上記アルゴで生成． 𝑊を直交にする #tensroflowに実装されている Wakasugi, Panasonic Corp.

17.

空間相関の維持 17 フィルターのフーリエ変換後の値が全て1になるように初期化フィルターの中心のみ値を持つ（=δ関数） #tensroflowに実装されている Wakasugi, Panasonic Corp.

18.

この後の流れ 18 • 理論解析  データの相関が第L層まで伝達するかを推定  第∞層まで伝達する初期パラメータを導出 • 実験  上記初期パラメータで学習を実施．  早く安定な学習を実現．  10000層のCNNで学習． Wakasugi, Panasonic Corp.

19.

学習可能性の実験的検証 19 理論と実験の整合性を確認 • MNISTについて，重さの初期分散(横軸)と層数(縦軸0-600)を変えて学習． • 予測性能をヒートマップに(赤：良い，黒：悪い) • step=500，2500，10000，100000回の４つを表示理論と実験の整合性が見て取れる．特に，相関長が発散(=第∞層まで学習)する性質も一致 [Xiao et al., 2018] Wakasugi, Panasonic Corp.

20.

対角初期化による学習の高速化 20 ガウス初期化に比べ高速に学習＠4000層 • MNISTについて，4000層のCNNを学習対角初期化(赤)とガウス初期化(青)．ガウス初期化に比べ優位に早くなっている [Xiao et al., 2018] Wakasugi, Panasonic Corp.

21.

空間相関 21 空間相関のあるデータでは深くなるほど性能が劣化 • Cifar10について，2^8~2^13層のCNNを学習点線(テスト)，実線(訓練) • 層を深くするほど，テストの性能が減少特に，FCの性能に漸近する．理論解析から，空間相関が重要な場合は層を深くすると性能低下すると示唆されており，実際に確認された [Xiao et al., 2018] Wakasugi, Panasonic Corp.

22.

Delta-Orthogonal initialization 22 𝜆𝛼,𝛼′ が全て1となる初期化により空間相関の低減を抑制 • δ関数によるフィルターから一様フィルタまでの5種類を検証 • 一様フィルターに近づくほど，深層で性能が低下 [Xiao et al., 2018] Delta-Orthogonal initializationによって，空間相関を保ったまま深層ネットでの学習が可能 Wakasugi, Panasonic Corp.

23.

10000層の学習 23 10000層でも学習可能．必要Step数は1250層の場合と変わらない • MNIST(上図)，Cifar10(下図)について，1250~10000層の CNNを学習．点線(テスト)，実線(訓練) • 必要Step数がほぼ変わらない． 10000層(or more)でも学習ができるようになった深いNNでも学習可能 → 次の課題は汎化性能向上 [Xiao et al., 2018] Wakasugi, Panasonic Corp.

24.

Discussion 24 • 深いNNでも学習可能 → 学習可能性の課題はほぼ解決 • 深さ以外の汎化性能向上要因の究明に研究の主軸が移る • Skip ConnectionsやBatch Normalizationは学習可能性向上以外の役割を果たしているのではないか(define a good model class)． Wakasugi, Panasonic Corp.

25.

まとめ 25 • CNNにおける学習可能性についての理論解析を実施 • 第∞層でも学習可能な重さの初期化方法を提案 • 10000層CNNが学習可能なことを実験的に検証 • 深さ以外の汎化性能向上要因の究明が必要．ご清聴ありがとうございました． Wakasugi, Panasonic Corp.