[DL輪読会]Neural Tangent Kernel: Convergence and Generalization in Neural Networks

7.4K Views

October 02, 20

#deep learning #Deep Learning #Neural Network #Neural Tangent Kernel #Convergence #Generalization

スライド概要

2020/10/02
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Neural Tangent Kernel: Convergence and Generalization in Neural Networks” 1 Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 2 タイトル： Neural Tangent Kernel: Convergence and Generalization in Neural Networks （NIPS2018）[1] 著者： Jacot, A., Gabriel, F., & Hongler, C （スイス連邦工科大学ローザンヌ校）選書理由：最近の深層学習の理論研究について興味があったため．引用数437(2020/10/01時点)で，盛んに研究されていると思われるため． ※特に断りがない限り，本資料の図・表・式は上記論文より引用したものです． ※Neural Tangent Kernel(NTK)の理解にあたっては，下記ページがとても勉強になりました． Rajat‘s Blog Understanding the Neural Tangent Kernel (https://rajatvd.github.io/NTK/） [1] Jacot, A., Gabriel, F., & Hongler, C. (2018). In Advances in neural information processing systems (pp. 8571-8580). Wakasugi, Panasonic Corp.

https://rajatvd.github.io/NTK/

背景 3 ➢ NNは多様なタスクで高い汎化性能を示しているが，その理由を理論的に説明することができていない． ➢ 先行研究：・隠れ層のwidth→∞のとき，NNがガウス過程とみなせる[2] ・初期化時（ランダムな重み）のLossの形状についての解析[3] 任意の入力値に対し，中心極限定理（width→∞のとき）によって，層毎の共分散行列を数式で扱い，パラメータ空間における，NNの出力値または損失関数の形状を解析 ➢ 課題：・学習中の挙動について扱えない学習が進むにつれ，重みがガウス分布に従うといった仮定がおけなくなる [2] J. H. Lee, Y. Bahri, R. Novak, S. S. Schoenholz, J. Pennington, and J. Sohl-Dickstein. Deep neural networks as gaussian processes. ICLR, 2018. [3] R. Karakida, S. Akaho, and S.-i. Amari. Universal Statistics of Fisher Information in Deep Neural Networks: Mean Field Approach. jun 2018. Wakasugi, Panasonic Corp.

全体像 4 lossを最小化する際の各変数/関数の軌跡を考える NNパラメータ𝜃 関数𝑓 学習データ𝑥ҧ １、NNパラメータの更新式 𝜕𝑙𝑜𝑠𝑠 𝜽𝑡+1 = 𝜽𝑡 − 𝜂 𝜕𝜽 ２、微分方程式とみなすと 𝜕𝜽 𝜕𝑙𝑜𝑠𝑠 =− 𝜕𝑡 𝜕𝜽 𝜕𝒚 ＝− (𝒚 − ഥ 𝒚) 𝜕𝜽 3、出力𝑦の変化 𝜕𝒚 𝜕𝒚𝑇 𝜕𝜽 = 𝜕𝑡 𝜕𝜽 𝜕𝑡 𝜕𝒚𝑇 𝜕𝒚 ＝− (𝒚 − ഥ 𝒚) 𝜕𝜽 𝜕𝜽 4、Neural Tangent Kernel 𝜕𝒚 𝜕𝒚𝑇 𝜕𝒚 𝝓= ,𝑲 = 𝜕𝜽 𝜕𝜽 𝜕𝜽 ※ 𝒚は複数の学習データを並べてベクトル化している ※ 𝜙はカーネル法でいうところの高次元特徴量空間への写像関数出力𝑦 損失関数loss 学習データ𝑦ത 5、width→∞でK→const 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 6、 𝒅 = 𝒚 − ഥ 𝒚について 𝜕𝒅 = −𝑲𝒅 𝜕𝑡 𝒅 𝑡 = 𝒅 0 𝑒−𝑲𝑡 ※𝑲は正定値行列で，固有値は収束の速さに対応する Wakasugi, Panasonic Corp.

Contribution 1. 勾配降下法がカーネルを用いて表現でき，このとき，NN関数𝑓𝜃 がNNの層数，非線形関数，初期化の分散のみに依存する、こと示した 5 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 𝑇 𝜕𝒚 𝜕𝒚 𝑲= 𝜕𝜽 𝜕𝜽 2. NNの収束性が、NTKの正定性で議論できるようにした． 3. 二乗損失の場合、𝑓𝜃 が線形微分方程式に従い、ヤコビアンの固有値が収束性を表す．すなわち，固有関数ごとに収束性が異なることを示した．これは，early-stoppingを支持する結果． 𝒅 𝑡 = 𝒅 0 𝑒 −𝑲𝑡 4. 人工データとMNISTで、数値実験を実施． Wakasugi, Panasonic Corp.

準備 6 一般的な形式でNNを記述・seminorm ・NNの定式化 ※二つの関数間の距離のようなものカーネル法の文脈で登場している？ 𝑝𝑖𝑛は入力データの分布で，実際は学習データの経験分布を使う期待値はΣになるか，ベクトルのノルムで置き換わる． ※ 𝛼は理論系の論文でよく見かける．中心極限定理はここで議論 ෤ Wakasugi, Panasonic Corp.

準備：Kernel gradient 7 カーネルを用いて，損失関数Cの時間発展を記述 ➢ 損失関数Cの微分をカーネルで表現 ➢ この時，Cの時間発展（最小化の更新計算を時間とみなす）は下記のようになる 𝜕𝑙𝑜𝑠𝑠 𝜕𝒚 = (𝒚 − ഥ 𝒚) 𝜕𝜽 𝜕𝜽 𝜕𝑙𝑜𝑠𝑠 𝜕𝑙𝑜𝑠𝑠 𝜕𝜽 = 𝜕𝑡 𝜕𝜽 𝜕𝑡 𝜕𝒚 =− 𝒚−ഥ 𝒚 𝜕𝜽 𝑇 𝜕𝒚 𝒚−ഥ 𝒚 𝜕𝜽 仮にカーネルが正定値で，定数であれば，Cの時間発展はt→無限で0に収束 ※この時点でNNは登場していないが，NNの最終層に関して同様の論理展開となるまた，width→無限で定数という議論が出てくる Wakasugi, Panasonic Corp.

Random functions approximation 8 Kernel gradientとNNの関係性についての例示 ➢ 出力関数を任意関数の和で表現されるとする ※NNの最終層のイメージ．最終層のパラメータ𝜽𝑝のみが学習対象 𝑓はランダムにサンプリングされた関数 ➢ この時の出力関数の微分 ➢ 上式は，カーネルを下記で定義した場合のKernel gradientに対応 𝜕𝒚 𝜕𝒚 𝜕𝜽 = 𝜕𝑡 𝜕𝜽 𝜕𝑡 𝜕𝒚𝑇 𝜕𝒚 ＝− (𝒚 − ഥ 𝒚) 𝜕𝜽 𝜕𝜽 ※補足 Wakasugi, Panasonic Corp.

Neural tangent kernel 9 多層の場合も同様の形式で，カーネルで記述 ➢ 前述の内容と同様に，勾配法がカーネルで記述される．ただし， 𝐹が𝜃に依存する（学習の進捗で変化する） widthの無限極限においては，𝐹がコンスタントとみなせる Wakasugi, Panasonic Corp.

10.

Initialization 10 初期化時のカーネルは，ガウス過程近似における共分散行列の漸化式から算出 ➢ 深層学習のガウス過程近似 ➢ カーネルの計算に発展初期化時のカーネル計算は可能 𝜕𝒚𝐿+1 𝜕𝒘𝐿 𝜎 𝒚𝐿 = 𝜕𝜽𝐿+1 𝜕𝜽𝐿+1 𝐿 𝐿 𝜕𝜎 𝜕𝒚 =𝒘 + 𝜎 𝒚𝐿 𝐿 𝐿 𝜕𝒚 𝜕𝜽 Σሶ Σ ※最初の式を変更すると対応 𝜕𝒚𝐿+1 𝜕𝜽𝐿+1 → 𝑇 𝜕𝒚𝐿+1 𝜕𝒚𝐿+1 𝜕𝜽𝐿+1 𝜕𝜽𝐿+1 Wakasugi, Panasonic Corp.

11.

Training 11 無限極限では，学習中のカーネルは定数とみなせる ➢ 無限極限ではカーネルの時間に依存しなくなるため初期化時に計算したカーネルを利用できる 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 ※ Φに関する本文中の記載 ※基本的には上式に対応していると思われるが，対応関係を追いきれませんでした． ※ Appendixより，下記式で定義される値Aが𝑛𝐿→∞で0に収束するとのこと Wakasugi, Panasonic Corp.

12.

Least-squares regression 12 二乗損失を考えて，具体的に計算．訓練誤差は指数関数的に減少する ➢ 一般的な二乗損失 ➢ 学習による関数𝑓𝑡の更新 ➢ 微分方程式として関数𝑓𝑡を解く ※ 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 𝒅 = 𝒚− ഥ 𝒚 𝜕𝒅 = −𝑲𝒅 𝜕𝑡 𝒅 𝑡 = 𝒅 0 𝑒 −𝑲𝑡 の意味合いが分からなかった・・・ λはカーネルの固有値であり，固有値の大きい次元から順に収束する early-stoppingを支持する結果とのこと Wakasugi, Panasonic Corp.

13.

Numerical experiments 13 widthの増大/時間発展に伴い，収束することを確認 ➢ カーネルの収束（左図）と出力関数の収束（右図） ※学習データはunit circle(二次元)上の点．4層のNN Wakasugi, Panasonic Corp.

14.

Numerical experiments 14 widthの増大に伴い，学習が安定化（勾配≒定数）することを確認 ➢ 学習データの可視化（左図），収束点方向に垂直な方向の誤差（中央），収束点方向への誤差移（右図） ※正解を下記のように設定し， 𝑓 (2)方向と直交成分を観察前スライドより ➢ n=10000のときのカーネルを使ったPCA上位3成分への写像 ➢ ｎが大きいほど， 𝑓 (2)方向の誤差が指数関数的に減少．直交成分へのブレも最も少ない ➢ 一方，ｎが小さいほうが収束自体は早い．学習係数とも相補的になっているため，考察は難しいが・・・ Wakasugi, Panasonic Corp.

15.

Conclusion 15 ➢ Neural Tangent Kernel による学習過程の記述を行い， width→∞で，カーネルが定数となり，学習過程の解析を可能にした ➢ カーネルが定数になることは数値実験で確認できたが， widthが小さいほうが収束が早いという現象が見られた． Wakasugi, Panasonic Corp.

16.

その後の研究 16 ➢ On lazy training in differentiable programming[4] 関数𝑓を定数倍することで，width→∞と同様の性質が得られることを示した. CNNで学習すらうまくいかないケースも ➢ Enhanced Convolutional Neural Tangent Kernels[5] CIFAR-10でSOTAに対し-7%程度の性能（Alexnet相当） ※最新の識別性能を達成できてはいないが，それなりに高性能な予測器を定数カーネルの元で学習できたということらしい [4] Chizat, L., Oyallon, E., & Bach, F. (2019). On lazy training in differentiable programming. In Advances in Neural Information Processing Systems (pp. 2937-2947). [5] Li, Z., Wang, R., Yu, D., Du, S. S., Hu, W., Salakhutdinov, R., & Arora, S. (2019). Enhanced convolutional neural tangent kernels. arXiv preprint arXiv:1911.00809. Wakasugi, Panasonic Corp.

17.

感想 17 ➢ 現時点で，今後の研究に対する示唆（予測性能向上に向けた知見など）ができる段階までは到達できていないようだが，汎化性能の条件などについての整理が進み，性能向上に寄与することを期待したい ➢ データそのものに関する性質の理論解析もあればよいように思うが，やはり難しいか・・・ Wakasugi, Panasonic Corp.