【DL輪読会】Dropout Reduces Underfitting

1K Views

April 21, 23

#@deep learning jp #Deep Learning #Dropout #Underfitting #Overfitting #Early Dropout #Late Dropout

スライド概要

2023/4/14
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Dropout Reduces Underfitting 4/12 Taichi Okunishi http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ■ タイトル ▪ ■ 出典 ▪ ■ Meta AI, UC Berkeley の研究者ら出版年月 ▪ ■ https://arxiv.org/abs/2303.01500 著者 ▪ ■ Dropout Reduces Underfitting [1] 2023年３月コード ▪ https://github.com/facebookresearch/dropout DL輪読会 2023/10/10 Taichi Okunishi 2

https://arxiv.org/abs/2303.01500

概要 ■ ドロップアウト ▪ ■ 本来、ニューラルネットの overfitting を防ぐための正則化手法として Hinton らによって導入 [2] 本研究 ▪ ▪ ドロップアウトが初期段階において、underfitting も軽減していることを実証 ▪ ドロップアウトがミニバッチ間の勾配のばらつきを減らす役割 ▪ モデルがデータに適合するのを助ける early dropout と late dropoutを提案・有用性の検証 ▪ early dropout は初期の underfitting を低減 ▪ late dropout は後期の overfitting を低減 ▪ early dropout, late dropout はタスクで使い分け DL輪読会 2023/10/10 Taichi Okunishi 3

前提知識：ドロップアウトの原理 [2] ■ ドロップアウト ▪ 訓練時に一定割合のユニットをランダムにドロップ ▪ 推論時は，全てのユニットを使って推論 ▪ データ目線では，異なるネットワークに入力 ▪ ネットワークのアンサンブルとして機能 ▪ 図：ドロップアウトの原理 [2] overfitting を低減・汎化性能を向上本研究：ドロップアウトは、 underfitting も低減させているのではないか？ DL輪読会 2023/10/10 Taichi Okunishi 4

ドロップアウトが underfitting を防ぐ理由 (1/3) ■ 実験から分かった2つの事実 ▪ 勾配のノルム ▪ ▪ 𝑔 を計算 2 ▪ ドロップアウトを用いると小さく ▪ 勾配更新量 (歩幅) は小さく図：勾配のノルム初期点からの移動距離 ▪ ▪ 𝑊1 − 𝑊2 2 を計算ドロップアウトを用いると移動距離は大きく図：移動距離 ■ ドロップアウトを用いると、歩幅は小さいが、移動距離は大きい → 仮説：勾配が蛇行をせずに一定方向に進んでいるのでは？（右図） DL輪読会 2023/10/10 Taichi Okunishi 5

ドロップアウトが underfitting を防ぐ理由 (2/3) ■ 本当に一定方向に進んでいるのか？ ▪ 勾配の方向の分散を算出 ▪ ドロップアウトありの方が、初期段階で分散は小さい → 一定方向に進むという仮説は妥当 → その方向は，正しい方向なのかという新しい疑問 DL輪読会 2023/10/10 Taichi Okunishi 6

ドロップアウトが underfitting を防ぐ理由 (3/3) ■ 正しい方向に進んでいるのか？ ▪ 真の勾配とミニバッチの勾配方向の誤差を算出 ▪ 学習初期では，ドロップアウトありの方が，真の勾配方向に近い ▪ ▪ 正しい方向に一定に進んでいる ▪ モデルがデータに適合しやすくなり、 underfitting を低減学習後期では、ドロップアウトありだと、真の勾配から離れる ▪ 勾配のノイズにより、フラットな解に収束し、overfitting を低減 DL輪読会 2023/10/10 Taichi Okunishi 7

実験 ■ 実験目的： Early dropout と late dropout の有用性の確認 ▪ early dropout を用いて underfitting の低減を期待 ▪ late dropout を用いて overfitting の低減を期待 ■ ImageNet-1K 分類タスクで，通常のドロップアウト，early dropout, late dropout を比較 ■ stochastic depth [3] も同様に検証 ▪ Stochastic depth: 残差ブロックを一定確率でドロップ ▪ スキップ接続のドロップアウトとみなせる ▪ ドロップアウトと同様な特性を持つはず図： stochastic depth[3] の概要 DL輪読会 2023/10/10 Taichi Okunishi 8

結果 | early dropout の結果 ■ 比較的サイズの小さいモデル (ViT-T) を使用し，underfitting が問題になるように設定 ■ 標準のドロップアウト・標準の s.d. により，正解率は劣化，訓練誤差は上昇 ▪ ■ 大量のデータが利用可能な場合，標準のドロップアウトは，適切ではない可能性 early dropout ・early s.d. により、正解率を改善、訓練誤差は減少 ▪ 初期段階の underfitting を低減し，訓練誤差を減らす ▪ モデルがデータに適合しやすくなる DL輪読会 2023/10/10 Taichi Okunishi 9

10.

結果｜late dropout (late s.d.) の結果 ■ 比較的サイズの大きいモデル (ViT-B) を使用し，overfitting が問題になるように設定 ■ ドロップアウトの代わりに stochastic depth で実験 ■ late s.d. は，標準の s.d. と比べて，精度が改善 ▪ 先行研究の linear-increasing s.d. , curriculum s.d. [4] よりも高い精度 ▪ 効果的に overfiting を低減 DL輪読会 2023/10/10 Taichi Okunishi 10

11.

まとめ ■ 背景 ▪ ■ ■ ドロップアウトは，overfitting を低減するために Hinton らによって導入本研究 ▪ いくつかの実験事実から，ドロップアウトは学習初期で underfitting を低減するという仮説を提唱 ▪ early dropout, late dropout を提案，その有用性を検証実験・結果 ▪ ImageNetの分類タスクで，early dropout と late dropout を標準のドロップアウトと比較 ▪ early dropout はunderfitting を低減させ，late dropout はoverfitting を低減することを実証 DL輪読会 2023/10/10 Taichi Okunishi 11

12.

参考文献 [1] Z. Liu, Z. Xu, J. Jin, Z. Shen, and T. Darrell, “Dropout Reduces Underfitting.” arXiv, Mar. 02, 2023. doi: 10.48550/arXiv.2303.01500. [2] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overﬁtting”. [3] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, “Deep Networks with Stochastic Depth.” arXiv, Jul. 28, 2016. Accessed: Apr. 14, 2023. [Online]. [4] P. Morerio, J. Cavazza, R. Volpi, R. Vidal, and V. Murino, “Curriculum Dropout.” arXiv, Aug. 03, 2017. Accessed: Apr. 14, 2023. [Online]. DL輪読会 2023/10/10 Taichi Okunishi 12