【DL輪読会】Can Neural Network Memorization Be Localized?

133 Views

August 04, 23

deep learning

スライド概要

2023/8/4
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 26.4K

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 25.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13.4K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 12.6K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.5K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 10.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Gouki Minegishi, Matsuo Lab M1 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題名：Can Neural Network Memorization Be Localized? 所属：Carnegie Mellon University, Google 採録：ICML2023 概要 Ø サンプル記憶は特定のモデルの層に局在せず、層を跨いだ少数ニューロンに分散している Ø そのニューロンの特定⽅法を提案 2

背景 • 記憶と汎化 – DNNは訓練データにランダムラベルが⼊っていてもある程度汎化する[5] Ø Overparametrized NNは最後のいくつかの層で難しいサンプルを記憶している Ø 浅い層ではデータの⼤多数に共通するような特徴量を学習している • 応⽤例（セキュリティ、プライバシー） – 学習済みLLMから訓練データを抽出する – 出⼒の活性値から訓練データを再構成するネットワークのどこに記憶されているのか？ 3

関連研究[1] • Prediction depth – 各層のembeddingをKNN分類する – 最初の⽅では簡単なデータのAccが⾼い、最終層付近で難しいデータ（ミスラベル）のAccが⾼い – 学習の初めの⽅で簡単なサンプルを学習し、後半で難しいサンプルを学習している 4

関連研究[2,3] • タスク特化ニューロン – Noisy dataがあるデータセットでの学習ではスパース性のバイアスを⼊れるとnoiseに過学習しなくなる • ニューロンの書き換えによるモデルの修正 – GPTの中のニューロンで何かのfactに対応するニューロンの特定 5

貢献 • 本当に最終層がサンプル記憶に貢献しているのか？ – Gradient accounting – Layer rewinding – Layer retraining • 記憶はモデルのどこに位置しているのか？ – How many neurons does it take to predict an example? – Example-Tied Dropout 6

実験 | Gradient accounting 15~20 epoch • データセット – 𝑆 = 𝑆! ∪ 𝑆" = 𝑥# , 𝑦# " , clean data(90%) 𝑆! , noisy data(10%) 𝑆" – noisy dataは正解ラベル以外をランダムにつける • 勾配ノルム – clean, noisyそれぞれに対して各層の勾配のノルムをみる !"($$ ,&) !(% ) , !"($& ,&) !(% ) Ø noisy dataはどこかの層で学習されてるわけではない Ø ただニューロン単位ではわからない Ø noisy dataはclean dataの1桁近く⼤きく影響を与える • 勾配類似度 – 2つのデータの勾配の類似度を計算 Ø cleanとnoisyはレイヤーレベルで互いに学習の邪魔をしている Ø 3~20epochくらいでnoisy data を学習している 7

実験 | Layer Rewinding • ある層の重みを巻き戻す &$ θ"# , … , θ&% , … , θ#$ ℱ! θ"# , … , θ#$ → ℱ • 最終層を20epoch以下に戻してもあまり変わらない Ø 最終層付近で記憶しているわけではない Ø サンプル記憶は層を跨いで⾏われている 8

実験 | Layer Retraining • ある層の重みを再学習 &$ θ"# , … , θ'% , … , θ#$ → ℱ &$ θ"# , … , θ&#% , … , θ#$ ℱ! θ"# , … , θ#$ → ℱ • Noisy dataも⾼いaccuracy Ø 他の層にもnoisy dataの情報が含まれている • ⼀部の層では低い Ø 記憶に重要な層 Ø 同様の極⼩値に辿り着かなかった 9

10.

実験 | How many neurons to predict ? • (𝑥( , 𝑦( )に対してcriticalなneuron – これを出⼒を0にし、予測がflipするまで繰り返す • Flipに必要なニューロン数 Ø 少量のニューロンのサブセットがnoisy dataの記憶を担う • ニューロンを削った時の他のクラスの精度 Ø Noisy dataを記憶しているニューロンは他のクラス分類に影響を与えづらい • 層ごとのcriticalなneuronの数 Ø 偏りはあるがあらゆる層にまたがっている 10

11.

実験 | Example-Tied Dropout 𝑝)*+ : 汎⽤的なニューロン 𝑝,*, : 特定のサンプルの記憶ニューロン • Test時にnoisy data記憶ニューロンの出⼒を0 Ø clean dataにほぼ影響を与えずnoisyだけ精度が落ちる Ø 𝑝!"# の割合が増え、汎化性能の向上 • なぜclean dataも忘れてしまうのか Ø clean dataの中にもミスラベルのようなデータが含まれていた 11

12.

Atypical Example • 通常のデータセットでも⾮典型的なデータが存在する[3] – MNISTで5000枚くらい • Atypical Exampleでもnoisy dataと同様の結果 12

13.

まとめ • サンプルの記憶はネットワークあらゆる層に散らばっている • ⼀部のニューロン群がサンプルの記憶を担っている • 推論時そのニューロンの出⼒を消すことでそのサンプルに対しての記憶を消すことができる 13

14.

参考⽂献 [1] Baldock, Robert, Hartmut Maennel, and Behnam Neyshabur. "Deep learning through the lens of example difficulty." Advances in Neural Information Processing Systems 34 (2021) [2] Meng, Kevin, et al. "Locating and editing factual associations in GPT." Advances in Neural Information Processing Systems 35 (2022) [3] Liu, Sheng, et al. "Robust training under label noise by overparameterization." International Conference on Machine Learning. PMLR, 2022. [4] Jiang, Ziheng, et al. "Characterizing structural regularities of labeled data in overparameterized models." arXiv preprint arXiv:2002.03206 (2020). [5] Zhang, Chiyuan, et al. "Understanding deep learning (still) requires rethinking generalization." Communications of the ACM 64.3 (2021) 14

15.