[DL輪読会]When Does Label Smoothing Help?

1.6K Views

December 27, 19

#deep learning #Deep Learning #Label Smoothing #NeurIPS2019 #Data Visualization #Japanese Presentation

スライド概要

2019/12/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] When Does Label Smoothing help? (NeurIPS2019) Masashi Yokota, RESTAR Inc. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 著者 – Rafael Müller, Simon Kornblith, Geoffrey Hintonら Google Brainの研究チーム – NeurIPS2019 採択 • Penultimate layer(Softmax層の一つ前の層) を線形な方法で二次元平面に可視化。それによりLabel Smoothingの効果の直感的な理解を可能にし、さらにLabel Smoothingについて深く分析した。 2

1. 概要 3

Label Smoothing(以下、LS)とは • ハイパーパラメータαをK(K: クラス数)で割り、それを上図のように振り分け、できた分布を正解としてモデルを学習させる。図引用: https://www.softbanktech.co.jp/special/blog/cloud_blog/2019/0073/ 4

https://www.softbanktech.co.jp/special/blog/cloud_blog/2019/0073/

1. 概要 LSは様々なタスクやモデルで使われている。一方で、なぜ性能が上がるのかわかっていない。本論文ではLSを分析し、その理解を深めた。 5

1. この論文の貢献 • Penultimate layer(Softmax層の一つ前の層)の可視化方法の提案 • LSがキャリブレーション効果があることを発見 • LSが蒸留に向いていないことの発見 6

2. Penultimate layer representations 7

Label Smoothing再考 LSの説明の前にHard Targetについて考える Hard Target 正解ラベルの値を1、それ以外を0として学習させる • できるだけ正解クラスのlogitと不正解クラスのlogitが大きくなるようにモデルのパラメータを更新する。 • 不正解クラスのlogitと正解クラスのlogitは単にできるだけ離れていれば良い 8

Label Smoothing再考 Label Smoothing – xはPenultimate layerの出力, 𝒘𝒌 はk 番目クラスのtemplate(重み) とするとk番目のクラスのlogit ( 𝒙𝑻 𝒘𝒌 )は以下のようにユークリッド距離の二乗 𝒙 − 𝒘𝒌 2 と考えられる: 重みによらないので Factored out k番目クラスのとき常に同じなので Factored out LSでは 𝒙 − 𝒘𝒌 2 がパラメータαに依存した定数となるように学習されるので「正解クラスのtemplateと全ての不正解クラスのtemplate が等距離になるように学習している」と考えられる 9

10.

Label Smoothing再考(もう少し直感的な理解) Label Smoothing α = 0.3 Hard Target 0.7だけ差ができるように学習 0.03 • one-hot表現では不正解クラスの値は0に近づくように学習する (不正解クラスの確率は単に0に近ければ良い) • LSでは正解と不正解の確率の差が(1-α)になるように学習する。つまり、正解クラスと不正解クラスが全て等距離に配置されるように学習する 10

11.

先の考察の検証以下の条件でPenultimate Layersを可視化・定性分析し、先の考察の検証を行う。 • 検証モデル/データセット – AlexNet/CIFAR-10 – ResNet-56/CIFAR-100 – Inception-v4/ImageNet • 非類似クラス3つ • 類似クラス2つ＋非類似クラス1つ 11

12.

Penultimate layerの可視化方法 Penultimate layerを以下のプロセスで可視化し定性分析する 1. 3つのクラスをピックアップ 2. 選んだクラスの重み上にある平面の正規直行基底を計算 3. 先のステップの平面にPenultimate layerの出力をサンプリングし可視化 12

13.

ちなみに…各条件でのLSの有無による性能の変化各モデル/データセットの組み合わせでのLSの効果をみる。 LSの有無では性能は微妙によくなる or 変化なし。 13

14.

Penultimate Layersの可視化 AlexNet/CIFAR-10 • Airplane, Automobile, birdのクラスのデータを可視化。 • w/ LSの場合、クラスタがまとまるように写像され、さらに各クラスタ同士が一定距離離れるように学習されている。 14

15.

Penultimate Layersの可視化 ResNet-56/CIFAR-100 • Beaver, Dolphin, Otterの3クラスをvisualize • w/ LSの場合、明確に密集したクラスタがつくられ、各クラスタは等距離に写像されるように学習されている 15

16.

Penultimate Layersの可視化 Inception-v4/CIFAR-100 (類似クラス×2、非類似クラス×1) • Tench, Meercat, cleaverをvisualize • 各クラスタは先と同様にw/ LSの場合、各クラスごとに密なクラスタを形成するように学習されている。 16

17.

Penultimate Layersの可視化 Inception-v4/CIFAR-100 (類似クラス×2、非類似クラス×1) • Tench, toy poodle, miniature poodleの3クラスをvisualize • w/o LSでは、似ているクラス同士が一つのクラスタになってしまう。一方で、 w/LSでは異なるクラスのクラスタを中心とした円弧上に配置される。 • クラス間の情報は仮想的に消されてしまっている 17

18.

19.

先の検証でわかったこと • 正解クラスと他の不正解クラスがそれぞれ一定の距離分、離れるように学習させる →over confidence問題(モデルが自信を持って回答しているのにそれが外れてしまう問題)が発生しにくいと考えられる（3. Implicit model calibration に続く） • ただし正解クラスに似ているクラス同士は、不正解クラスを中心とした円の弧の上に写像される →logit内での相互情報量を落としていると考えられる（4. Knowledge Distillationに続く） 19

20.

3. Implicit model calibration 20

21.

Calibrationとは • Calibration (もしくはConfidence Calibration)とは: モデルが出した確率がその正答率を反映できるようにモデルを学習させることを目的にした研究課題 • CalibrationはGuoらの研究[ICML 2017]で提案された Estimated Calibration Error(ECE)により評価できる 21

22.

ECEとは • データサンプル全てに関して、モデルのconfidenceの値ごとにM等分し、それぞれのbinを用いて以下を計算する: 𝐵𝑚 :m番目のbin, M: binの数, n: サンプル数 bin毎にaccuracyを計算 bin毎にconfidenceを計算 (𝑝Ƹ 𝑖 : confidence) 22

23.

Implicit model calibrationの検証検証したいこと: LSによりcalibrationができたかどうか • 実験条件 – ECEの計算に用いるbin数: 15 • 比較手法 ① w/o LS (baseline) ② w/ LS ③ w/ temperature scaling (以下、TSと表記。なお、先行研究でCalibrationに有効と検証済み) • 実験内容 1. Image Classification • ResNet-56/CIFAR-100 • Inception-v4/ImageNet 2. Machine Translation • Transformer architecture / English-German translation 23

24.

Implicit model calibration ResNet-56/CIFAR-100 • 完全にcalibrationされている場合、黒の点線と重なる • LSはTSと同レベルに calibrationされている 24

25.

Implicit model calibration Inception-v4/ImageNet • 完全にcalibrationされている場合、黒の点線と重なる • LSはTSより、やや劣るが baselineよりもcalibration されている 25

26.

Implicit model calibration Transformer/EN-DE dataset • 完全にcalibrationされている場合、黒の点線と重なる • LSはTSと同程度に calibrationされている • すなわち画像分類以外にも翻訳タスクでも同等の Calibrationの効果があることがわかった。 26

27.

Implicit model calibration ECEでの比較 • Inception-v4/ImageNetでのLSはTSに比べてやや劣るが、他ではTSと同程度calibrateできている 27

28.

先の実験でわかったことと次の疑問 • わかったこと – LSはTSと同程度にCalibrationできていることがわかった • 次の疑問 – LSとTSを組み合わせれば、もっとよくなるのではないか？ Machine Translationに関して、LSの有無やTSの温度が BLEUやECE、NLLにどのような変化を与えるのか確かめる 28

29.

Implicit model calibration w/o LSの場合の温度変化とBLEUとECEの関係 • w/o LSのときにTSの温度を変化させたときに各スコアの変化をみる • 赤線はECE、青線はBLEUをそれぞれ表す。 • 温度が1.13あたりでBLEUと ECE双方が最も良くなっている 29

30.

Implicit model calibration w/ LSの場合の温度変化とBLEUとECEの関係 • α=0.1でのLS時にTSの温度を変化させたときに各スコアの変化をみる • TSとLSを一緒に使うとECE もBLEUも悪くなる → TSとLSの共存は性能を悪くすることがわかった 30

31.

Implicit model calibration LSの有無と温度とNLLの関係 • マーカーあり: w/ LS • マーカなし: w/o LS • LSはNLLに対して悪い影響を与えている。（ただし、LSを使った方がBLEUは良くなる） 31

32.

Implicit model calibrationでわかったこと • LSはTSとImage ClassificationとMachine Translationにおいて同程度にCalibrationができることがわかった • LSとTSを共存させると逆に悪くなり、共存はできないことがわかった 32

33.

4. Knowledge distillation 33

34.

Knowledge distillation • ここで確かめたいこと – LSはlogit間の相互情報量まで落としていると考えられ相互情報量が重要な蒸留では、LSは悪影響を与えるのではないか？ • 上記は筆者らは以下の簡易的な実験でもその傾向はわかる – MLPのteacherモデルを使ってMNISTを学習。学習したteacherモデルをstudentモデルに蒸留すると以下のような結果になる。 w/o LS teacherで蒸留 : train: 0.67%, test: 0.74% w/ LS LS teacherで蒸留: train: 0.59%, test: 0.91% → LSは蒸留に良くない影響を与えていることがわかる 34

35.

なぜLSはKnowledge distillationに有効でないのか？ Knowledge Distillationおさらい教師モデルの出力を教師とするsoft target lossと通常の学習のhard target lossの組み合わせでstudentモデルを学習図引用: http://codecrafthouse.jp/p/2018/01/knowledge-distillation/ 35

http://codecrafthouse.jp/p/2018/01/knowledge-distillation/

36.

なぜLSはKnowledge distillationに有効でないのか？ teacherモデルの出力分布の形がstudentモデルにとって有益な情報となる → LSは不正解ラベルの分布の形を平坦にしてしまいstudent にとって単なるhard targetでの学習と変わらなくなるため studentにとって有益な情報を消してしまっている有益な情報図引用: http://codecrafthouse.jp/p/2018/01/knowledge-distillation/ 36

http://codecrafthouse.jp/p/2018/01/knowledge-distillation/

37.

Knowledge distillation • 以下の内容を確認し、LSがどれくらい蒸留に悪影響を与えるのか調査 1. 2. 3. 4. w/ LS teacher のaccuracy 蒸留なしのstudentのaccuracy w/o LS Teacher を利用して蒸留したw/ TS studentのaccuracy w/ LS Teacherを利用して蒸留したstudentのaccuracy ※なお、Teacherからの蒸留する場合、hard targetは使わず Teacherの出力分布のみを使ってstudentは学習する。 37

38.

Knowledge distillation LSの有無による蒸留後の性能の差 • Teacher w/ LSは0.6まで精度は上がっている • Teacher w/ LSを用いて蒸留したstudentは性能がベースラインと同程度。 Teacher w/ TSの蒸留と比べて性能が劣る → 蒸留に重要なlogit間の相互情報量が落ちてしまっていると考えられる 38

39.

Logit間の相互情報が消えてしまっていることの直感的理解 • w/o LSだと広がったクラスタになる → 同じクラスのサンプルでも出力分布のバラエティがある • w/ LSだと密なクラスタになる → 同じクラスを答えとするデータは全て似たような出力分布になる。つまりlogit間の相互情報量が消えてしまっている。 • これは精度がよくなることが蒸留にとって良いことではないということを示す 39

40.

Logit間の相互情報量を考える 1 / 2 Inputとlogitの多次元かつ分布不明なデータの相互情報量を計算するのは困難。以下の仮定を元に簡易的に相互情報量を計算 – X: 入力画像, Y: 2クラス間のロジットの差 – Yの分布をガウス分布とし、Xをランダムにshiftしてモンテカルロサンプリングすることで平均𝜇𝑥 と分散𝜎 2 を求める – d(・): 画像をランダムにshiftする関数, f(・): 学習済みモデル, L: モンテカルロのサンプル数, N: Trainingデータのサンプル数 40

41.

Logit間の相互情報量を考える 2 / 2 • 上記の式の値は、0からlog(N)の範囲に収まる • 0の時は、全てのデータ点が1つのポイントに集まった状態で、それは相対エントロピーが0であることを示す。 • log(N)の時は、N個全てのデータ点がバラバラになっている状態。 41

42.

Knowledge distillation Logit間の相互情報量が落ちているのか検証 • N=600として2つのクラス間の相互情報量を計算 • 明らかにw/ LSの場合は、相互情報量が落ちていることが確認できる • 点線のlog(2)は、全てのサンプルが完全に2つのクラスタに別れた状態 →w/ LSのteacherはかなり log(2)に近い状態といえる。 42

43.

5. 関連研究 43

44.

Do Better ImageNet Models Transfer Better? [Kornblith+ 2019] ImageNetで良い性能を出しているモデルを転移学習させても良い性能が出るのかを調査。(この論文では他にも調査しているが)LSは転移学習に良い影響を与えないことが実験的にわかっ 44 た。おそらくこれもLSが何かしらの情報量を落としてしまっていると考えられる。

45.

Future Work • 筆者ら曰く、LSが相互情報量を落としていることの発見を応用し以下の様々な分野の研究を加速させる可能性がある – information bottleneck principle – モデル圧縮 – モデルの汎化 – 転移学習 • また、LSにCalibrationを進める効果もモデル解釈可能性に関する研究分野に関しても大きなインパクトらしい。 45

46.

まとめ • Penultimate layerを可視化し、Label Smoothingの定性的な効果として「正解クラスと他の他の不正解クラスの距離が全て等距離になるように学習する」ことを発見した • Label Smoothingにはcalibration効果があることを発見した • 画像分類や翻訳タスクにはLabel Smoothingの効果がある一方で、蒸留には不向きであることがわかった • 蒸留には不向きである理由として、logit間の相互情報量が落ちていることが原因であることがわかった • これらの発見は、いろんな研究分野で有益な発見である 46