[DL輪読会]10分で10本の論?をざっくりと理解する (ICML2020)

1K Views

August 28, 20

#deep learning #Deep Learning #Uncertainty Estimation #Out-Of-Distribution Detection #ICML2020 #Representation Learning

スライド概要

2020/08/028
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] 10分で10本の論⽂をざっくりと理解する (ICML2020) Hirono Okamoto, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ICML2020で個⼈的に気になった論⽂を眺めたのでざっくりと共有 n 論⽂リスト n n n n n n n n n n n n Uncertainty Estimation Using a Single Deep Deterministic Neural Network SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates Being Bayesian about Categorical Probability Detecting Out-of-Distribution Examples with Gram Matrices Safe Deep Semi-Supervised Learning for Unseen-Class Unlabeled Data Semi-Supervised Learning with Normalizing Flows Negative Sampling in Semi-Supervised Learning Self-supervised Label Augmentation via Input Transformations Automatic Shortcut Removal for Self-Supervised Representation Learning Perceptual Generative Autoencoders それぞれの論⽂を1分(背景20秒・⼿法30秒・結果10秒)で説明する n 質問は最後にまとめて5分間

Uncertainty Estimation Using a Single Deep Deterministic Neural Network

背景: 不確かさを求める先⾏研究における問題点 n 図: 不確かさの⼤きさを可視化 n (a): Deep Ensemblesは決定境界のとこしか不確かさが⼤きくならない (b): DUQ(提案⼿法)はデータ分布から離れると不確かさが⼤きくなる n ※ Deep Ensembles: Simple and scalable predictive uncertainty estimation using deep ensembles n

⼿法: セントロイドからの距離 = 不確かさ n ソフトマックスで分類するのではなく，クラスの中⼼からの距離を使って分類する n cのクラスの画像ならクラスcのセントロイドに近づけるように，それ以外のクラスの画像ならクラスcのセントロイドから遠ざけるように学習する n セントロイドは移動平均で求める

結果: 不確かさを利⽤した画像データの分布外検知(OoD検知) 左表: 分布内データ(訓練データ): Fashion MNIST，分布外データ: MNIST n 右表: 分布内データ(訓練データ): CIFAR-10，分布外データ: SVHN n n 感想: そこそこの結果. アイデアは⾯⽩いしトイデータはうまくいっているけど，⼊⼒が画像データになるとそこまでうまくいかないのはOoD検知においてよくある話

SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates

背景: 不確かさを求める先⾏研究における問題点 n 先⾏研究の問題点: Bayesian neural network (BNN)は学習が難しい Deep Ensemblesは訓練コストが⾼い n 他のnon-bayesianな⼿法はデータの不確かさとモデルの不確かさを混同してしまっている n n n n ２種類の不確かさ n n n 例えば⼀個前紹介した⼿法とかデータの不確かさ: クラスの重なりやデータのノイズモデルの不確かさ: データの観測が⾜りないことからくる不確かさ提案⼿法は両⽅の不確かさが求められるし簡単に実装できるし分類にも回帰にも使える

⼿法: モデルの不確かさをブラウン運動としてモデル化する n ResNetは⼒学系の離散化としてみなせる(neural ODE) n ただ，neural ODEは決定的なモデルなので，確率的な⼒学系をモデル化することを考える n Zは標準正規分布からのサンプリング → n fとgはDNNで損失関数は右式(詳しくは論⽂のアルゴリズム) ⼀項⽬は分類誤差最⼩化⼆項⽬は⼊⼒を訓練データとし，分散を⼩さくする項 n 三項⽬は⼊⼒をOODデータとし，分散を⼤きくする項 n n n OODデータは訓練データにガウスノイズを乗せて⼈⼯的に作成

10.

⼿法: モデル構造 Drift netはクラス確率を出⼒し，この値からデータの不確かさを計算する n Diffusion netの出⼒の分散の値からモデルの不確かさを計算する n

11.

結果: 不確かさを利⽤したOOD検知 n そこそこよい．他にも敵対的サンプルの検知，誤分類検知，active learningなどの結果も

12.

Being Bayesian about Categorical Probability

13.

背景: 先⾏研究の問題点とその解決策 n 先⾏研究の問題点 n 通常のNNは過剰に⾃信をもった出⼒を返してしまうし，キャリブレートもされてない n BNNは上記の問題を解決するが，学習が難しい n n そのため，Out-of-distributionのサンプルに弱い提案⼿法 n ターゲット分布に事前分布をおいてベイズルールで更新し，事後分布とDNNの出⼒を近づけるように学習する n 事前分布の信念が正則化の役割を果たす

14.

⼿法: 近似事後分布とターゲット分布を近づける n 表記: n ソフトマックス出⼒ n クラスラベルの数 n ターゲットの事前分布 n ターゲットの事後分布 n 近似事後分布 n n n fはロジット，WはパラメタディリクレのパラメタをDNN の出⼒とする近似事後分布とターゲット分布を近づける n n ⽬的関数は次のELBOを最⼤化となるそれぞれの項は解析的に計算でき，勾配も計算可能

15.

結果: キャリブレーション・OoD検知 n 通常のソフトマックス出⼒を使ったモデルよりもキャリブレーションされており，OoD検知の性能も良い n ECE: キャリブレーションの性能を測る指標で⼩さいほどよいキャリブレーション結果 OoD検知結果

16.

Detecting Out-of-Distribution Examples with Gram Matrices

17.

背景: OoD検知は重要テスト時に訓練データになかったクラスを検知するタスクは実世界において重要 n CIFAR10で学習した分類器が，SVHNの画像を⼊⼒としたときに0.9の値を出⼒する問題がある n n n この問題は⽣成モデルを使っても解決できない先⾏研究はOODのテストサンプルが必要であったり，識別器をいじる必要がある

18.

⼿法: ⾼次のグラム⾏列を利⽤する n アイデア: DNNにおいて分布内データと分布外データで異なる内部表現が獲得されているはず n ⼿法: グラム⾏列の値のmax値とmin値の差をOoD検知の指標とする n 差が⼤きいほど，分布外データであるとする分布内データ

19.

結果: OoD検知全体的に強い n ただ，near-OoD Outliersにはそこまで強くない n n ex) CIFAR10が分布内， CIFAR100が分布外のときなど

20.

Safe Deep Semi-Supervised Learning for Unseen-Class Unlabeled Data

21.

背景: SSLでラベルなしデータにOoDデータが⼊っていた場合 n 半教師あり学習(SSL)ではラベルありデータだけでなく，ラベルなしデータも⽤いることができる n ラベルなしデータは⼀般的な問題設定であれば，全部分布内データである n しかし，実応⽤上では必ずしもラベルなしデータが分布内データであるとは限らない n このとき，先⾏研究のSSLの⼿法を⽤いると，精度が落ちる問題がある

22.

⼿法: ラベルなしデータの正則化項に重み付けを⾏う n よくあるSSLの損失関数＝通常の教師ありロス＋正則化正則化の例 consistency regularization n 提案⼿法: ラベルなしデータの正則化項に重み付けを⾏う n n entropy minimization αを固定してθを更新するただし，パラメータαは教師あり学習部分の性能を落とさないように学習する n θを固定してαを更新する

23.

⼿法: 図解 n まとめると，

24.

結果: MNIST・CIFAR10分類の正解率横軸: ラベルなしデータにOODデータが含まれる割合 n 先⾏研究のSSLはOODデータが増えていくと，普通にラベルありデータだけで教師あり学習したときよりも精度が落ちる n 提案⼿法は，OODデータが増えても⽐較的正解率は⾼いままとなる n

25.

Semi-Supervised Learning with Normalizing Flows

26.

背景: 複雑なデータ分布における半教師あり学習 n 半教師あり学習の1つの⽅法として，⽣成モデルであるガウス混合分布(GMM)を⽤いるものがあるラベルありデータとラベルなしデータ両⽅を利⽤して分布推定したあと，分類が可能 n 右図のようにより複雑なデータ分布であるときにどうするか n 潜在空間上でGMMをモデル化する → 深層⽣成モデルの1つであるFlowを利⽤する n 最尤推定などで学習

27.

⼿法: Flow Gaussian Mixture Model (FlowGMM) n 潜在空間上でのガウス分布 n flowの式 n 後はGMMと同じように尤度最⼤化で学習するだけ n テスト時のラベル予測はベイズの定理を使う周辺分布 → より，

28.

結果: トイデータ・テキスト・画像分類 n アンラベルデータが決定境界の学習に良い感じに使われているテキスト分類(左表)は良さげ n 画像分類(右表)は最新のモデルには負けている n n flowモデルとしてRealNVPではなくglowなどの最新のものを使うとより良い結果になる可能性はある

29.

Negative Sampling in Semi-Supervised Learning

30.

背景: Negative Samplingは最近注⽬されている n Negative samplingは代表的なものだとword2vecに利⽤されている n n そもそもNegative Samplingとは? n n その他，最近流⾏りの対照推定を使った⼿法はNegative Samplingの派⽣であるモデルに特定の関係が間違っていると学習させる⼿法のことこの論⽂の⽬的: n SSLにNegative Samplingを組み込んで先⾏研究のSSLの⼿法の性能を上げる

31.

⼿法: negative sampleの疑似ラベルを利⽤ n 教師あり部分のロスは負の対数尤度(NLL) n 教師なし部分も含めて，次の尤度を考える n ここで，教師なし部分を次のように書き換える n このとき，全体のNLLは実際には，not true labelはわからない n そのため，予測値がしきい値より⼩さくなるものをnot true label (negative sample)とする n n 結局，アルゴリズムは右 n めっちゃ単純

32.

結果: negative samplingはSSLに有効 n 提案⼿法を利⽤することで，精度があがっていることがわかる n n また，VATと組み合わせることもできるハイパラであるラムダにも頑健 n ラムダよりしきい値Tにどれだけ頑健かみるべきでは…?

33.

Self-supervised Label Augmentation via Input Transformations

34.

背景: ⾃⼰教師あり学習を教師あり学習に使いたい n 先⾏研究の問題点: 近年の⾃⼰教師あり学習の⼿法は全てのデータにラベルがある場合，精度向上のテクニックとして使えない n (⾃⼰教師あり学習の⽬的は下流タスクに利⽤できる表現を学習することだから) n n 回転を利⽤したオーグメンテーション(DA)やマルチタスク学習(MT)したときに，ラベル予測精度は必ずしも上昇しない n 下図はマルチタスク学習

35.

⼿法: 回転とクラスラベルの結合ラベルの分類器を利⽤する n 訓練時: 結合ラベル分類器ρを学習させる n テスト時: それぞれの⾓度のクラスの予測をアンサンブルさせる(⾃⼰蒸留してもよい)

36.

結果: 様々なデータセットで有効性を確認 n ⾃⼰教師あり学習として回転を使ったとき，様々なデータセットでベースラインより精度向上することが確認された SD: ⾃⼰蒸留 n AG: アンサンブル n n ほかのデータオーグメンテーション⼿法と組み合わせたときも精度向上した

37.

Automatic Shortcut Removal for Self-Supervised Representation Learning

38.

背景: ⾃⼰教師あり学習におけるショートカットをなくしたい n ⾃⼰教師あり学習の⽬的: 下流タスクが解けるような良い表現を学習すること n n そのために，疑似タスクを解くことで表現を学習する(ex: 回転をあてる・RGBをあてる) ショートカットとは，簡単に学習できる，疑似タスクを予測するための特徴のことショートカットがあると，良い表現を学習することができない n 例えば，回転予測の疑似タスクを考える n n n n 下図のように，図中に⽂字が含まれていると，これをみるだけで回転⽅向がわかってしまう実際には，最終的に回転を予測したいのではなく，下流タスクが解けるような良い表現を得たい提案⼿法はこのようなショートカットを消す⼿法

39.

⼿法: 疑似タスクを解くのが難しくなるような「Lens」を利⽤する n Lensの学習: 再構成誤差を⼩さくしつつも，疑似タスクが解けなくなるような敵対的学習を⾏う n 特徴抽出器の学習: 疑似タスクを解くために単純に予測誤差を⼩さくするように学習する Unet

40.

結果: 様々な疑似タスクにおいて下流タスクの精度が上昇 n 様々な疑似タスクにおいて，Lensを通すことによって，下流タスクであるイメージネットとPlaces205の分類精度が上昇した

41.

Perceptual Generative Autoencoders

42.

背景: 先⾏研究の深層⽣成モデルにおける問題点 n 先⾏研究の深層⽣成モデルにおける問題点 GAN: モードコラプスする flow: 冗⻑な潜在次元 n VAE: ぼやけたサンプルの⽣成 n n n これらの⽣成モデルはターゲット分布をデータ空間で⼀致させようとしている n n 多様体仮説によると，現実の世界のデータはより⼩さい次元の多様体に集中しているアイデア: データ空間ではなく，潜在空間で分布を⼀致させようとしたほうがいいのでは潜在空間 encoder データ空間 decoder

43.

⼿法: 潜在空間とデータ空間で分布を⼀致させる n perceptual generative autoencoder (PGA)の損失関数 n n 再構成誤差 + 潜在変数の再構成誤差 × 2 これだけだと，エンコードされたデータ分布が正規分布に近づかない n そのため，これらを近づけるために２つのアプローチを提案

44.

⼿法: 最尤推定ベースの⼿法 n likelihood PGA (LPGA)の損失関数 n n PGAの損失関数 + NLL × 2 以下の対数尤度最⼤化を考える n = log 𝑝(𝑥)ではなく log 𝑝(𝑧)を最⼤化する，ただし， ̂

45.

⼿法: VAEベースの⼿法 n variational PGA (VPGA)の損失関数 n n PGAの損失関数 + VAEの損失関数お馴染みのVAEのロスを潜在変数verに n n log 𝑝(𝑥)ではなく log 𝑝(𝑧)を最⼤化する，ただし， ̃ log 𝑞(z! |𝑥)と log 𝑝(𝑧|𝑧′)はガウシアン ̃

46.

結果: 定性的結果(CIFAR10) n VAEに⽐べて，LPGA・VPGAともに鮮明な画像をサンプリング可能 n MNIST・CelebAにおいても同様な結果

47.

結果: FID scoreによる定量的結果(⼩さいほど良い) n ３つのデータセットにおけるFIDを使った定量的結果 n n n VPGAはMNIST・CIFAR10で最も良い LVPGA(VPGAとLPGAを組み合わせたもの)はCelebAで最も良い訓練も敵対的学習を⾏っていないため，安定していて良い