[DL輪読会]Unsupervised Learning by Predicting Noise

324 Views

May 12, 17

#deep learning #Unsupervised Learning #Predicting Noise #Representation Learning #Target Vector #AlexNet

スライド概要

2017/5/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

Unsupervised Learning by Predicting Noise Harada Ushik u Lab. M2 Fuk uta Keisuke

Paper information • arXiv preprint (posted on 18 Apr 2017) • twitterでちょっと話題になってた • 完全にランダムなノイズをラベルに学習してrepresentation learning

Paper information • arXiv preprint (posted on 18 Apr 2017) • twitterでちょっと話題になってた • 完全にランダムなノイズをラベルに学習してrepresentation learning 意味不明

Introduction 高次元データから良質な低次元特徴量を抽出したい • CNNによる表現学習はとても優秀だが、完全にラベル依存 ◦ 例えばImageNetでは後半の特徴量では背景はほぼ無視される的な • 教師無しで表現学習がしたい

Related work • 自己組織化マップ ◦ 割と発想が似てる気がする ◦ 提案手法はinputをtarget noiseに近づけるが、 SOMは逆にtargetをinputに近づけている感じ • Discriminative clustering ◦ ちょっと把握しきれませんでしたが半正定値計画問題を説いてunsupervised にクラスタリングをするみたいな話らしいです。 ◦ 著者曰く発想は近いけど、こっちはonline learningができてスケールするとのこと

Related work (deep) • Self-supervision ◦ パズル解かせてみるとか、ビデオで近い画像は特徴似てるとか • Clustering based, Retrieval based ◦ scaleしないとのこと • Random noise -> image ◦ AutoEncoder ◦ GAN ◦ 実際decoderとgeneratorとか無駄では

Method 1. 半径𝑙のd次元超球からk個 target vectorをサンプリング 2. 画像のマッピング𝑓% 𝑥' に近い target vector 𝑦' を探す 3. それぞれのTarget vector 𝑦' に 𝑓% (𝑥' )を近づける

Method • 教師なしでMapping function 𝑓% (𝑥) を学習したい • 何らかのtarget vectorを用意してそれとマッピング後の representationを近づけるよう学習をする 8 1 min 1 min6 𝑙( 𝑓% 𝑥' , 𝑦' ) % 𝑛 23 ∈5 '9: 𝑦' ∶ 𝑡𝑎𝑟𝑔𝑒𝑡 𝑣𝑒𝑐𝑡𝑜𝑟

Method Cost function 𝑙 に関して • softmax ◦ Target vectorの数に対して線形に計算量が増える -> 厳しい • L2距離 ◦ Target vectorの数には関係ない ◦ [Tygert et al., 2017]によると、出力を正規化しさえすればいい感じに学習してくれる 1 min min 𝑓 𝑋 − 𝑌 % % D∈5 E×6 2𝑛 J K 𝑓% 𝑋 : 𝑛×𝑑, 𝑌: 𝑛×𝑑

10.

Method 1 min min 𝑓% 𝑋 − 𝑌 E×6 % D∈5 2𝑛 J K 𝑌 ∈ 𝑅8×Oが好きに動けるとしたら普通に考えてすべての𝑋をある値に射影してしまえばいい (representation collapse problem) Target vectorを予めk個用意して、それらの割り当てを変更しよう 𝑌 = 𝑃𝐶 𝑃 ∈ 0, 1 8×R Assignment matrix 𝐶 ∈ 𝑅R×O Pre-defined target representations 𝒌 > 𝒏

11.

Assignment matrix • 𝑃 = 𝑃 ∈ 0, 1 8×R 𝑃1R ≤ 18 , 𝑃Y 18 = 1R } • 𝑘 < 𝑛で設定するとtarget vectorのassignがかぶってしまうので良くない • 𝑘 ≥ 𝑛だが、実際は面倒なので𝑘 = 𝑛に設定 • すべての画像に、異なるtargetが一度ずつassignされる

12.

余談 1 min 𝑋 − PC ^∈_ 2𝑛 𝑄 = 𝑃 ∈ 0, 1 8×R J K 𝑃1R = 18 } Assign matrixの条件を少し変えて、Xを学習しないとすると、 k-meansの目的関数になる

13.

Target representations predefined target representation 𝐶 ∈ 𝑅 R×O をどう決めるか案1. ℝO の標準基底から k 個選ぶ (単純) • Targetがone-hot vector、つまり各画像がすべてなんらかのuniqueラベルにassignされ、それらすべて直交するように学習 • 画像間の関係とかも学習したいから違う

14.

Target representations predefined target representation 𝐶 ∈ 𝑅 R×O をどう決めるか案2. ℝO 空間上の超球 (𝑙K unit sphere) からrandom sampling • Noise as Target (NAT) • 画像から超球内の一様分布 (多様体）へのマッピングを解く問題 • K個のtarget vectorは多様体の近似

15.

16.

Reassignment どうやってマッピングから近いtarget vectorを探して割り当てるか = どうやってassignment matrixを更新するか 𝑓% 𝑥' に対するtarget vectorの割り当てコストが一番小さくなるようにする Hungarian algorithm

17.

Hungarian algorithm • 割り当て問題を解くためのアルゴリズム • 例. 各支店が各業者に頼むと以下のようになる。最適な割り当ては？？ • 𝑂(𝑛e ) • 詳細は割愛

18.

Reassignment どうやってマッピングから近いtarget vectorを探して割り当てるか = どうやってassignment matrixを更新するかハンガリアン法でreassignment -> 𝑂(𝑛e )とか当然無理 → Minibatch学習で、そのbatch内のみでreassignmentを行う →𝑂 𝑏e 8 ×g = 𝑂(𝑛𝑏 K )となるので、スケールできる

19.

20.

Method

21.

Experiment • 提案手法でImagenetに対しunsupervised learning • AlexNetを使用 • 他のunsupervised, semi-supervisedと性能比較 • 実験1 ImageNetのclassification ◦ Convより上の層はfreeze (unsupervisedで得られたrepresentationの良さだけで勝負） • 実験2 Pascal VOC 2007にtransfer learning ◦ Finetune, freeze両方で比較

22.

Experiment 他手法より良いしかしSIFT+FVに比べると惨敗

23.

Experiment 割と良い

24.

Nearest neighbor

25.

Visualizing filters Alexnet with supervision NAT

26.

予備実験 • 普通のsupervised learningでSoftmaxと𝑙K lossの比較 → 出力正規化すればそんなに変わらない！ • Discrete (one-hot) target representationsは精度めっちゃ低い！ • Unsupervised learningの様々なepochでのrepresentationを比較してみると、学習が進めば進むほどtransfer learningの精度が良い • Permutation (reassignment)は3 epochに１回で良い（謎)

27.

何をやっているのか • 低次元空間上のfixed target vectorに射影したい • 画像のrepresentationの分布を超球の一様分布（近似）との Earth mover distanceを小さくしている?? • Neural Networkは基本近い感じの入力から近い感じのベクトルが出力される (特に初期） • いい感じにrandom noiseが割り当てられる • 近いやつは近いという関係そのままで、かつそれらをいい感じに遠ざける

28.

Information Maximization View この人のブログ

29.

Information Maximization View In InfoMax principle, good representation is … • Compact (in terms of it's entropy) • Retains as much information about the input X ℍ : shannon entropy 𝕀: mutual information

30.

Information Maximization View In this paper, 1. Restrict the domain of representation 𝑧 to a finite volume subset of ℝO (𝑙K unit sphere) → ℍ[𝑝(𝑧; 𝜃)] is upper bounded 2. Each image is assigned to different target vector → each representation is discriminative ?? (ここだけ僕の適当な考えです）次元を落としつつ情報量最大化を満たすrepresentationの学習に相当？いまいちピンと来ず

31.

感想 • 直観と反しすぎる気がしたけど、よくよく考えると納得できなくもない、という感じ • 実装がすごく簡単で良い