[DL輪読会]Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure

>100 Views

November 17, 20

deep learning

スライド概要

2020/11/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.8K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.1K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.6K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

Collective dynamics of repeated inference in DEEP LEARNING JP variational autoencoder rapidly find cluster structure [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • “Collective dynamics of repeated inference in variational autoencoder rapidly find cluster structure”, – Nagano, Y., Karakida, R. & Okada, M., The University of Tokyo – Sci Rep 10, 16001 (2020). https://doi.org/10.1038/s41598-020-72593-4 • 概要： – クラスタ-構造を持つ画像群で教師なし学習したVariational Autoencoder(VAE)を用いて，ノイジーな画像をテストデータとして入力し、認識（Encode)と生成（Decode)を複数回繰り返し（反復推論）て得た再構成画像はノイズ除去される．この時の，反復推論時の潜在変数の活動パターン時間軌跡は，クラスターの代表点に接近するダイナミクスになっていることを定量的に示す • 動機： – 教師なし学習で、観測データから，低次の潜在空間での知識（メモリパターン）を構築するモデルに興味がある 2

https://doi.org/10.1038/s41598-020-72593-4

アジェンダ • • • • • 背景・目的先行研究提案手法評価まとめ図表は、論文から抜粋した 3

背景・目的 • ＜背景＞ – Variational Autoencoder：ラベル無のデータに内在する重要な特徴を抽出可能 – 視覚のAssociative memory model：クラスター＊構造を持つ視覚情報を教師なし学習し、各クラスターに反応するニューロン群を生成し，クラスターに属する視覚情報を引き出す（認識する）機構をモデル化したもの．＊クラスター＝分類のカテゴリ同一クラスターに属するメンバーは相関が高い • ＜目的＞クラスター構造の画像群で学習したVariational Autoencoderに，ノイジーな画像で，認識（Encode)と生成（Decode)を複数回反復推論して得た再構成画像はノイズ低減されており、その際の潜在空間上の活動パターン軌跡は，連想メモリモデル(Associative memory model)と類似のダイナミクスを持つことを定量的に示す • 4

先行研究 Neuronal Mechanisms Encoding Global-to-Fine Information in Inferior-Temporal Cortex*, N.Matsumoto, M.Okada, Y. Sugase and S. Yamane, Journal of Computational Neuroscience 18, 85–103, 2005 • • • 目的：視覚の下側頭皮質（inferior-temporal cortex)に存在する、物体形状に反応するニューロンの推論時のダイナミクスをassociative memory modelを用いて解明する動機：顔の形状に反応するニューロンのダイナミクスを調査視覚のAssociative memory modelを以下で構築 – モデル：Excitatory cellとInhibitory cellで構成 – 入力：クラスタ構造のUltrametric画像 𝛏𝛍,𝛎 : クラスターμ ∈ [1, 𝑝]のメン μ,ν バーν∈ [1, 𝑠]番目のパターンを入力、ここで ξ𝑖 , 𝑖 ∈ [1, 𝑁]番目の要素 μ μ 𝑝𝑟𝑜𝑏 ξ𝑖 = 1 = 1 − 𝑝𝑟𝑜𝑏[ ξ𝑖 = 0 = 𝑓 ←クラスターセンタ値は与えない μ μ,ν μ 𝑃𝑟𝑜𝑏 ξμ,ν 𝑖 = 0 ξ𝑖 = 1 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖 = 1 ξ𝑖 = 1 = 𝐹 μ μ,ν μ 𝑃𝑟𝑜𝑏 ξμ,ν 𝑖 = 1 ξ𝑖 = 0 = 1 − 𝑃𝑟𝑜𝑏 ξ𝑖 = 0 ξ𝑖 = 0 = 𝐺 – Hebb則：Neuron𝑖から𝑗へのシノプス係数、𝐽𝑖𝑗 = る（各ニューロンの強度の乗算） • 1 σ𝑝 σ𝑠 𝝃𝝁,𝝂 𝝃𝝁,𝝂 𝒋 とす 𝑓𝑁 μ=1 ν=1 𝒊 推論時 – 微分方程式に従う→初期値が入力画像 t=０～∞とした時ニューロン集団𝑉 𝑒𝑥𝑡 (𝑡)の軌跡 – 入力画像にノイズを付加する a=0(ノイズゼロ）→1（ノイズ最大） • 結果 – ノイズ追加の場合、集団軌跡は、まず、入力したUltrametricに近づいた後、クラスタのセンター値η1に近づく：クラスターセンタ値をmodelが創出している同一クラスノメンバーは相関あり図は論文＊から抜粋 5

提案手法 • 学習：標準の VAEを使用： – Network: Full Connection – 入力：クリーンな画像（MNIST or Fashion-MNIST) • 学習データ：50000 • Testデータ：10000（再構成エラー計算用） – Loss関数：ELBO – 最適化：Adam – Epoch: 1500 • 繰り返し推論： – Network：学習済VAE – 入力：ノイズ不可の画像（MNIST or Fashion-MNIST) tステッ – 認識（Enc)と生成（Dec)をtステッププ繰り繰り返して潜在変数z(t)を得る返す x t + 1 = 𝐸𝑝θ (𝑥|𝑧 𝑡 ) 𝑥 𝑧 𝑡 = 𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧]：活動パターン 𝑔𝑖𝑣𝑒𝑛 𝑥 𝑞Φ 𝑧 𝑥 𝐸𝑞Φ 𝑧 𝑥 𝑡 [𝑧] 𝑧(𝑡) 𝑔𝑖𝑣𝑒𝑛 𝑧 𝒛(𝒕) 𝐸𝑝θ (𝑥|𝑧 𝑡 𝑝θ (𝑥|𝑧) ) 𝑥 𝑥(𝑡 + 1) 𝑥(𝑡) 6

評価したいこと • • • • • • • • 再構成画像𝒙(𝒕)の品質活動パターンZ(t)のクラスタ化と活動パターン軌跡活動パターンZ(t)軌跡はクラスターセンターに近づくノイズと階層クラスターの関係ノイズとラベル推定精度活動パターンのクラスタセンターへ接近することの意味潜在空間次元数の表現能力潜在空間次元数、直行性、汎化性との関係 7

再構成画像𝒙(𝒕)の品質 • 成功例（右上段） ① ② ③ 時間経過純 – 再構成画像X(t)：数ステップでノイズが除去されている – ノイズのレベルp=0.2 (28x28=784pixのpの割合の画像の強度をswap） – 正しい数字が再現されている • 失敗例（右下段） – – – – 似た形の数字を誤っている “２”→”８” “５”→”３” “７”→”９” 成功例失敗例 8

活動パターンZ(t)のクラスタ化と活動パターン軌跡 • z(t)のクラスタ化の可視化 – z(t)の主成分分析で第１，第２固有ベクトルで二次元にプロット→時間経過とともにクラスタが出現 – 初期画像＝種々の“1”の画像＋種々のノイズ • t=10以降でクラスターが2つに分かれる – 下は、正しく”1”のクラスターに到達している画像、上は誤って異なる数字のクラスターに到達している画像 • 活動パターン軌跡: 初期画像𝑥0 の時間 𝑡における潜在変数𝑧(𝑡)を𝑡 = 0～∞でプロットしたもの • 潜在空間の低次元部分空間でクラスタ化が起こる→低次元で表現可能 “1”以外の誤ったクラスターに近づく “１”の正しいクラスターに近 9 づく

10.

活動パターンZ(t)軌跡はクラスターセンターに近づく • 以降は、１ラベルに１クラスタが存在すると仮定する（ラベル∈[0,9]） • 潜在空間で、活動パターン軌跡が引き込まれるポイントが複数ある (𝑖) – ラベルnumに属する𝑖番目の学習データ𝑥𝑛𝑢𝑚に対応する活動パターン： (𝑖) (𝑖) ξ𝑛𝑢𝑚 = 𝐸𝑞Φ 𝑧 𝑥𝑛𝑢𝑚 [𝑧]：メモリベクトルとクのラ距ス離タセンター短い – ラベルnumに属する全学習データに対応する活動パとメ短いのモターン群のセンター(平均）：ξҧ 𝑛𝑢𝑚 = 距リ 1 𝑁𝑛𝑢𝑚 (𝑖) σ ξ𝑛𝑢𝑚：クラスターセンターあるいはコンセ離パタ 𝑁𝑛𝑢𝑚 𝑖 ープトベクトルン • 活動パターン軌跡と上記のポイントの最小距離 (𝑖) を計算： min 𝑧 𝑡 − ξ 、ξ= ξ𝑛𝑢𝑚 or ξҧ 𝑛𝑢𝑚 𝑡 – 活動パターンは、直ぐにメモリベクトル近づき、そのあとは、クラスターセンターに近づく – 先行研究Associative memory modelの結果と合致実線：平均、ｼｪｰﾄﾞ：±１ｘSTD Dev. 試行回数300回、ノイズp=0.2 10

11.

ノイズと階層クラスターの関係 • さらに、人工的に全クラスターセンターのセンターを作る (𝑖) (𝑖) – ξ𝑛𝑢𝑚 = 𝐸𝑞Φ 𝑧 𝑥𝑛𝑢𝑚 [𝑧]：メモリ 1 𝑁 (𝑖) σ𝑖 𝑛𝑢𝑚 ξ𝑛𝑢𝑚：クラスターセンターあるいはコ – ξҧ 𝑛𝑢𝑚 = 𝑁𝑛𝑢𝑚 ンセプトベクトル – 全クラスターセンターのセンター： 9 ξҧ 𝑎𝑙𝑙 = 1 ෍ ξҧ 𝑛𝑢𝑚 10 𝑛𝑢𝑚=0 • 上記三つは、情報の粗さで階層になっている • 活動パターン軌跡と上記の3エリアの最小距離を計 (𝑖) 算： min 𝑧 𝑡 − ξ 、ξ= ξ𝑛𝑢𝑚 or ξҧ 𝑛𝑢𝑚 or ξҧ 𝑎𝑙𝑙 𝑡 – “6”を試行回数500回 • 結果：図a：ノイズ小の場合(I)はメモリベクトルとの距離が一番小さい,中庸のノイズ（II)ではクラスタセンターが、ノイズ大（III)では、全クラスターセンタのセンターが短い。ノイズによって、最適な軌跡を取ろうとする。よって、（III)では、誤ったポイントに近づくのでラベル推定が誤る実線：平均、バーﾞ：±2ｘSTD Dev. • 図ｂ：距離が最小になるstepを示す。 (𝑖) • ξ𝑛𝑢𝑚との距離：入力との再構成エラーを最少にするにはノイズと共に、多くの時間が必要 • ξҧ 𝑛𝑢𝑚との距離：ラベル推定には、ノイズに関わらず30-40ステップで良い 11

12.

ノイズとラベル推定精度 • 学習済VAEにノイズを可変した画像を入力しステップtでの活動パターンを入手。それを別の学習済分類器(CNN)で分類 • 図a,ラベル“6”、図b、ラベル”1” は、200回試行し、もっとも頻度の多いラベルを示す。 • 図a,b：ともに: ノイズが小さい、中庸の範囲では、ラベル正解。ノイズ可変画像学習済VAE 学習済分類器(CNN) MNISTで学習済判別精度99.25% 活動パターン 𝑉 𝑒𝑥𝑡 (t）学習済分類器（CNN) 0~9を判別入力”6” 入力”1” 12

13.

活動パターンのクラスタセンターへ接近することの意味 • VAEは、入力画像のクラスタ構造を抽出できている。 – 活動パターンがクラスターセンターに近づくことで、どのラベルに属しているかの分類が可能 – 活動パターンが、クラスターセンタに近づくことで、同時に、ノイス無しの再構成画像を実現している • VAEは、高次元の画像を、潜在空間における低次の部分空間で表現している。 – 入力画像にノイズをいれるということは、潜在空間における部分空間からの差異を生じさせており、その差異をまず削減するべく活動パターンは動く – よって活動パターンは、まずメモリーベクトルに近づき、次にクラスターセンタに近づく。 13

14.

潜在空間次元数の表現能力 • 次元数100と、各ラベル0~9のクラスタセンターの強度 – 一握りの次元がactiveで、多くの次元はnon-active。 • 次元数100の内、主成分分析で主要な固有ベクトルは14個であった。14個で70%の分散を確保可能→100個は不要 14

15.

潜在空間次元数、直行性、汎化性との関係 • クラスターセンター間の直行性と活動パターンの関係を評価した 𝐶𝑖𝑗 = തξ𝑖 ∙ തξ𝑗 തξ𝑖 2 𝐹 ∙ തξ𝑗 2 𝐹 , 𝐴 2 𝐹 = σ𝑖𝑗 𝐴2𝑖𝑗 : 𝐹𝑟𝑜𝑏𝑖𝑛𝑖𝑢𝑠 𝑛𝑜𝑟𝑚 • 𝑁𝑧 ≥ 14で、 𝐶 − 𝐼 2𝐹 が十分最小値に漸近している • 𝑁𝑧 ≥ 14での、活動パターンとクラスターセンターの距離のグラフは正常 • 次元数が小さいと、活動パターンの空間を直行したクラスタ-センタで張れず、活動パターンが正しいクラスターに近づきにくくなる • VAE Loss： 𝑁𝑧 を変化させたところ𝑁𝑧 ≥ 14 15

16.

まとめ・感想 • まとめ – クリーンなクラスタ構造を持つ画像セットで標準的なVAEを学習し、繰り返し推論で活動パターンのダイナミクスを調査したところ、Associative Memory Modelの挙動と以下で一致することが分かった • 活動パターン軌跡は、クラスタセンターに近づく • 入力画像のノイズが増えると、全クラスターセンターに近づき、ラベル推定で誤る – 潜在変数の次元数が推測性能に与える影響を調べた • 次元数が一定以上大きければ（𝑁𝑧 ≥ 14)、活動パターンが存在する潜在空間の部分空間を直工するクラスタセンタで張ることができ、活動パターンが正しいクラスタセンターへ近づきやすくなる – 今後は、異なる階層を持つデータセットで試す 16

17.

END 17