Diffusion Models

27.1K Views

September 03, 22

deep learning ベイズ生成モデル

スライド概要

Kento Sugimoto

@kento_sugimoto

スライド一覧

大阪大学医学系研究科特任助教

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.84MB)

各ページのテキスト

Diffusion Model 1

Intro Diffusion Modelを詳しく知りたい（数ヶ月前の自分） ● 少し前からDiffusion Modelという言葉をよく耳にする ● 詳しくはわからんが、ノイズを加えてゴニョゴニョしているらしい ● VAEは前に勉強したことあるけど、それの進化系？ ● 論文は読んだけど、数式だらけでよく分からなかった ● 噂によると、GANを超えたらしい ● 右下のアインシュタインのイラストを見たことがある ● 話題のDALL·Eを詳しく知りたい今回はDiffusion Modelの説明・数式の導出にフォーカスします ● 時間の都合上、GANとの比較・アインシュタインの話、DALL·E 2の話は今回はしません ● DALL·EなどのText to Imageについては希望があれば、またの機会にお話しようと思います。 3

Generative model (Statistical modeling) ● ● 手元の観測データxから隠れ変数zを推論する（pθ(z|x)） pθ(z|x)を事後分布（Posterior）とすると、ベイズルールから以下のように書ける ○ ○ ○ ● pθ(x|z)は尤度（Likelihood） pθ(z|x)は事前分布（Prior） pθ(x)は周辺尤度（Marginal likelihood）ただし、実際には分母の積分計算は解析的に解けない（intractable） 4

Variational Inference ● 分布qφ(z)でpθ(z|x)を近似させる（2つの分布のKLダイバージェンスを最小化する） ● pθ(z|x)を含むKLダイバージェンスの計算は解析的に解けないので、 ELBO(Evidence Lower Bound) 代わりにELBOを最大化することで、qφ(z)を近似させる 5

VAE（Variational Autoencoder） ● Variational Inferenceの近似を深層学習に拡張させた手法 ● qφ(z|x)の確率分布を関数で表現し、逆伝播を可能とした（Reparametrization trick） From Autoencoder to Beta-VAE | Lil'Log 6

https://lilianweng.github.io/posts/2018-08-12-vae/

Diffusion (Probabilistic) Model ● VAEはx→z→xのシンプルなモデル（Encoder・Decoder）で構成される ● Diffusion Modelでは、x→z→xのモデル（Encoder・Decoder）を時系列に拡張 Diffusion Models as a kind of VAE | Angus Turner 7

https://angusturner.github.io/generative_models/2021/06/29/diffusion-probabilistic-models-I.html

Diffusion (Probabilistic) Model ● 観測データx0と「同次元」の隠れ変数x1:Tにより、x0の生成過程をモデリング ● 隠れ変数の遷移はマルコフ連鎖（今の状態は直前の状態にのみ依存）を仮定 forward process reverse process ○ foward process .. 観測データにノイズを加えるプロセス（ noising） ○ reverse process .. ノイズからデータを復元するプロセス（ denoising） Improving Diffusion Models as an Alternative To GANs, Part 2 | NVIDIA Technical Blog 8

https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-2/

Diffusion (Probabilistic) Model Diffusion (Probabilistic) Modelの論文として有名なものは以下の２本 1. Deep Unsupervised Learning using Nonequilibrium Thermodynamics → Diffusion Modelのオリジナルの論文 2. Denoising Diffusion Probabilistic Models → 1.を発展させた論文（モデルをシンプルにして実装を容易にし、性能向上を実現） ○ 2.が最近のDiffusion Modelの進化を押さえる上で重要となる論文 ○ 2.の論文を理解することで Diffusion Modelの基本的なアイデアを押さえることができる（本スライドも2.の内容の説明を中心に書かれている） ○ Backgroundなどより深く理解したい場合は 1.も読むべき 9

10.

Diffusion (Probabilistic) Model ● ● 観測データx0と「同次元」の隠れ変数x1:Tにより、x0の生成過程を定義するモデル隠れ変数の遷移はマルコフ連鎖（今の状態は直前の状態にのみ依存）を仮定 reverse process ● reverse processを通じて、観測データの尤度を最大化するような遷移過程を学習する 10

11.

Foward process ● 観測データにノイズを加えるプロセス ○ β1…βtはステップ毎のバリアンスのスケジュール ○ βを調整して徐々にノイズを加える ○ xtはパラメータβtと前の状態xt-1をパラメータとしたガウス分布 11

12.

Reverse process ● ノイズからデータを復元するプロセス ○ ○ ○ foward processで生成されたノイズ xTから元の観測データ x0を復元する xt-1はパラメータμθ・Σθと前の状態xtをパラメータとしたガウス分布観測データx0の尤度を最大化するような遷移過程を学習する（オリジナルの観測データに近づけることを目的として学習を行う） 12

13.

Short summary ● ● foward process ○ 観測データにノイズを加えるプロセス ○ パラメータβをステップ毎に与えていき、完全なノイズデータを生成する reverse process ○ ノイズからデータを復元するプロセス ○ 観測データに近づけることを目的として学習を行う [2006.11239] Denoising Diffusion Probabilistic Models 13

https://arxiv.org/abs/2006.11239

14.

Training ● Generative modelの目的は観測データxに近いデータを生成（復元）すること ● （大雑把に言えば）観測データxと生成データx’の違いを最小化することを目指す From Autoencoder to Beta-VAE | Lil'Log 14

https://lilianweng.github.io/posts/2018-08-12-vae/

15.

Training ● Diffusion Modelもそのモチベーションは同様 ● 観測データx0の生成過程（reverse process）の尤度を最大化したい（pθ(x0)） →Negative log-likelihood（-logpθ(x0)）を損失関数とすれば良い ● ただ、周辺化すると分かるが、この積分計算は解析的に解けない（intractable） 15

16.

Training ● 損失関数として以下の関数を定義（Negative log-likelihood） ● 直接は解析的に解けないので、代わりに右式を最小化することを考える ○ KLダイバージェンスは常に非負なので上式が必ず成立する →どのような分布のKLダイバージェンスを計算するか 16

17.

Training ● foward processはオリジナルの観測データにステップ毎にノイズを加える ● reverse processはノイズから元の観測データに近づけることを目指す foward processのノイズ過程を反転させるようなデノイジング（ノイズ除去）処理を行えば reverse processを通じて元のデータに近いデータを生成できそう reverse processをfoward processを反転させた確率分布を近づける 17

18.

Training ● forward processはq(xt-1|xt)なので、反転させた分布はq(xt-1|xt) ● これはforward processの事後分布 ● reverse processのpθ(xt-1|xt)をforward processの事後分布q(xt-1|xt)に近づける ● 実際は特定の観測データx0で条件付けた場合のforward processの事後分布に近似させたいの foward process で、以下の最小化を目指す 18

19.

Derivation ● (3)に(4)のKLダイバージェンスを代入 ● KLダイバージェンスを以下のように書き換える ● ベイズルールを利用してKLダイバージェンスのforward processを変形する 19

20.

Derivation ● (6)に(7)を代入 20

21.

Derivation ● (5)に(8)を代入 variational lower bound ● (9)のvariational lower boundの最小化問題に変形できた 21

22.

Derivation ● variational lower boundの分子はforward process、分母はreverse process ● (1), (2)を(9)に代入して以下のように変形する後の式変形のため、分母の p(xT)を外に出しておく 22

23.

Derivation ● 続けてvariational lower boundの式変形を行う 23

24.

Derivation ● 二番目のq(xt|xt-1)をベイズルールを用いて変形する ● (12)を(11)に代入する 24

25.

Derivation ● 二番目の式のfoward processは任意の観測データのノイズ生成過程を示している ● 特定の観測データに対するノイズ生成過程としないと非常にhigh varianceになる →観測データx0で条件付ける 25

26.

Derivation ● (14)を式変形する 26

27.

Derivation ● (15)を式変形する Lt Lt-1 L0 27

28.

Derivation ● 第一項（LT） ○ 論文ではforward processのパラメータβは固定[Ho. et al. 2020] ○ p(xT)はN（0,I）のガウス分布 →learnableなパラメータを含まないので定数として扱う [2006.11239] Denoising Diffusion Probabilistic Models 28

https://arxiv.org/abs/2006.11239

29.

Derivation ● 第二項（Lt-1） 29

30.

Derivation ● 第二項（Lt-1） ○ varianceはステップ毎の定数（βt）で固定 [Ho et al. 2020] [2006.11239] Denoising Diffusion Probabilistic Models 30

https://arxiv.org/abs/2006.11239

31.

Derivation ● 第二項（Lt-1） ○ Lt-1は２つの分布（ forward processの事後分布と reverse process）の違いそのもの ○ ２つの分布はいずれもガウス分布であり、 KLダイバージェンスは解析的に計算できる ○ reverse processのvarianceを固定する場合、 varianceの違いはuncontrollable （learnableなパラメータを持たないので、 lossとして考慮しても意味はない） ○ reverse processのmeanが唯一のlearnableなパラメータであり、分布間の KLダイバージェンスの計算ではなく、reverse processのmeanを最適化するよう lossを設計すれば良い（reverse processのmeanをforward processの事後分布の meanに近づける） Deriving KL Divergence for Gaussians 31

https://leenashekhar.github.io/2019-01-30-KL-Divergence/#:~:text=KL Divergence for Gaussian distributions? We know that,− (z − μ) 2 2 σ 2

32.

Derivation ● meanは離散値なので、lossにはMSE（Mean Square Error）を使用 actual mean ○ predicted mean (17)を(18)に代入して変形しておく 32

33.

Derivation ● reparametrizationにより、meanの計算を拡張 ○ foward processの分布からx0を定式化 reparametrization 33

34.

Derivation ● (20)を(18)のactual meanに代入して以下のように変形する xtからノイズを引いている Diffusion Models as a kind of VAE | Angus Turner 34

https://angusturner.github.io/generative_models/2021/06/29/diffusion-probabilistic-models-I.html

35.

Derivation ● (21)を(18)に代入する ○ train時にxtは与えられているので、 lossとして考慮する必要はない ○ reverse processではノイズεさえ予測できれば良い reparameterization Diffusion Models as a kind of VAE | Angus Turner 35

https://angusturner.github.io/generative_models/2021/06/29/diffusion-probabilistic-models-I.html

36.

Derivation ● (22)を変形する .. forward process(encoder)で生成されるノイズ .. reverse process(decoder)で予測するノイズ生成されたノイズを除去（最小化）するように学習 36

37.

Derivation ● (23)のεθに(19)を代入 ○ tステップ（1 ≦ t ≦ T-1）毎の上式のlossを加算する 37

38.

Derivation ● 第三項（L0） ○ 最後のreverse processのステップからデータを復元する過程 ○ 論文では画像を想定して以下のスケーリング処理を定義 38

39.

Derivation ● 実験では簡素化した損失関数を使用 ○ Lt-1のスケーリングを無視 ○ L0を損失関数から除外 ○ この損失関数の方が実装が容易＆元の関数と同様の性能だったため最終的にはこちらを採用 39

40.

Training ● 訓練データからデータx0をサンプリング ● 一様分布からステップtをサンプリング ● ノイズεをサンプリング ● Gradient descentを用いて最適化 40

41.

Summary Diffusion Model ● 生成過程の隠れ変数をマルコフ連鎖で繋いだグラフィカルモデル ● forward processを通じて、元のデータを徐々に「破壊」する（ノイズを加える） ● reverse processを通じて、破壊されたデータを復元する工程を「学習」する ● 復元工程を深層学習で正確に実現することで、生成モデルとしての高い性能を示した Ayan Das · An introduction to Diffusion Probabilistic Models 41

https://ayandas.me/blog-tut/2021/12/04/diffusion-prob-models.html

42.

参考 [Blog] ● Diffusion Models as a kind of VAE | Angus Turner ● What are Diffusion Models? | Lil'Log ● The Annotated Diffusion Model [YouTube] ● Diffusion Models | Paper Explanation | Math Explained ● What are Diffusion Models? どれも分かりやすかったので、これらを参考に自身で式を追ってみることをオススメします 42

Diffusion Models

Kento Sugimoto

関連スライド

変分ベイズを理解する

Privacy-Preserving Deep Learning

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

Unreal Engine5 Lumenの仕組みと肝心なところ

最新の6.0で学ぶ！初めてのひとのためのSpring Security

SQL滅ぶべし

各ページのテキスト