【Diffusion勉強会】Unified Latents

1.4K Views

March 05, 26

#拡散モデル #潜在拡散モデル #深層学習 #画像生成 #動画生成

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 70.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 53.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Unified Latents (UL): How to train your latents Gouki Minegishi, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • alphaXivでバズっていた 2

モチベーション • Diffusionすごい – 大体がLatent Diffusion Model • しかし，latentをどう学習するのが最適かわかっていない – ほとんどのモデルはVAEを使う．この時のKL項は手動で設計する – 最近だと，事前学習済みモデルを使ってlatentに制約をかける研究が多い • RAE[Zheng+ ICLR26], ReDi[Kouzelis+ Neuirps25 spotlight], REPA[Yu+ ICLR25 oral] – 理論的にはイけていない • Latentの情報量のトレードオフ – 今の研究は，Diffusionのことを（理論的に）考えずにlatentの情報量を決めている Latentの情報量を減らす学習しやすい（FIDの収束が早い）高周波情報が落ちる（PSNR低下） Latentの情報量を保持ほぼ完全な再構成が可能学習大変（Diffusionに大きなcapacityが必要） 3

背景 • VAE – 基本的にpriorは固定ガウシアン（Normal） • あえてz0というnotationをしておく • （後段のLatent Diffusionのことを考えずに，この時のチャネル数とかKLDの強さでlatentが学習される） – 結論を先に言うと • この研究では，encoder/decoderに加えて，priorも学習する（diffusionで） 4

背景拡散過程完全ノイズクリーンデータ • Diffusion logSNR 𝑥1 𝑥 ∼ 𝑞(𝑥) 𝛼𝑡2 𝜆𝑡 = log( 2 ) 𝜎𝑡 2 2 𝛼𝑡 + 𝜎𝑡 = 1 モデルと真の分布のKLは，ノイズ除去のMSEで上から抑えられる • ほとんどの場合 x0=x（最小ノイズ＝データ）だが，あえて分けて書く • 式の導出はVDM[kigma+21]を見ればわかるらしい • 理論的には𝑤 𝜆𝑡 = 1である必要があるが，大体𝑤 𝜆𝑡 = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝜆𝑡 − 𝑏)が使われる • つまり，データ(t=0)に近い方がMSEの重みが大きい 𝜃 5

提案：Unified Latent Diffusion • Priorもdiffusionで学習することで，生成に最適化されたlatentを学習する – Latentの情報量を制御しながら，同時に生成も学習できる – 後段のDiffusionの学習とlatentに詰め込む情報量のパレート最適を狙う（多分） • EncoderはただのResnetなので，diffusion priorとdiffusion decoderを説明 6

Diffusion Prior • PriorをDiffusionの生成分布とする – VAEのKL項の上界は，ノイズ除去のMSEとしてかけた • ポイント – Z0はcleanなZではない．ちょっとノイズを足す • Zの情報量に上界をつける．（ただこの5がどっからきたか不明） • 上界がないと無限に情報量をzに詰め込めちゃう – 𝑤 𝜆𝑧 (𝑡) = 1で良い． • 理論通りで良い（理由がよくわからなかったけど，画像生成じゃないから？） 7

Diffusion Decoder • 普通のDiffusionにz0の条件がついたもの • ポイント – 𝜆𝑡 が低い時はlatentのloss強め，大きい時はdecoder のloss強めのものを使う（=1じゃない） • 要は，データに近い時（高周波の時）decoder強め 8

全体, Encoder + Prior Diffusion + Decoder Diffusion • Encoder/Prior Diffusion/Decoder Diffusionを全て同時に学習する – 実際は，diffusion priorもラムダ重み付きで再学習させる（結局2phase らしい） – 目的関数はシンプルに２つのみ • （理解不足であまり嬉しさを完全理解できていない） – Latentの情報量と生成を同時に最適化できるのが嬉しい • これが最適なんかよくわからない – Z0がガウシアンじゃなくて，任意の continuous distributionなの良さそう – 生成遅そう 9

10.

実験 • モデルアーキテクチャ – Encoder : ResNet – Prior Diffusion : ViT – Decoder Diffusion : Uvit • 評価指標 – 512x512のimagenetのFID, Kinetics-600のFVD – T2Iの性能，Clip Alighnment 10

11.

学習効率が良い，SOTA Image Video 11

12.

Text2Image 12

13.

Ablation • Priorも生成もDiffusion/Diffusionなのが良い 13