-- Views
March 05, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Unified Latents (UL): How to train your latents Gouki Minegishi, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • alphaXivでバズっていた 2
モチベーション • Diffusionすごい – 大体がLatent Diffusion Model • しかし,latentをどう学習するのが最適かわかっていない – ほとんどのモデルはVAEを使う.この時のKL項は手動で設計する – 最近だと,事前学習済みモデルを使ってlatentに制約をかける研究が多い • RAE[Zheng+ ICLR26], ReDi[Kouzelis+ Neuirps25 spotlight], REPA[Yu+ ICLR25 oral] – 理論的にはイけていない • Latentの情報量のトレードオフ – 今の研究は,Diffusionのことを(理論的に)考えずにlatentの情報量を決めている Latentの情報量を減らす 学習しやすい(FIDの収束が早い) 高周波情報が落ちる(PSNR低下) Latentの情報量を保持 ほぼ完全な再構成が可能 学習大変 (Diffusionに大きなcapacityが必要) 3
背景 • VAE – 基本的にpriorは固定ガウシアン(Normal) • あえてz0というnotationをしておく • (後段のLatent Diffusionのことを考えずに,この時のチャネル数とかKLDの強さ でlatentが学習される) – 結論を先に言うと • この研究では,encoder/decoderに加えて,priorも学習する(diffusionで) 4
背景 拡散過程 完全ノイズ クリーンデータ • Diffusion logSNR 𝑥1 𝑥 ∼ 𝑞(𝑥) 𝛼𝑡2 𝜆𝑡 = log( 2 ) 𝜎𝑡 2 2 𝛼𝑡 + 𝜎𝑡 = 1 モデルと真の分布のKLは,ノイズ除去のMSEで上から抑えられる • ほとんどの場合 x0=x(最小ノイズ=データ)だが,あえて分けて書く • 式の導出はVDM[kigma+21]を見ればわかるらしい • 理論的には𝑤 𝜆𝑡 = 1である必要があるが,大体𝑤 𝜆𝑡 = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝜆𝑡 − 𝑏)が使われる • つまり,データ(t=0)に近い方がMSEの重みが大きい 𝜃 5
提案:Unified Latent Diffusion • Priorもdiffusionで学習することで,生成に最適化されたlatentを学習する – Latentの情報量を制御しながら,同時に生成も学習できる – 後段のDiffusionの学習とlatentに詰め込む情報量のパレート最適を狙う(多分) • EncoderはただのResnetなので,diffusion priorとdiffusion decoderを説明 6
Diffusion Prior • PriorをDiffusionの生成分布とする – VAEのKL項の上界は,ノイズ除去のMSEとしてかけた • ポイント – Z0はcleanなZではない.ちょっとノイズを足す • Zの情報量に上界をつける.(ただこの5がどっからきたか不明) • 上界がないと無限に情報量をzに詰め込めちゃう – 𝑤 𝜆𝑧 (𝑡) = 1で良い. • 理論通りで良い(理由がよくわからなかったけど,画像生成じゃないから?) 7
Diffusion Decoder • 普通のDiffusionにz0の条件がついたもの • ポイント – 𝜆𝑡 が低い時はlatentのloss強め,大きい時はdecoder のloss強めのものを使う(=1じゃない) • 要は,データに近い時(高周波の時)decoder強め 8
全体, Encoder + Prior Diffusion + Decoder Diffusion • Encoder/Prior Diffusion/Decoder Diffusionを全て同時に学習する – 実際は,diffusion priorもラムダ重み付 きで再学習させる(結局2phase らし い) – 目的関数はシンプルに2つのみ • (理解不足であまり嬉しさを完全理 解できていない) – Latentの情報量と生成を同時に最適化で きるのが嬉しい • これが最適なんかよくわからない – Z0がガウシアンじゃなくて,任意の continuous distributionなの良さそう – 生成遅そう 9
実験 • モデルアーキテクチャ – Encoder : ResNet – Prior Diffusion : ViT – Decoder Diffusion : Uvit • 評価指標 – 512x512のimagenetのFID, Kinetics-600のFVD – T2Iの性能,Clip Alighnment 10
学習効率が良い,SOTA Image Video 11
Text2Image 12
Ablation • Priorも生成もDiffusion/Diffusionなのが良い 13