---
title: 【Diffusion勉強会】Unified Latents
tags: 
author: [Deep Learning JP](https://www.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/G78D25X57D.jpg?width=480
description: 【Diffusion勉強会】Unified Latents by Deep Learning JP
published: March 05, 26
canonical: https://www.docswell.com/s/DeepLearning2023/ZE1XDR-2026-04-15-120645
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/G78D25X57D.jpg)

DEEP LEARNING JP
[DL Papers]
Unified Latents (UL): How to train your latents
Gouki Minegishi, Matsuo Lab
http://deeplearning.jp/
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/L7LM2Y83JR.jpg)

書誌情報
• alphaXivでバズっていた
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4EMY8N6MEW.jpg)

モチベーション
• Diffusionすごい
– 大体がLatent Diffusion Model
• しかし，latentをどう学習するのが最適かわかっていない
– ほとんどのモデルはVAEを使う．この時のKL項は手動で設計する
– 最近だと，事前学習済みモデルを使ってlatentに制約をかける研究が多い
• RAE[Zheng+ ICLR26], ReDi[Kouzelis+ Neuirps25 spotlight], REPA[Yu+ ICLR25 oral]
– 理論的にはイけていない
• Latentの情報量のトレードオフ
– 今の研究は，Diffusionのことを（理論的に）考えずにlatentの情報量を決めている
Latentの情報量を減らす
学習しやすい（FIDの収束が早い）
高周波情報が落ちる（PSNR低下）
Latentの情報量を保持
ほぼ完全な再構成が可能
学習大変
（Diffusionに大きなcapacityが必要）
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/PER95DPLJ9.jpg)

背景
• VAE
– 基本的にpriorは固定ガウシアン（Normal）
• あえてz0というnotationをしておく
• （後段のLatent Diffusionのことを考えずに，この時のチャネル数とかKLDの強さ
でlatentが学習される）
– 結論を先に言うと
• この研究では，encoder/decoderに加えて，priorも学習する（diffusionで）
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/P7XQK1N6EX.jpg)

背景
拡散過程
完全ノイズ
クリーンデータ
• Diffusion
logSNR
𝑥1
𝑥 ∼ 𝑞(𝑥)
𝛼𝑡2
𝜆𝑡 = log( 2 )
𝜎𝑡
2
2
𝛼𝑡 + 𝜎𝑡 = 1
モデルと真の分布のKLは，ノイズ除去のMSEで上から抑えられる
• ほとんどの場合 x0=x（最小ノイズ＝データ）だが，あえて分けて書く
• 式の導出はVDM[kigma+21]を見ればわかるらしい
• 理論的には𝑤 𝜆𝑡 = 1である必要があるが，大体𝑤 𝜆𝑡 = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝜆𝑡 − 𝑏)が使われる
• つまり，データ(t=0)に近い方がMSEの重みが大きい
𝜃
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/37K952NG7D.jpg)

提案：Unified Latent Diffusion
• Priorもdiffusionで学習することで，生成に最適化されたlatentを学習する
– Latentの情報量を制御しながら，同時に生成も学習できる
– 後段のDiffusionの学習とlatentに詰め込む情報量のパレート最適を狙う（多分）
• EncoderはただのResnetなので，diffusion priorとdiffusion decoderを説明
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/LJ3WK4V5J5.jpg)

Diffusion Prior
• PriorをDiffusionの生成分布とする
– VAEのKL項の上界は，ノイズ除去のMSEとしてかけた
• ポイント
– Z0はcleanなZではない．ちょっとノイズを足す
• Zの情報量に上界をつける．（ただこの5がどっからきたか不明）
• 上界がないと無限に情報量をzに詰め込めちゃう
– 𝑤 𝜆𝑧 (𝑡) = 1で良い．
• 理論通りで良い（理由がよくわからなかったけど，画像生成じゃないから？）
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/8JDK3Q8YEG.jpg)

Diffusion Decoder
• 普通のDiffusionにz0の条件がついたもの
• ポイント
– 𝜆𝑡 が低い時はlatentのloss強め，大きい時はdecoder
のloss強めのものを使う（=1じゃない）
• 要は，データに近い時（高周波の時）decoder強め
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/VEPK4L8278.jpg)

全体, Encoder + Prior Diffusion + Decoder Diffusion
• Encoder/Prior Diffusion/Decoder
Diffusionを全て同時に学習する
– 実際は，diffusion priorもラムダ重み付
きで再学習させる（結局2phase らし
い）
– 目的関数はシンプルに２つのみ
• （理解不足であまり嬉しさを完全理
解できていない）
– Latentの情報量と生成を同時に最適化で
きるのが嬉しい
• これが最適なんかよくわからない
– Z0がガウシアンじゃなくて，任意の
continuous distributionなの良さそう
– 生成遅そう
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/27VVXQNX7Q.jpg)

実験
• モデルアーキテクチャ
– Encoder : ResNet
– Prior Diffusion : ViT
– Decoder Diffusion : Uvit
• 評価指標
– 512x512のimagenetのFID, Kinetics-600のFVD
– T2Iの性能，Clip Alighnment
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/5JGLVWKR7L.jpg)

学習効率が良い，SOTA
Image
Video
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/47QY63NYEP.jpg)

Text2Image
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/KE4W41GZJ1.jpg)

Ablation
• Priorも生成もDiffusion/Diffusionなのが良い
13


