【Diffusion勉強会】Representation Autoencoder

1.7K Views

November 05, 25

#Representation Autoencoder #Diffusion Transformer #画像生成 #視覚エンコーダー #潜在空間

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

Representation Autoencoder(とその周辺) 2025.11.05 Shumpei Takezaki

1 紹介する論文と概要 ICLR2026 submitted • Diffusion Transformers with Representation Autoencoders • DiTに視覚エンコーダー(DINOなど)と学習済みのデコーダーを組み合わせた Representation Autoencoders (RAE)を導入 • ImageNetの生成においてFID 1.51 (256×256)と 1.13(512×512)を達成視覚エンコーダーデコーダー

2 拡散モデルはLatent spaceで動いている今日はDiTメイン • Latent Diffusion Models (LDM)やDiffusion Transformer (DiT) が高い生成精度と処理効率を実現 • ほとんどの大規模な拡散モデル[1,2,3]はLatent spaceで動いているといっていい Stage1: Autoencoder for Latent Space Stage 2: Diffusion Model in Latent space Corrupt Latent VAE Enc. VAE Dec. VAE Enc. DiT SD-VAE Reconstruction Denoising

3 視覚エンコーダーを用いた拡散モデルの改善 • 視覚エンコーダー (DINO[4,5], MAE[6], CLIP[7]/SigLIP[8]など)を使って拡散モデルを改善するような手法が提案 • 意味構造を持つ特徴空間を拡散モデルの学習に活用！ DINO[4,5] MAE[6] VFM=Vision Foundation Model (視覚エンコーダーと呼んでます) CLIP[7] / SigLIP[8]

4 視覚エンコーダーを用いた拡散モデルの改善 • 視覚エンコーダーの特徴と”Alignment”を取るのが常套手段 • Stage1: Latent spaceでAlignment • Stage2: DiT中間特徴でAlignment

5 視覚エンコーダーを用いた拡散モデルの改善 • 視覚エンコーダーの特徴と”Alignment”を取るのが常套手段 • Stage1: Latent spaceでAlignment • Stage2: DiTの中間特徴でAlignment Latent VAE Enc. VAE Dec. VA-VAE[9] Align ReDi[10] VFM Feature

6 視覚エンコーダーを用いた拡散モデルの改善 • 視覚エンコーダーの特徴と”Alignment”を取るのが常套手段 • Stage1: Latent spaceでAlignment • Stage2: DiTの中間特徴でAlignment REPA[11] REG[13] REPA-E[12] DDT[14] Corrupt VAE Enc. DiT Hidden feature VFM Align Feature

7 提案手法: Representation Autoencoder (RAE) • RAE: 視覚エンコーダーと学習済みのデコーダーを組み合わせたAE • RAEのLatent spaceに適したDiTを提案 (small) Corrupt RAE Dec. VFM VFM DiT RAE Reconstruction Denoising DDT Head Corrupt

8 提案手法: Representation Autoencoder (RAE) • RAE: 視覚エンコーダーと学習済みのデコーダーを組み合わせたAE • RAEのLatent spaceに適したDiTを提案 3. Noise Scheduler (small) Corrupt Corrupt RAE Dec. VFM RAE Reconstruction 1. RAE Recon. 2.DiT Arch. VFM DiT DDT Head 4. Noise-Aug. Decoding Denoising 5. DDT Head

10.

9 1. RAE Reconstruction • RAEで高精度な再構成が可能であるかを評価 • VFM＆Decoderの大きさと再構成精度との関係を調査 DINOv2, SegLIP, MAE ViT-B, L, XL A e Reconstruction SD-VAEとほとんどおなじ (KL lossだけなし)

11.

10 1. RAE Reconstruction A e • RAEで高精度な再構成が可能であるかを評価 • VFM＆Decoderの大きさと再構成精度との関係を調査基本的にはこの組み合わせ - Enc.: DINOv2-B - Dec.: ViT-XL 再構成評価 (Dec.はViTXL) Decoderの大きさで比較 (Enc.はDINOv2-S) VFMの大きさで比較 (Dec.はViT-XL) 意味的な空間の評価 (Linea prob.) EncoderにVFM使っても高精度な再構成が可能！ Decoderは大きいほど精度がいい VFMは小さなモデルで十分 SD-VAEは意味的な特徴を捉えていない ※1 rFID=Reconstruction FID. Lower is better ※2 ImageNet-1kで評価

12.

11 t RAEをDiTで使ってみよう i • RAEのLaten spaceでも従来のDiTと同じ計算量 • 𝑛 = VFM特徴空間の次元 (DINOv2-Bでは768) • 𝑑 = DiT特徴空間の次元 (DiT-Bでは768) • 𝑙 = DiT blockの数 (深さ） i ここの大きさが従来のDiTと同じ=同じ計算量 n at i at l i i t パッチサイズ 𝑝=

13.

12 t RAEをそのまま使うと精度が悪い.. i • ImageNetのgFIDが，RAE > SD-VAEとなってしまう • 著者たちはRAEのLatent spaceを用いたDiTのために以下の3つを提案 • DiTアーキテクチャの改善 • 高次元なLatent spaceのためのNoise schedule • Noisy latentsに対応したDecoder ImageNetのgFID (50 steps Euler sampler) ※1 gFID= Generation FID. Lower is better

14.

ここに注目 t 2. DiT Architecture i • DiT特徴次元𝑑とVFM特徴次元𝑛の関係 𝑑 < 𝑛: サンプルの品質が劣化） (画像1枚すら再現できない) “画像1枚のみ”を用いて学習したときの結果 𝒅 ≥） 𝒏: 品質が急激に改善 𝑑 < 𝑛 の時，DiT blockの数𝑙を大きく(深く)しても品質は改善しない 13

15.

ここに注目 t 2. DiT Architecture i • DiT特徴次元𝑑 ≥ VFM特徴次元𝑛であることが必須 • VFMの大きさに合わせたDiTを用意する必要がある • Encoder: DINOv2-B (𝑛 = 7 8)，Decoder: DiT-XL (𝑑 = VFM (DINOv2)とDiTの対応 (損失の値) 𝑑≥𝑛 𝑑<𝑛 )を使用 14

16.

ここに注目 t 2. DiT Architecture • 𝑑 ≥ 𝑛でないといけない理論的な理由づけも行っている • 𝑑 < 𝑛 の時， 𝑛次元データにおける拡散モデルの損失は0に収束しない • 𝑑 ≥ 𝑛だと，０に収束することが保証される i 15

17.

ここに注目 16 t 3. Noise schedule i • 高次元データを適切に拡散するNoise scheduleを使用 • RAE (𝑛 = 7 8)は，SD-VAE (𝑛 ≤ )に比べて次元が高い • 高次元データを低次元データと同じだけ壊すには多くのノイズ付与が必要 • 時刻をシフトし早い時刻でより多くのノイズを付与 (SD3[3]で提案されているものをそのまま使用) Corrupt 猫猫 ×猫 𝑡𝑏 = + ( 𝑏Τ𝑎 − )𝑡𝑎 𝑏 Τ𝑎 = 3とすると， → 𝑡𝑏 ≈ 0.4 → 時刻0 2で時刻0 4分のノイズ付与 𝑎: シフト前の次元. 409 に設定 𝑏: シフト後の次元. 9 , 08 (= 7 8)に設定 𝑡𝑎 , 𝑡𝑏 : シフト前，シフト後の時刻．[0, ]の範囲． 3 猫 3 低次元高次元高次元だと情報が残る 𝑏Τ𝑎 𝑡𝑎 𝑡𝑎 = 0. , g I : 23 08→4 81に改善

18.

17 4. Noise-Augmented Decoding • DecoderでNoisy latentの再構成を学習 • Noisy latent: Latentに少量のノイズを付与 • 生成されるLatentは必ずしも綺麗ではない • ノイズ付与ありの学習で再構成の頑健性と汎化性を改善ここに注目 (small) Corrupt RAE Dec. VFM Reconstruction ノイズ付与なし〃あり再構成精度 ( I )は悪化するが，生成精度 (g I )が改善

19.

18 改善点を組み込んだDiT with RAEを評価 • 1.~4.を組み合わせてモデルで従来手法 (SiT[15], REPA[11])と比較 SiTの47倍, REPAの16倍効率的な学習 g I =2 39を達成

20.

5. DDT Head i 19 ea ここに注目 t • 高次元なLatentを効率よく計算するためにDDT Headを利用 • 𝑑 ≥ 𝑛の制約のために層を深くすると計算量が急激に増加 • 浅いが幅の広いTransformerモジュールであるDDT Headを導入 • DDT[14]から着想を得たモジュール • DDT Headで扱う特徴だけ高次元に設定 (𝑑′ = 048を採用) 𝑑 𝑑′ 𝑙 i Unpatchify DDT Final l i at 𝑛 ea DDT Block i DiT Block t 𝑑 𝑛

21.

5. DDT Head i ea の導入により，大幅な生成精度の改善を実現 • • 特に高次元なLatent s a e ( INOv2-L)において大幅な改善 • 学習効率も大幅な改善が見られた学習効率生成精度 ↑ DDT Headなし〃あり ImageNetのg I ↑ ea ここに注目 t 20

22.

21 SOTA DiT手法との比較 • 収束速度，スケーリングの観点で比較収束速度UP↑ スケーリング性↑

23.

22 ImageNetの画像生成でSOTA手法と比較 lass- n iti nal 256x256 gFID 1.51 (1.13 w/ Autoguidance[16]) Class-conditional 512x512 gFID 1.13 w/ Autoguidance

24.

23 拡散モデルにおける視覚エンコーダーを使ったLatent space • RAEの他にも同時期に同じコンセプトの研究が多数投稿 • 全てICLR2026へ投稿．若干，手法や実装が異なる • RAE以外はVFMの最適化やAdapterを使用 T2Iを実装! G i, et al [19] en, et al [17] Bi, et al.[18] Shi, et al.[20]

25.

24 まとめ • まとめ • DiTのLatent spaceとしてVFMの特徴空間をそのまま使用 • VFMの特徴空間は，再構成精度 (rFID)，生成精度 (gFID)ともに改善 • 同じようなモチベーションの研究が複数報告されている (T2Iも可能） • 感想 • VFMとDiTを“直接つなげた”初めての研究で興味深かった • これからのスタンダードな拡散モデルとなり得るので今後の発展に期待 • AEも含めてすべてがTransformerで成立しているところも大きい

26.

25 参考文献 [1] bin mba , et al , “ ig - es l ti n Image S nt esis wit Latent [2] la est Labs, L X, 2024, tt s://git b [3] at i sse , et al , “S aling e ti ie ans [4] at il e a [5] axime Oq ab, et al , “ INOv2: Lea ning [6] Kaiming n, et al , “ me ging l w [7] Ale a [8] Xia a Z ai, et al , “Sigm i L ss [9] Jing eng Ya , et al , “ e [10] e [11] Si sK nst zelis, et al , “ n Y , et al , “ e [13] Ge W , et al , “ e [14] S [16] e [17] me s,” I 2021 is al eat es wit tS e visi n,” L , 2024 isi n Lea ne s,” els Lang age Image e- aining,” I Gene ati n: Gene ati n: i si n a, et al , “Si : x l ing l w an i si n en, et al , “Aligning is al n ati n [19] ing G i, et al , “A a ting Sel -S [20] inglei S i, et al , “Latent i si n i ans aining els an e G e st e si n ilemma in Latent i si n i si n i i si n els,” 2025 e S nt esis,” Ne I S2025 ans me s Is asie si n ans an Y in ”, I L 2025 ans me s”, I 2025 me s Is asie an Y in ,” a xiv e int, 2025 els wit S alable Inte lant ans me s,” Itsel ,” Ne I S2024 enize s enize s i Latent si n i e esentati ns as a Latent S a e el wit L2021 2023 ning wit Latent si n-base Gene ative n ati n n e vise aining me ,” a xiv el wit a a e visi n,” I eling via J int Image- eat esentati n ntanglement [18] ian i i, et al , “ isi n 2022 m Nat al Lang age S sting Gene ative Image le L2024 ans n -t - n Ka as, et al , “G i ing a wei ig - es l ti n Image S nt esis”, I ti n vs Gene ati n: aming O timizati n e 2022 isi n e s A e S alable nl els”, e vise ans e able is al A- : : si n est-labs/ l x ing A ai Wang et al , “ [15] Nan e b st esentati n Alignment [12] Xingjian Leng, et al , “ - me s e ties in Sel -S e, et al , “ as e A t en , et al , “Lea ning m/bla i t a iati nal A t en e ”, a xiv els,” a xiv si n e int, 2025 els”, a xiv e int, 2025 i ient Gene ati n,” a xiv e int, 2025 e int, 2025 2024 e int, 2025

https://github.com/black-forest-labs/flux

27.

26 Appendix

28.

27 RAEを用いた効率的な高解像度画像生成 • RAEのEncoderには256ピクセル，Decoderには512を対応させることで，高解像度画像生成におけるトークン数を削減可能 512 (small) 256 esize 512 t A e トークン数は256のまま (そのままなら1024) e nst ti n 256ピクセル用のLatent s a eで学習した i をそのまま使える！若干精度は下がるがトークン数は4倍効率が良い

29.

28 Ablation study 1: DDT Head単体の効果検証 • DDT HeadはRAEのLatent spaceを使用した時に効果を発揮する • SD-VAEのLatent spaceの場合はむしろ劣化をもたらす SD-VAE RAE Down↓ UP↑ ea なし〃あり

30.

29 Ablation study 2: DDT HeadをPixel spaceで検証 • ea は高次元な空間である ixel s a eでも効果があるのか？ • ixel空間でも ea は改善をもたらす • ただし， A のLatent s a eと ixel s a eの間には大きな差が存在 DDT Headなし〃あり UP↑ UP↑