【DL輪読会】Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

345 Views

October 30, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Representation Alignment for Generation: Training Diffusion Transformers Is Easier ThanYou Think Daiki Miyake, Matsuo Lab 1

2.

書誌情報 • タイトル – Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think • 採択先 – ICLR’25 oral • リンク – arXiv: https://arxiv.org/abs/2410.06940 – Openreview: https://openreview.net/forum?id=DJSZGGZYVi – GitHub: https://github.com/sihyun-yu/REPA 2

4.

背景: 視覚基盤モデル • 意味的情報を上手く低次元に落とし込めている • ImageNetの分類において線形分離だけで 77%達成 • 同一オブジェクトは同じようなベクトルに Encodeされる 4

5.

背景: 拡散モデル / Flow Matching • 完全なノイズを画像へ変換するパスを学習する 𝒇𝒇𝜽𝜽 𝒇𝒇𝜽𝜽 𝒇𝒇𝜽𝜽 𝒇𝒇𝜽𝜽 • 近年ではアーキテクチャとしてTransformerが使われる (DiT: Diffusion Transformer, SiT: Scalable Interpolant Transformer) 5

6.

REPA : 概要 • Transformerの中間表現を視覚基盤モデルの出力に近づける • 生成画像の品質が向上し,収束も早まる 6

7.

REPA : モチベーション • DiTの中間表現からクラス分類が可能 [Xiang+23] • 再構成学習によって,意味的情報が 自然に抽出される • 再構成のためには,中間表現はすべての 情報を含んでいる必要がある →視覚基盤モデルによって獲得されるような 「良い」表現ではない 7

8.

REPA : モチベーション • SiT/DiTの中間表現はDINOv2の出力に類似している • 学習の規模を大きくすると,類似度はさらに向上する →品質向上と中間表現のDINOv2への類似性は関係がある 8

9.

REPA : 手法 • DiT/SiTの中間表現 ℎ𝑡𝑡 をMLPに通し,DINOv2の出力 𝑦𝑦∗ と類似度を計算する • DiT/SiTの従来のlossとの重み付き和を最小化する 9

10.

REPA : 実験結果 • 視覚基盤モデルの線形分離性能(表現の良さ)が高くなるにつれて,生成品質も 向上する 10

11.

REPA : 実験結果 • 生成品質はDINOv2のモデルサイズには依存しない (DINOv2-B/LはDINOv2-gを蒸留して作られているから?) 11

12.

REPA : 実験結果 • 最初の方の層で類似度を取るのが良い 12

13.

REPA : 実験結果 • 類似度は,NT-Xent (Normalized Temperature-scaled Cross Entropy)よりも コサイン類似度で計算した方が良い 13

14.

REPA: 実験結果 • REPAを用いることで,より少ないiterationで同程度かそれ以上の生成品質を 達成できる 14

15.

REPA: まとめ • DiT/SiTの中間表現を学習済みの視覚基盤モデルの出力に合わせることで生成品 質の向上・学習の高速化を達成する • 後続研究は? 15

16.

背景: Latent Diffusion Models [Rombach+21] • 高解像度での画像生成は計算量が増大する • VAEを用いて,画像を解像度の小さな潜在変数(latent)に圧縮する Encode Decode • VAEを学習させた後に,Latent空間上でDiT/SiTを学習させる 16

17.

REPA-E: モチベーション • REPA-E[Leng+25]…ICCV’25 • VAEは再構成のみで学習させるため,latent空間はDiT/SiTで生成しやすい空間に なっているとは限らない – 実際,回転不変性や周波数分布に関する制約を加えてVAEを学習させると, LDMの生成品質が向上する [Kouzelis+25, Skorokhodov+25] • 生成しやすいlatent空間を, End-to-Endの学習によって獲得したい 17

18.

REPA-E: 手法 • 従来のDiT/SiTのlossのみでは,End-to-Endの学習は不可能 – ノイズから復元しやすいだけの単純なlatentが得られる • REPAによる中間表現のalignは限界がある →VAEがボトルネックになっている? • DiT lossとREPA loss,VAE lossの重み付き和を最小化 18

19.

REPA-E: 実験結果 • REPAよりも品質向上,学習高速化 19

20.

REPA-E: 実験結果 • latent空間をPCAで可視化 • 従来のVAEは高周波成分が過剰に多い/少ないが,REPA-Eでは学習によって調整 される 20

21.

ReDi: 手法 • ReDi[Kouzelis+25]…NeurIPS’25 splotlight • 中間表現をDINOに合わせるのではなく,DINOの特徴量をそのままlatent空間 に使う – VAEの出力と,DINOv2の出力をPCAしたものを線形変換してconcatする 21

22.

ReDi: 実験結果 • REPAよりも生成品質向上,学習高速化 • 生成されたlatentの可視化 22

23.

SVG: 手法 • SVG[Shi+25]…submitting to ICLR’26 • DINOの出力をlatentとして使う – DINOだけだと高周波情報が失われてしまうので,残差的に学習可能な Encoderも加える – Residual Encoder/SVG Decoderを学習した後に,DiT/SiTを学習する 23

24.

SVG: 結果 • latent空間がdisentangleされるため,特に少ステップ生成で性能が向上する 24

25.

RAE: 手法 • RAE[Zheng+25]…submitting to ICLR’26 • DINOの出力のみをlatentに使う – 以下の工夫を使うことで学習できる • モデル次元の拡張 • タイムステップのサンプリング手法の改良 • 潜在空間への確率性の導入 25

26.

RAE: 手法 • モデルの次元数がDINOの出力次元数よりも小さいと,DiTの学習が進まない – 層数は関係がない • 生成する時の時間ステップを等間隔ではなく,解像度に依存した非線形な感覚で 取る • DINOの特徴量そのままではなく,ノイズを付加したものをlatentとして使う 26

27.

まとめ • 学習済み視覚基盤モデルを用いて生成モデルの学習を効率化できる • 視覚基盤モデルに合わせる対象が,中間表現からlatentそのものへと変化してき ている – Latentも従来のlatentと合わせて使っていたのが,DINOの出力のみを使う方 向へシフトして来ている 27

28.

参考文献 • • • • • • • • • • [He+20] Kaiming He, et al. Momentum Contrast for unsupervised visual representation learning. CVPR2020. [Caron+21] Mathilde Caron, et al. Emerging properties in self-supervised vision transformers. ICCV2021. [Xiang+23] Weilai Xiang, et al. Denoising diffusion autoencoders are unified self-supervised learners. ICCV2023. [Rombach+21] Robin Rombach, et al. High-resolution image synthesis with latent diffusion models. CVPR2021. [Leng+25] Repa-e: Unlocking vae for end-to-end tuning of latent diffusion transformers. ICCV2025. [Kouzelis+25] Theodoros Kouzelis, et al. Eq-vae: Equivariance regularized latent space for improved generative image modeling. ICML2025. [Skorokhodov+25] Ivan Skorokhodov, et al. Improving the diffusability of autoencoders. ICML2025. [Kouzelis+25] Boosting generative image modeling via joint image-feature synthesis. NuerIPS2025. [Shi+25] Minglei Shi, et al. Latent diffusion model without variational autoencoder. arXiv:2510.15301. [Zheng+25] Boyang Zheng, et al. Diffusion transformers with representation autoencoders. 28 arXiv:2510.11690.