【拡散モデル勉強会】Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

8.4K Views

March 19, 24

#高解像度画像合成 #拡散モデル #Rectified Flow #タイムステップサンプリング #Multimodal Diffusion Transformer

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

Scaling Flow Transformers DL HacksRectified 2021 Introductory Session for High-Resolution Image Synthesis 竹田悠哉, Lui Yoshida Lab. Alfredo Solano, Matsuo Laboratory

概要 • Rectified Flow(RF)のスケーリングを検証 – LDMの従来の拡散学習方式より改善され、数ステップで好ましい特性 • RFのための新しいタイムステップサンプリングの提案 • (Multimodal Diffusion Transformer)MM-DiTの利点を実証 2

フローマッチング • ノイズ分布p_0からのx_0のサンプリングと、 p_1からのx_1のサンプリングのマッピング • 直接解くこともできるが計算コストが高過ぎる • p_0とp_1の間の確率パスを生成するベクトル場を直接的に回帰 3

フローの軌道 • Rectified Flow • EDM • Cosine • (LDM-)Linear – スケジューリングにDDPMの修正案を使用 4

実験 • サンプラー、EMA重み、データセットの24通りの組み合わせを実験（最も性能の良い2つのバリアントを表示） • データセット – ImageNet – CC12M • 評価 – COCO-2014バリデーション分割 5

実験 • Lognorm(0.00, 1.00)が一貫して良い • 一様なサンプリング(rf)を上回り、中間ステップが重要という仮説が裏付けられた 6

実験 • 上 – 25のサンプリングステップを持つ両方のデータセットにおける代表的なバリエーション • 真ん中 – CLIPとFIDのスコアが最も優れているバリエーション – rf/mode(1.75)を除いて、これらの変種は一般的に一方のメトリックでは非常に良い性能を示す • 下 – rf/lognorm(0.00, 1.00)はやはり良好 7

実験 • RFはより少ないステップで高いパフォーマンス • 25ステップ以上だと、rf/lognorm(0.00,1.00)のみが競争力を維持 8

実験 • MM-DiTで大規模でも有効なことを確認 9

10.

その他の工夫 • チャネル増やす • 自動キャプショニング（CogVLMを利用） – 人手のキャプションが、被写体に焦点を当てており、背景や構図、表示テキストなどが省略されているため、キャプションをミックス 10

11.

その他の工夫 • DPOでFinetuning（線形層にLoRA）することでより人に好まれる画像を生成できるように 11

12.

その他の工夫 • 前処理 – NSFW検出モデルでセクシャルな画像を排除 – Aestheticsレートが低い画像を除去 – クラスタに基づく重複排除（知覚的・意味的な重複を除去） 12

13.

その他の工夫 • QK-Normalization – アスペクト比が異なる高解像度画像でのアップサンプリングにおいて損失の発散を防ぐ 13

14.

定性的な評価 • 概ね全てのモデルに対し50%以上の勝率 14

15.