[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

236 Views

January 07, 22

#deep learning #Deep Learning #Text-Guided Image Generation #GLIDE #Diffusion Model #Image Editing

スライド概要

2022/01/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] GLIDE: Guided Language to Image Diffusion for Generation and Editing Xin Zhang, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● タイトル： ○ GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models(arxiv) ● 著者：Alex Nichol, Prafulla Dhariwal Aditya Ramesh et al. (OPENAI) ● 20 Dec 2021 ● 概要 ○ テキストからリアルな画像を生成するDiffusion Model ○ ２種類の条件付けの方法で、複数の工夫を取り入れた実装 ○ 綺麗な画像の生成に成功し、小さめなモデルを公開した 2

https://arxiv.org/abs/2112.10741

Introduction

CLIP + Generative Model DALL-E (dVAE) StyleCLIP (StyleGAN)

GANは主流だが、訓練時の安定性と生成画像の多様性に問題 - 多様性と忠実度はトレードオフであり、GANは多様性を犠牲にしているから忠実度が高い。それトレードオフをコントロールすることで、BigGANにFIDで勝った画像生成でBigGANに勝った？！Diffusion Modelsについて

https://ai-scholar.tech/articles/image-generation/DiffusionModels

Diffusion Modelで色々できるようになってきた！ - 多くのタスクは結局Image-to-Imageの形式に落とせる Diffusion Modelはマルチタスクができる（タスク特化の学習しなくてもよい）４種類の画像生成タスクへのチャレンジ!拡散モデルPaletteについて

https://ai-scholar.tech/articles/diffusion-model/Palette

CLIP + Diffusion Model: GLIDE

GLIDE: Text-Guided Diffusion Models

DDPM(Denoising Diffusion Probabilistic Models) 拡散モデル(DDPM)には、二つのプロセスがある 1. diffusion/forward process a. 画像にガウスノイズを加え続けて、画像を完全なノイズにする 2. reverse process a. ガウスノイズを取り除いて、次のステップの画像を生成していき、最終的に綺麗な画像が得られるモデル：ノイズを予測することを学習させる - ノイズが予測するには、ノイズでないところを認識する必要がある - 生成する物体が理解できる

https://arxiv.org/pdf/2006.11239.pdf

10.

Guided Diffusion ２種類のガイド方法を用いた CLIP(Classifier) Guidance - 分類モデルの損失勾配で重みづける - CLIPの潜在空間での類似度を用いる特徴：二つのモデルが必要だが、同時に学習する必要はない。 - Diffusion Modelと別にClassifierを用意して、Classifierの知識を利用して画像を生成。 Classifier-free guidance - 2回のノイズ予測で条件付けを行う - Captionで重みづける特徴：一つのモデルで済むが、Diffusion Modelを異なるGuidanceする時に再訓練が必要 - Diffusion Modelを学習する際に、 Guidanceを付けているため (1)

11.

GLIDE Text-Conditional Diffusion Models Fine-Tuning for classifier free guidance Image Inpainting (Fine-tuning) - Add 4 channels (RGB channels, a mask channel) Noised CLIP models - Trained Image Encoder with noised image at 64x64 resolution.

12.

Experiments

13.

定量評価 - 忠実度（解像度）と多様性のトレードオフはやはり存在する。 - Classifier-freeの方が精度が良さそう - Diffusion Modelの方が(GAN,VAEより)本物っぽく生成できる！？

14.

Text to Image

15.

Image Editing

16.

Image Editing 凄すぎる・・・

17.

Image Editing(with SDEdit model) SDEdit

https://github.com/ermongroup/SDEdit

18.

19.

Conclusion

20.

Safety Considerations & Limitations Released small model trained on a smaller, filtered dataset. Fail to capture certain prompts which describe highly unusual objects or scenarios.

21.

Impressions - Video Generation系の研究に期待絵が下手でも大丈夫 an cartoon of Mount Fuji an oil painting of happy new year