【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents

324 Views

October 03, 22

スライド概要

2022/9/30
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Hierarchical Text-Conditional Image Generation with CLIP Latents http://deeplearning.jp/

2.

書誌情報 タイトル : Hierarchical Text-Conditional Image Generation with CLIP Latents 著者 : Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen 組織 : OpenAI 会議 : arXiv (2022 April) URL : https://arxiv.org/pdf/2204.06125.pdf

3.

概要 ☑架空のポケモン生成に使われたモデルとして話題となったDALLE2モデルに関する論文 ☑CLIPモデルとDiffusionモデルを組み合わせ、Text-to-Imageに応用 したモデル ☑生成画像の高いリアリティ、多様性を実現 ☑text-to-imageの分野でのDALL-E2の特徴(長所・短所)を紹介

4.

モデルの構造 𝑧𝑖 𝑧𝑡 ドット積𝑧𝑖 ・𝑧𝑡 ➀ENCODER (CLIP MODEL) … 入力した画像とテキストをドット積の形でencode ➁PRIOR (DIFFUSION MODEL) … bipartite latent representation (zi; xT )を取得してdecoderに渡す ➂DECODER (DIFFUSION MODEL) … 生成画像を出力

5.

➀Encoder “CLIP Encoder” Learning Transferable Visual Models From Natural Language Supervision (2021) 画像とテキストのエンコードを個別で行い、そのドット積を出力

6.

➀Encoder “CLIP Encoder”の特徴 ➀学習に使用された画像データの量が大きい ②画像のエンコーディングで非常に優秀 ③一方、下流のV&Lタスクにおいてはイマイチな場合もあり、 他のモデルと組み合わせて使用することが推奨されている ・How Much Can CLIP Benefit Vision-and-Language Tasks? https://arxiv.org/pdf/2107.06383.pdf

7.

②Prior モデル➀ : Autregression Model Attention Is All You Need どちらかを選択 (Transformer) https://arxiv.org/pdf/1706.03762.pdf モデル② : Latent Diffusion Model An Image is Worth One Word_ Personalizing Text-to-Image Generation using Textual Inversion https://arxiv.org/pdf/2208.01618.pdf 通常の画像embeddingと、それを反転させたinverted embeddingを セットでDecoderに渡す 画像分布の変化を高精度で追うことができる ・Diffusion Models Beat GANs on Image Synthesis https://arxiv.org/pdf/2105.05233.pdf ・GAN Inversion: A Survey https://arxiv.org/pdf/2101.05278.pdf

8.

③Decoder • モデル Diffusion Model ADMNets (Diffusion Models Beat GANs on Image Synthesis, https://arxiv.org/pdf/2105.05233.pdf) ・入力 (CLIP embedding, 反転済み CLIP embedding) ・出力 テキストに沿うように生成された画像

9.

実験➀ 画像操作 バリエーション テキスト差分 A photo of a landscape in winter → a photo of a landscape in fall 補間

10.

実験② CLIP潜在空間の観察 ・物体の判定においては、画像中の テキストの影響を受けやすい ・画像操作(生成)を行っても、iPod ではなくリンゴの画像が生成される 一見相反する結果の裏で、CLIPがどう動いているか観察可能

11.

DALL-E2のdecoderへの入力 実験➂ DALL-E2でのtext-to-imageタスクへのCLIPによるエンコードの影響 Text, ImageどちらでもCLIP embeddingを含む場合に高再現度

12.

実験➃ DALL-E2とGLIDEとの比較 “A green vase filled with red roses sitting on top of table.” GLIDE vs DALL-E2 GLIDE 写実性 : 互角 妥当性: GLIDE 多様性 : DALL-E2 DALL-E2 Human Evaluationの得票率 (vs GLIDE)

13.

FIDスコア FIDスコアも他のあらゆる生成モデルより優秀

14.

DALL-E2の弱点 “a red cube on top of a blue cube” DALL-E2 GLIDE 複雑な文の再現に対してはDALL-E2は弱い

15.

まとめ ☑CLIPにDiffusion Modelを組み合わせることで、高品質の画像 生成を行うことができる(DALL-E2) ☑DALL-E2は従来のtext-to-imageのSOTAモデルと比べて写実性、 画質を維持しながら、生成画像の多様性で優位に立つ ☑一方で、複雑な内容のテキストには対応できない弱点がある

16.

関連論文 • Hierarchical Text-Conditional Image Generation with CLIP Latents(DALL-E2) • Denoising Diffusion Probabilistic Models(採用したDiffusion Modelについて) • Learning Transferable Visual Models From Natural Language Supervision(CLIPモデルの提案) • How Much Can CLIP Benefit Vision-and-Language Tasks? (CLIPモデルをV&Lタスクに利用することに関する評価と提案) • GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models(本論文の比較対象となった生成モデル、Priorの損失関数はこれを参照) • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion(Latent Diffusion Model) • LAFITE _ Towards Language-Free Training for Text-to-Image Generation(text-to-imageの他のモデル) • Zero-Shot Text-to-Image Generation(当初のDALL-Eモデル) • GAN Inversion: A Survey (inversionについて) • Diffusion Models Beat GANs on Image Synthesis (GANではなくDiffusion Modelを使うことを提案) • Classifier-Free Diffusion Guidance (diffusion guidanceの一つ)

17.

GLIDEモデルの概要 … DALL-E2と共通 Text Text Encoder : ADM Model Diffusion Models Beat GANs on Image Synthesis Image https://arxiv.org/pdf/2105.05233.pdf Image Encoder : Transformer … DALL-E2と相違 Decode Image Attention Is All You Need https://arxiv.org/pdf/1706.03762.pdf Noising : Diffusion Model Noised CLIP Denoising : Diffusion Model

18.

CLIP Encoderに使われているモデル ・Image Encoder … Transformer AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (2021) https://arxiv.org/pdf/2010.11929v2.pdf ・Text Encoder … Transformer Language Models are Unsupervised Multitask Learners https://d4mucfpksywv.cloudfront.net/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf

19.

“Diffusion Model”について 完全なノイズ Noising Denoising 元の画像

20.

計算量削減 • 従来はziとztのドット積を学習していたが、本論文のモデルで は2つのzi(image,画像)のサンプルを生成し、zt(text,テキスト)と のドット積の値が大きい方を採用するという形をとった →計算量削減 • すなわち、未ノイズzi(image embedding)を直接予測している