【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

1K Views

August 19, 22

#deep learning #Deep Learning #Image Generation #Latent Diffusion Model #Text-to-Image Generation #Yuki Sato

スライド概要

2022/8/19
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “An Image is Worth One Word: Personalizing Text-toImage Generation using Textual Inversion” University of Tsukuba M1, Yuki Sato http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • • • • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal1, 2, Yuval Alaluf1, Yuval Atzmon2, Or Patashnik1, Amit H. Bermano1, Gal Chechik2, Daniel Cohen-Or1 - 1Tel-Aviv University, 2NVIDIA 投稿先: arXiv(2022/08/02) プロジェクトページ: https://textual-inversion.github.io/ 選定理由: ➢ 近年盛んなText-to-Imageにおいて生成画像の多様性だけではなくユーザの意図を汲んだ画像生成を実現しており需要が高いと考えられる. ➢ シンプルな手法で応用の幅が広いと考えられる. ※出典が明記されていない限り図表は論文・プロジェクトページより引用 2

https://textual-inversion.github.io/

概要 • 3-5枚の画像を入力として、この画像群を表現する単語１語の埋め込み表現を学習済みLatent Diffusion Model(LDM)を用いて最適化し、この表現を用いて文章を同じLDMに入力することでユーザの意図した画像の生成を可能にした. LDMを用いた𝑆∗の埋め込みベクトルの最適化コンセプト画像 “A photo of 𝑆∗” コンセプト画像を表すテキストデータ 𝑣∗ 𝑆∗の埋め込みベクトルを𝑣∗としてLDMに入力 𝑆∗を表す埋め込み表現 3

Diffusion Model • 入力𝑥0 に対してガウシアンノイズを段階的に付与してガウス分布𝑥 𝑇 に変換する過程𝑞(𝑥𝑡 |𝑥𝑡−1 )を考え、これの逆変換である段階的なノイズ除去𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )をDNNで学習する. • DNNはノイズの含まれる画像𝑥𝑡 を入力として𝑥𝑡−1 に対して付与されたガウシアンノイズを予測しデノイズして次のステップに移る. Jonathan Ho et al. “Denoising Diffusion Probabilistic Model”, NeurIPS, 2020. 4

Latent Diffusion Model • AutoEncoderの潜在変数に対してDiffusion modelを適用するモデル. • 入力画像からEncoderℰを用いて中間表現を抽出し、中間表現に対してDiffusion modelを適用、再構成された中間表現をDecoder 𝒟に入力して画像を出力する. • ℰ, 𝒟は事前に学習されており、U-Net𝜖𝜃 と条件付けのEncoder 𝜏𝜃 の学習時には固定する. 𝑥 ∈ ℝ𝐻×𝑊×3 𝑧 ∈ ℝℎ×𝑤×𝑐 Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Model”, CVPR, 2022. 5

Latent Diffusion Model • LDMのでは中間表現に対してノイズを付与しU-Net 𝜖𝜃 でデノイズする.この時、デノイズ過程においてクラスラベル等をEncoder 𝜏𝜃 を用いて中間表現に変換し𝜖𝜃 のcross-attentionで用いる. • 𝜖𝜃 と𝜏𝜃 は以下の損失関数で同時に最適化される. 条件付ける特徴量: 𝜏𝜃 𝑦 ∈ ℝ𝑀×𝑑𝑟 𝑖 U-Netの中間特徴量: 𝜑𝑖 𝑧𝑡 ∈ ℝ𝑁×𝑑𝜖 𝑄𝐾 𝑇 𝑑 ℝ𝑑×𝑑𝑟 Attention 𝑄, 𝐾, 𝑉 = softmax (𝑖) 𝑄 = 𝑊𝑄 ∙ 𝜑𝑖 𝑧𝑡 , 𝑊𝑄 𝑖 ∈ ∙𝑉 (𝑖) K = 𝑊𝐾 ∙ 𝜏𝜃 𝑦 , 𝑊𝐾 𝑖 ∈ ℝ𝑑×𝑑𝑟 (𝑖) (𝑖) 𝑖 V = 𝑊𝑉 ∙ 𝜏𝜃 𝑦 , 𝑊𝑉 ∈ ℝ𝑑×𝑑𝜖 Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Model”, CVPR, 2022. 6

学習の流れ • 文章により条件付けを行う学習済みLDMを用い、入力する文章に含まれる学習対象の単語’S*’の畳み込みベクトル𝑣∗ を最適化する. • 𝑣∗ の初期値は大まかなクラスを表す単語(cat, clockなど)の埋め込みベクトルで初期化. Decoder Encoder 条件付けのEncoder Latent space 7

実験設定 • LAION-400Mで事前学習されたLDMモデル(1.4B params)を使用.text encoderにはBERTが用いられている. • V100x2で5000epoch学習を行った. • 学習時に入力する文章はCLIP ImageNet templates[1]にある以下の文章からランダムにサンプリング. [1] https://github.com/openai/CLIP/blob/main/notebooks/Prompt_Engineering_for_ImageNet.ipynb 8

実験結果: 生成画像の多様性 Input Samples DALLE-2 (Image Inputs) Personalized LDM DALLE-2 (Long Captions) LDM (Short Caption) LDM (Long Captions) 9

10.

実験結果: 文章による生成画像のコントロール 10

11.

実験結果: 文章による生成画像のコントロール • PARAVRAを用いた結果は自然な画像が生成できておらず、用いない手法はより自然な画像が生成できているが学習データに強く影響を受けており未知の単語に汎化できていない. 11

12.

実験結果: スタイル変換 • 入力するテキストを”A painting in the style of S*”として学習. 12

13.

実験結果: ２つの異なる埋め込み表現の組み合わせ • 画像の内容とスタイルの２つを異なる埋め込み表現を用いて生成. input 13

14.

実験結果: バイアスの除去 • ベースモデルであるDALLE-2では白人男性の出力頻度が高い傾向にあるが、著者らの提案手法ではこの偏りが軽減されている. 14

15.

実験結果: 画像の部分的な編集 15

16.

実験結果: 埋め込み表現の学習手法の比較 • • • • • • • • Extended latent space: 埋め込み表現を学習する単語数を2,3個に拡張. Progressive extensions: 2000stepごとに埋め込み表現を追加. Regularization: 大まかなクラスを表す埋め込み表現による正則化. Pre-image token: 学習データセット全体を表現する“S*”と個別の特徴を表現する{𝑆𝑖𝑛 }𝑖−1 を定義して”A photo of S* with Si”というテキストを入力して最適化を行う. Human captions: “S*”を人間のキャプションに置き換える. Reference: 学習データセットのデータと“S*”を用いないテキストを入力して得られる生成データを使用. Textual-Inversion: モデルの学習率を2e-2,1e-4で実験. Additional setup: Bipartite inversionとpivotal inversionを追加. 16

17.

実験結果: 埋め込み表現の評価指標 • “A photo of S*”のテキストと埋め込み表現を用いて生成された64枚の画像と埋め込み表現の学習に用いたデータセットのペアごとのCLIP特徴量のコサイン類似度の平均で再構成の精度を算出する.(Image Similarity) • 背景の変更、スタイルの変更など様々な難易度のテキスト(ex “A photo of S* on the moon”)を用いて、各テキストを入力として50回の DDIMステップで64枚の画像を生成し、生成画像のCLIP特徴量の平均を算出、” S*”を含まないテキスト(ex “A photo of on the moon”)の CLIP特徴量とのコサイン類似度を算出する.(Text Similarity) 17

18.

実験結果: 埋め込み表現の評価 • 多くの手法の再構成の精度は学習用データセットからランダムに抽出した場合と同様である. • 1単語の場合が最もtext similarityが高い. 18

19.

実験結果: 人による評価 • ２つのアンケートを各600件、計1200件収集した. 1. ４つの学習データの画像に対してモデルが生成した５つ目の画像がどの程度類似しているかランク付けしてもらう. 2. 画像の文脈を表すテキストと生成された画像の類似度をランク付けしてもらう. 19

20.

実験結果: 人による評価 • CLIPベースの評価指標とおおよそ一致する. 20

21.

Limitationとsocial impact • Limitation ➢ 再構成の精度がまだ低く、１つの埋め込み表現の学習に２時間かかる. • Social impact ➢ T2Iモデルは悪用される可能性が指摘されており、パーソナライズすることでより真偽が見極めにくくなるように思えるがこのモデルはそこまで強力でない. ➢ 多くのT2Iモデルでは生成結果よって偏りが生じるが実験結果よりこのモデルはこれを軽減できるだろう. ➢ ユーザがアーティストの画像を無断で学習に用いて類似画像を生成できるが、将来的にはアーティストがT2Iモデルによる独自のスタイルの獲得や迅速な初期プロットの作成といった恩恵で相殺されることを期待する. 21

22.

所感 • 生成結果を見ても言語化が難しい画像の特徴を入力された文章の意味に即して適切に生成結果に反映しており、モデルが学習した単語のニュアンスを理解せずとも意図した画像が生成できる意義は大きい. • 著者らの提案手法は既存のLDMを用いて埋め込み表現を探索するというシンプルな手法であり、LDMに限らず他の学習済みのT2Iモデルにも応用が可能と考えられる. • 1単語で未知の画像を説明できる埋め込み表現が学習できており、 DALLE-2で指摘されているモデル独自の言語[1]の解析にも利用でき、モデルの解釈性や安全性の研究にも応用できると考えている. 1. Giannis Daras, Alexandros G. Dimakis. “Discovering the Hidden Vocabulary of DALLE-2”. arXiv preprint arXiv:2206.00169, 2022. 22