【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

325 Views

August 19, 22

スライド概要

2022/8/19
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “An Image is Worth One Word: Personalizing Text-toImage Generation using Textual Inversion” University of Tsukuba M1, Yuki Sato http://deeplearning.jp/ 1

2.

書誌情報 • • • • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal1, 2, Yuval Alaluf1, Yuval Atzmon2, Or Patashnik1, Amit H. Bermano1, Gal Chechik2, Daniel Cohen-Or1 - 1Tel-Aviv University, 2NVIDIA 投稿先: arXiv(2022/08/02) プロジェクトページ: https://textual-inversion.github.io/ 選定理由: ➢ 近年盛んなText-to-Imageにおいて生成画像の多様性だけではなくユーザの意図 を汲んだ画像生成を実現しており需要が高いと考えられる. ➢ シンプルな手法で応用の幅が広いと考えられる. ※出典が明記されていない限り図表は論文・プロジェクトページより引用 2

3.

概要 • 3-5枚の画像を入力として、この画像群を表現する単語1語の埋め込 み表現を学習済みLatent Diffusion Model(LDM)を用いて最適化し、 この表現を用いて文章を同じLDMに入力することでユーザの意図した 画像の生成を可能にした. LDMを用いた𝑆∗の 埋め込みベクトル の最適化 コンセプト画像 “A photo of 𝑆∗” コンセプト画像を表 すテキストデータ 𝑣∗ 𝑆∗の埋め込みベ クトルを𝑣∗とし てLDMに入力 𝑆∗を表す 埋め込み表現 3

4.

Diffusion Model • 入力𝑥0 に対してガウシアンノイズを段階的に付与してガウス分布𝑥 𝑇 に 変換する過程𝑞(𝑥𝑡 |𝑥𝑡−1 )を考え、これの逆変換である段階的なノイズ 除去𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )をDNNで学習する. • DNNはノイズの含まれる画像𝑥𝑡 を入力として𝑥𝑡−1 に対して付与された ガウシアンノイズを予測しデノイズして次のステップに移る. Jonathan Ho et al. “Denoising Diffusion Probabilistic Model”, NeurIPS, 2020. 4

5.

Latent Diffusion Model • AutoEncoderの潜在変数に対してDiffusion modelを適用するモデル. • 入力画像からEncoderℰを用いて中間表現を抽出し、中間表現に対し てDiffusion modelを適用、再構成された中間表現をDecoder 𝒟に入力 して画像を出力する. • ℰ, 𝒟は事前に学習されており、U-Net𝜖𝜃 と条件付けのEncoder 𝜏𝜃 の学 習時には固定する. 𝑥 ∈ ℝ𝐻×𝑊×3 𝑧 ∈ ℝℎ×𝑤×𝑐 Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Model”, CVPR, 2022. 5

6.

Latent Diffusion Model • LDMのでは中間表現に対してノイズを付与しU-Net 𝜖𝜃 でデノイズす る.この時、デノイズ過程においてクラスラベル等をEncoder 𝜏𝜃 を用 いて中間表現に変換し𝜖𝜃 のcross-attentionで用いる. • 𝜖𝜃 と𝜏𝜃 は以下の損失関数で同時に最適化される. 条件付ける特徴量: 𝜏𝜃 𝑦 ∈ ℝ𝑀×𝑑𝑟 𝑖 U-Netの中間特徴量: 𝜑𝑖 𝑧𝑡 ∈ ℝ𝑁×𝑑𝜖 𝑄𝐾 𝑇 𝑑 ℝ𝑑×𝑑𝑟 Attention 𝑄, 𝐾, 𝑉 = softmax (𝑖) 𝑄 = 𝑊𝑄 ∙ 𝜑𝑖 𝑧𝑡 , 𝑊𝑄 𝑖 ∈ ∙𝑉 (𝑖) K = 𝑊𝐾 ∙ 𝜏𝜃 𝑦 , 𝑊𝐾 𝑖 ∈ ℝ𝑑×𝑑𝑟 (𝑖) (𝑖) 𝑖 V = 𝑊𝑉 ∙ 𝜏𝜃 𝑦 , 𝑊𝑉 ∈ ℝ𝑑×𝑑𝜖 Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Model”, CVPR, 2022. 6

7.

学習の流れ • 文章により条件付けを行う学習済みLDMを用い、入力する文章に含ま れる学習対象の単語’S*’の畳み込みベクトル𝑣∗ を最適化する. • 𝑣∗ の初期値は大まかなクラスを表す単語(cat, clockなど)の埋め込みベ クトルで初期化. Decoder Encoder 条件付けのEncoder Latent space 7

8.

実験設定 • LAION-400Mで事前学習されたLDMモデル(1.4B params)を使用.text encoderにはBERTが用いられている. • V100x2で5000epoch学習を行った. • 学習時に入力する文章はCLIP ImageNet templates[1]にある以下の文 章からランダムにサンプリング. [1] https://github.com/openai/CLIP/blob/main/notebooks/Prompt_Engineering_for_ImageNet.ipynb 8

9.

実験結果: 生成画像の多様性 Input Samples DALLE-2 (Image Inputs) Personalized LDM DALLE-2 (Long Captions) LDM (Short Caption) LDM (Long Captions) 9

10.

実験結果: 文章による生成画像のコントロール 10

11.

実験結果: 文章による生成画像のコントロール • PARAVRAを用いた結果は自然な画像が生成できておらず、用いない 手法はより自然な画像が生成できているが学習データに強く影響を受 けており未知の単語に汎化できていない. 11

12.

実験結果: スタイル変換 • 入力するテキストを”A painting in the style of S*”として学習. 12

13.

実験結果: 2つの異なる埋め込み表現の組み合わせ • 画像の内容とスタイルの2つを異なる埋め込み表現を用いて生成. input 13

14.

実験結果: バイアスの除去 • ベースモデルであるDALLE-2では白人男性の出力頻度が高い傾向にあ るが、著者らの提案手法ではこの偏りが軽減されている. 14

15.

実験結果: 画像の部分的な編集 15

16.

実験結果: 埋め込み表現の学習手法の比較 • • • • • • • • Extended latent space: 埋め込み表現を学習する単語数を2,3個に拡張. Progressive extensions: 2000stepごとに埋め込み表現を追加. Regularization: 大まかなクラスを表す埋め込み表現による正則化. Pre-image token: 学習データセット全体を表現する“S*”と個別の特徴 を表現する{𝑆𝑖𝑛 }𝑖−1 を定義して”A photo of S* with Si”というテキストを 入力して最適化を行う. Human captions: “S*”を人間のキャプションに置き換える. Reference: 学習データセットのデータと“S*”を用いないテキストを入 力して得られる生成データを使用. Textual-Inversion: モデルの学習率を2e-2,1e-4で実験. Additional setup: Bipartite inversionとpivotal inversionを追加. 16

17.

実験結果: 埋め込み表現の評価指標 • “A photo of S*”のテキストと埋め込み表現を用いて生成された64枚の 画像と埋め込み表現の学習に用いたデータセットのペアごとのCLIP特 徴量のコサイン類似度の平均で再構成の精度を算出する.(Image Similarity) • 背景の変更、スタイルの変更など様々な難易度のテキスト(ex “A photo of S* on the moon”)を用いて、各テキストを入力として50回の DDIMステップで64枚の画像を生成し、生成画像のCLIP特徴量の平均 を算出、” S*”を含まないテキスト(ex “A photo of on the moon”)の CLIP特徴量とのコサイン類似度を算出する.(Text Similarity) 17

18.

実験結果: 埋め込み表現の評価 • 多くの手法の再構成の精 度は学習用データセット からランダムに抽出した 場合と同様である. • 1単語の場合が最もtext similarityが高い. 18

19.

実験結果: 人による評価 • 2つのアンケートを各600件、計1200件収集した. 1. 4つの学習データの画像に対してモデルが生成した5つ目の画像がどの程度 類似しているかランク付けしてもらう. 2. 画像の文脈を表すテキストと生成された画像の類似度をランク付けしてもら う. 19

20.

実験結果: 人による評価 • CLIPベースの評価指標と おおよそ一致する. 20

21.

Limitationとsocial impact • Limitation ➢ 再構成の精度がまだ低く、1つの埋め込み表現の学習に2時間かかる. • Social impact ➢ T2Iモデルは悪用される可能性が指摘されており、パーソナライズすることで より真偽が見極めにくくなるように思えるがこのモデルはそこまで強力でない. ➢ 多くのT2Iモデルでは生成結果よって偏りが生じるが実験結果よりこのモデル はこれを軽減できるだろう. ➢ ユーザがアーティストの画像を無断で学習に用いて類似画像を生成できるが、 将来的にはアーティストがT2Iモデルによる独自のスタイルの獲得や迅速な初 期プロットの作成といった恩恵で相殺されることを期待する. 21

22.

所感 • 生成結果を見ても言語化が難しい画像の特徴を入力された文章の意味 に即して適切に生成結果に反映しており、モデルが学習した単語の ニュアンスを理解せずとも意図した画像が生成できる意義は大きい. • 著者らの提案手法は既存のLDMを用いて埋め込み表現を探索するとい うシンプルな手法であり、LDMに限らず他の学習済みのT2Iモデルに も応用が可能と考えられる. • 1単語で未知の画像を説明できる埋め込み表現が学習できており、 DALLE-2で指摘されているモデル独自の言語[1]の解析にも利用でき、 モデルの解釈性や安全性の研究にも応用できると考えている. 1. Giannis Daras, Alexandros G. Dimakis. “Discovering the Hidden Vocabulary of DALLE-2”. arXiv preprint arXiv:2206.00169, 2022. 22