【論文サーベイ】Extracting visual concepts from Large Diffusion Models

479 Views

December 07, 23

#Text-to-Image #拡散モデル #パーソナライゼーション #Textual Inversion #DreamBooth

スライド概要

tf63

@8590143908

スライド一覧

Web Developer / Research on generative models and continual learning

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【論文紹介】Classifier-Free Diffusion Guidance

tf63 17.3K

【論文紹介】Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

tf63 10.3K

【論文サーベイ】Data Augmentation With Diffusion Models

tf63 8.8K

MLやってる人向けに最低限理解してほしいDocker勉強会

tf63 7.1K

【論文サーベイ】Score-Based Generative Model

tf63 6.2K

【論文サーベイ】Stochastic Differential Equations and Diffusion Models

tf63 5.6K

各ページのテキスト

Extracting visual concepts from Large Diffusion Models An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion R. Gal, Y. Alaluf, Y. Atzmon, O. patashnik, A. H. Bermano, G. Chechik, D. Cohen-Or [ICLR’23] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, K. Aberman [CVPR’23] Multiresolution Textual Inversion G. Daras, A. G. Dimakis [NeurIPS’22 workshop] Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models R. Gal, M. Arar, Y. Atzmon, A. H. Bermano, G. Chechik, D. Cohen-Or [arxiv’23] 1

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion R. Gal, Y. Alaluf, Y. Atzmon, O. patashnik, A. H. Bermano, G. Chechik, D. Cohen-Or [ICLR’23] Keywords: Textual Inversion - 4~5枚の画像からコンセプトを抽出をプロンプトに組み込んで画像生成が可能 2

https://openreview.net/pdf?id=NAQvF08TcyG

アーキテクチャ Stable DiffusionのベースでもあるLDM [R. Rombach] を使用 textをでエンコードしてネットワークに入力する https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_HighResolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html 3

https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-

手法コンセプトをとおいて埋め込み表現モデルを固定してに変換するで最適化 (この式自体はLDMの目的関数) ↳ のこと 4

結果 : コンセプト抽出 5

結果 : スタイル抽出限界 : コンセプト画像が3 ~ 5枚必要 6

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, K. Aberman [CVPR’23] - Text-to-Imageモデルのtext encoderをファインチューニングすることでパーソナライズする手法 7

https://openaccess.thecvf.com/content/CVPR2023/html/Ruiz_DreamBooth_Fine_Tuning_Text-to-Image_Diffusion_Models_for_Subject-Driven_Generation_CVPR_2023_paper.html

手法プロンプトプロンプトをの形で与えるクラスを表す名詞 Textual Inversionでは存在しないtokenにコンセプトを割り当てていたが，提案手法ではText Encoderの辞書の中からrare-tokenを探索して使う rare-tokenにはLanguage ModelとDiffusion Modelのweak priorがあるので，最適化が上手くいきやすい 8

手法 rare-tokenの抽出 : tokenizer : decoded text tokenをランダムにサンプリング tokenはT5-XXL tokenizerの { 5000, …, 10000} の範囲からサンプリング de-tokenizerに入れると3文字程度のUnicode charachterに対応する論文中では予め3文字程度のUnicode characterを用意しておいて使っても問題ない 9

10.

手法ファインチューニング reconstruction loss textからinput imagesを生成できるか class-specific prior preservation loss の導入による影響が無いかに対応 10

11.

結果 input imagesから花瓶を取り出せている一般的なPCでも実験できそう 11

12.

Multiresolution Textual Inversion G. Daras, A. G. Dimakis [NeurIPS’22 workshop] - コンセプトをどれだけ抽出するかを調整可能 - 3種類のサンプリング手法を提案 12

https://openreview.net/forum?id=3JCa_cqKaLy

13.

手法 textual inversion multiresolution textual inversion - テキスト埋め込みを - さらに，埋め込みをDiffusionの時間依存の形に変形 - に分解するを最適化する 13

14.

モチベーションなぜ上手く行くのかノイズ少多ノイズの量が少ないとき text conditionは画像の細かい情報 (テクスチャ，毛並みなど) に働くノイズの量が多いとき text conditionは画像の大域的な情報 (物体のクラスなど) に働くを選ぶことでtext conditionをコントロールできる 14

15.

サンプリング手法 1. Fixed Resolution Sampling 全ての時刻でを使う 2. Semi Resolution-Dependent Sampling よりも大きい時刻でを使いそれ以外のときはunconditional 3. Fully Resolution-Dependent Sampling よりも大きい時刻でそれ以外のときはを使い

16.

Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models R. Gal, M. Arar, Y. Atzmon, A. H. Bermano, G. Chechik, D. Cohen-Or [arxiv’23] 1枚の画像から1分程度でコンセプトを抽出 (from stable diffusion) 長いので次回紹介します 16

https://arxiv.org/abs/2302.12228

17.

まとめ - Textual Inversion系の手法は入力画像を Diffusionの潜在変数ではなく解釈可能な text表現に変換できる - SDEdit系の手法よりも生成の自由度が高そう - 当たり前ではあるがtext encoderをfine-tuningした方が性能は良い - 計算コストはそこまで大きく無さそう 17