[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

>100 Views

August 13, 21

deep

スライド概要

2021/08/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators 岡田領 / Ryo Okada 1

書誌情報 StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators ● Rinon Gal, Or Patashnik, Haggai Maron, Gal Chechik, Daniel Cohen-Or ● Tel Aviv University，NVIDIA ● 2021/8/2 Arxiv投稿 ● プロジェクトページ : https://stylegannada.github.io/ ● コードあり 2

https://stylegan-nada.github.io/

概要 ● 2つのテキスト（例「Dog」から「Cat」）を与えると学習済みStyleGANの生成内容を変換 ● StyleGANの訓練済みモデルの範疇を大きく超えた（out of domain）の変換が可能 ● 学習データは必要なく、Photo to Sketchのような簡単な変換ならNVIDIA V100で数分以内（と言っても論文内での大きな変換は6hかけているものもあり） 3

関連研究 4

関連研究：CLIP(Contrastive Language-Image Pre-training) ● Webから収集した「画像+テキスト」4億組の訓練データ ● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習 ● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能 5

関連研究：StyleGAN ● 高解像度の画像生成が可能 ● Mapping networkとSynthesis networkの２つで構成 ● 正規分布からサンプリングしたzをMapping networkを通じて潜在変数wを得る ● Synthesis networkは4 x 4 x 512の定数を入力とし，最終的に画像を生成するが，各層においてwがスタイルとして流し込まれる． ● 様々な研究を通じて潜在変数wによって生成画像の操作の可能性が示されているが，あくまで既存研究はin domain （generatorの学習範疇）の変換 6

関連研究：StyleCLIP ● StyleGANの生成能力とCLIPの埋め込み表現を組み合わせ，テキスト入力によってStyleGANの生成画像を編集できる．３種類のアプローチを試している． ● https://www.slideshare.net/DeepLearningJP2016/dlstyleclip-textdriven-manipulation-of-stylegan-imagery 7

https://www.slideshare.net/DeepLearningJP2016/dlstyleclip-textdriven-manipulation-of-stylegan-imagery

関連研究：StyleCLIP ● StyleCLIPの３つのアプローチ ▸ latent optimization ✓ 生成画像とテキストのCLIP埋め込み表現におけるコサイン距離最小化で潜在変数を最適化して編集画像を得る方法（モデルではなく潜在変数を最適化） ✓ 提案手法ではglobal CLIP lossと名付け学習の工夫の際に使用 ▸ latent mapper ✓ テキスト内容が反映されるような潜在変数を出力できるようにネットワーク（mapping network）を学習する方法 ✓ 提案手法でも一部結果で使用 ▸ global directions ✓ 与えられたテキストのCLIP表現におけるベクトルに類似する画像のベクトル方向を見つけて反映する方法 8

提案手法 9

10.

提案手法（全体） ● ２つの訓練済みのStyleGANの generator．入力w(mapping network) は同じ ● 一方のGfrozenを固定し，もう一方のGtrainを訓練． ● テキストとそれぞれの生成画像から学習を方向付けるloss（後述）を元に学習し，Gtrainが求める画像を生成できるように学習 ● ただし，Gtrainでは学習安定のため各イテレーションで変更に関連度が強い層だけ学習する（Layer Freezing） 10

11.

提案手法（loss） ● Global CLIP Loss ▸ CLIP埋め込み表現空間における変換後画像とターゲットテキストのコサイン距離を最小化 ● ▸ シンプルだが，多様性は考慮されない ▸ 後述するLayer Freezingにて使用 Directional CLIP loss ▸ ソースとターゲットテキストのCLIP埋め込み空間でのベクトル差と元画像と変換画像のベクトル差の向きを一致させる（内積最大化） ▸ ● 入力が変われば生成画像も変化するように働くので多様性が担保 Embedding-norm loss ▸ StyleCLIPのlatent mapperに追加の以下lossを加えた（経験則的に） ▸ （latent mapperは画像を大きく変更したいときに適用） 11

12.

提案手法（学習方法の工夫） ● 先行研究（few shot domain translation）において学習する重みを制限することが品質の改善に繋がることが示されている．変更内容に最も関連する重みだけを学習するように制限したい． ● Layer Freezing ▸ (1)ネットワークの重みをすべて固定し，潜在変数wをGlobal CLIP lossによって最適化．最も大きく変化したwに対応する層を選択 ▸ (2)選択した層の重みの固定化のみ解除． directional CLIP lossで最適化 ● +α）大幅な変換の場合（別の動物に変換するなど），最後にStyleCLIPのlatent mapperで学習（Embeddingnorm loss） 12

13.

結果１ ● faces（StyleGAN2-FFHQ）から変換 ● ランダムにサンプリングした結果 ● モデル層の約2/3を学習 ● latent mapperなし 13

14.

結果２ ● 犬（AFHQ-dogで訓練した generator）からいろんな動物への変換 ● 各反復において学習可能な層の数を3つ ● latent mapper を使用 ● スタイルの変更や形状の微調整ではなく大幅な変更 14

15.

比較１ ● テキストでの編集手法（StyleCLIP）との比較 ● 既存の手法は訓練済みモデルの学習内の編集に限られるが，提案手法は out of domainな変化 15

16.

比較２ ● Few-shot generators系の手法との比較 ● 犬をCatに変換した結果 ● 提案手法は多様性があり，学習画像も不要 16

17.

Ablation Study ● Global lossや学習する層について比較検証 ● 提案手法（Adaptive Layers）が最も良いと主張 ● latent mapper（with mapper）は大幅な形状変化を伴うときに有効としている（あんまりわからない？） 17

18.

他のGAN手法との組み合わせ１ ● GAN Inversion（実画像をGANの潜在変数にエンコード）との組み合わせ ● 与えられた実画像を先行研究のReStyle のエンコーダで潜在変数wにエンコード ● 提案手法のgeneratorでそのwから人物の特徴が復元ができている ● textually-driven, zero-shot out-of-domain image-to-image translation of real images 18

19.

他のGAN手法との組み合わせ２ ● ● 実画像に以下を適用 ▸ StyleCLIP to edit expression and hairstyle ▸ StyleFlow to edit pose ▸ InterfaceGAN to edit age ▸ 提案手法提案手法のgeneratorの編集内容がソースgeneraotorの内容と一致 19

20.

他のGAN手法との組み合わせ３ ● image to imageの既存研究（pixel2Style2pixel）において，セグメンテーションやスケッチ画像を潜在変数w にエンコード ● 潜在変数wに対して提案手法の有効性を確認 20

21.

まとめ ● ● ● StyleGAN-NADA ▸ a CLIP-guided zero-shot method for Non-Adversarial Domain Adaptation of image generators ▸ CLIPの表現内容を効率的に反映し，学習することでgeneratorの学習の範囲を超えた変換が可能 ▸ 潜在変数wを介し，様々なStyleGANの既存研究との組み合わせの有効性も示した Limitations ▸ 変換の範囲はCLIPの表現に限られる（特に新しい概念・変換内容は無理） ▸ 自然言語は曖昧さがあるのでちゃんとした文を書かないと思い通りに反映されないその他 ▸ 学習方法を工夫することでCLIPの表現をStyleCLIPより効果的にStyleGANの潜在変数に取り込むことに成功したという話 ▸ いろいろ試すとCLIPの表現には得意と不得意がありそう ▸ 一方，学習させる層の数やlatent mapperを使用するかどうかなど，学習の調整にはヒューリスティックな調整が入っているように感じた 21

[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト