[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

>100 Views

August 13, 21

スライド概要

2021/08/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators 岡田 領 / Ryo Okada 1

2.

書誌情報 StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators ● Rinon Gal, Or Patashnik, Haggai Maron, Gal Chechik, Daniel Cohen-Or ● Tel Aviv University,NVIDIA ● 2021/8/2 Arxiv投稿 ● プロジェクトページ : https://stylegannada.github.io/ ● コードあり 2

3.

概要 ● 2つのテキスト(例「Dog」から「Cat」) を与えると学習済みStyleGANの生成内容 を変換 ● StyleGANの訓練済みモデルの範疇を大き く超えた(out of domain)の変換が可能 ● 学習データは必要なく、Photo to Sketchの ような簡単な変換ならNVIDIA V100で数分 以内(と言っても論文内での大きな変換 は6hかけているものもあり) 3

4.

関連研究 4

5.

関連研究:CLIP(Contrastive Language-Image Pre-training) ● Webから収集した「画像+テキスト」4億組の訓練データ ● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述 文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習 ● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能 5

6.

関連研究:StyleGAN ● 高解像度の画像生成が可能 ● Mapping networkとSynthesis networkの2つで構成 ● 正規分布からサンプリングしたzをMapping networkを通じ て潜在変数wを得る ● Synthesis networkは4 x 4 x 512の定数を入力とし,最終的に 画像を生成するが,各層においてwがスタイルとして流し 込まれる. ● 様々な研究を通じて潜在変数wによって生成画像の操作の 可能性が示されているが,あくまで既存研究はin domain (generatorの学習範疇)の変換 6

7.

関連研究:StyleCLIP ● StyleGANの生成能力とCLIPの埋め込み表現を組み合わせ,テキスト入力によってStyleGANの生成画像を編集 できる.3種類のアプローチを試している. ● https://www.slideshare.net/DeepLearningJP2016/dlstyleclip-textdriven-manipulation-of-stylegan-imagery 7

8.

関連研究:StyleCLIP ● StyleCLIPの3つのアプローチ ▸ latent optimization ✓ 生成画像とテキストのCLIP埋め込み表現におけるコサイン距離最小化で潜在変数を最適 化して編集画像を得る方法(モデルではなく潜在変数を最適化) ✓ 提案手法ではglobal CLIP lossと名付け学習の工夫の際に使用 ▸ latent mapper ✓ テキスト内容が反映されるような潜在変数を出力できるようにネットワーク(mapping network)を学習する方法 ✓ 提案手法でも一部結果で使用 ▸ global directions ✓ 与えられたテキストのCLIP表現におけるベクトルに類似する画像のベクトル方向を見つ けて反映する方法 8

9.

提案手法 9

10.

提案手法(全体) ● 2つの訓練済みのStyleGANの generator.入力w(mapping network) は同じ ● 一方のGfrozenを固定し,もう一方 のGtrainを訓練. ● テキストとそれぞれの生成画像か ら学習を方向付けるloss(後述)を 元に学習し,Gtrainが求める画像を 生成できるように学習 ● ただし,Gtrainでは学習安定のため 各イテレーションで変更に関連度 が強い層だけ学習する(Layer Freezing) 10

11.

提案手法(loss) ● Global CLIP Loss ▸ CLIP埋め込み表現空間における変換後画像とターゲットテキスト のコサイン距離を最小化 ● ▸ シンプルだが,多様性は考慮されない ▸ 後述するLayer Freezingにて使用 Directional CLIP loss ▸ ソースとターゲットテキストのCLIP埋め込み空間でのベクトル差 と元画像と変換画像のベクトル差の向きを一致させる(内積最大 化) ▸ ● 入力が変われば生成画像も変化するように働くので多様性が担保 Embedding-norm loss ▸ StyleCLIPのlatent mapperに追加の以下lossを加えた(経験則的に) ▸ (latent mapperは画像を大きく変更したいときに適用) 11

12.

提案手法(学習方法の工夫) ● 先行研究(few shot domain translation)において学習 する重みを制限することが品質の改善に繋がること が示されている.変更内容に最も関連する重みだけ を学習するように制限したい. ● Layer Freezing ▸ (1)ネットワークの重みをすべて固定し,潜在 変数wをGlobal CLIP lossによって最適化.最も 大きく変化したwに対応する層を選択 ▸ (2)選択した層の重みの固定化のみ解除. directional CLIP lossで最適化 ● +α)大幅な変換の場合(別の動物に変換するなど), 最後にStyleCLIPのlatent mapperで学習(Embeddingnorm loss) 12

13.

結果1 ● faces(StyleGAN2-FFHQ)か ら変換 ● ランダムにサンプリングし た結果 ● モデル層の約2/3を学習 ● latent mapperなし 13

14.

結果2 ● 犬(AFHQ-dogで訓練した generator)からいろんな 動物への変換 ● 各反復において学習可能 な層の数を3つ ● latent mapper を使用 ● スタイルの変更や形状の 微調整ではなく大幅な変 更 14

15.

比較1 ● テキストでの編集手法 (StyleCLIP)との比較 ● 既存の手法は訓練済みモ デルの学習内の編集に限 られるが,提案手法は out of domainな変化 15

16.

比較2 ● Few-shot generators系の 手法との比較 ● 犬をCatに変換し た結果 ● 提案手法は多様 性があり,学習 画像も不要 16

17.

Ablation Study ● Global lossや学習する層に ついて比較検証 ● 提案手法(Adaptive Layers)が最も良いと主張 ● latent mapper(with mapper)は大幅な形状変 化を伴うときに有効とし ている(あんまりわから ない?) 17

18.

他のGAN手法との組み合わせ1 ● GAN Inversion(実画像をGANの潜在変数 にエンコード)との組み合わせ ● 与えられた実画像を先行研究のReStyle のエンコーダで潜在変数wにエンコード ● 提案手法のgeneratorでそのwから人物の 特徴が復元ができている ● textually-driven, zero-shot out-of-domain image-to-image translation of real images 18

19.

他のGAN手法との組み合わせ2 ● ● 実画像に以下を適用 ▸ StyleCLIP to edit expression and hairstyle ▸ StyleFlow to edit pose ▸ InterfaceGAN to edit age ▸ 提案手法 提案手法のgeneratorの編集内容がソー スgeneraotorの内容と一致 19

20.

他のGAN手法との組み合わせ3 ● image to imageの既存研究 (pixel2Style2pixel)において,セグメン テーションやスケッチ画像を潜在変数w にエンコード ● 潜在変数wに対して提案手法の有効性を 確認 20

21.

まとめ ● ● ● StyleGAN-NADA ▸ a CLIP-guided zero-shot method for Non-Adversarial Domain Adaptation of image generators ▸ CLIPの表現内容を効率的に反映し,学習することでgeneratorの学習の範囲を超えた変換が可能 ▸ 潜在変数wを介し,様々なStyleGANの既存研究との組み合わせの有効性も示した Limitations ▸ 変換の範囲はCLIPの表現に限られる(特に新しい概念・変換内容は無理) ▸ 自然言語は曖昧さがあるのでちゃんとした文を書かないと思い通りに反映されない その他 ▸ 学習方法を工夫することでCLIPの表現をStyleCLIPより効果的にStyleGANの潜在変数に取り込むことに 成功したという話 ▸ いろいろ試すとCLIPの表現には得意と不得意がありそう ▸ 一方,学習させる層の数やlatent mapperを使用するかどうかなど,学習の調整にはヒューリスティッ クな調整が入っているように感じた 21