【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

717 Views

April 16, 21

#deep learning #ディープラーニング #画像生成 #自然言語処理 #CLIP #StyleGAN

スライド概要

2021/04/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 岡田領/Ryo Okada 1

書誌情報 StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery ● Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, Dani Lischinski ● Hebrew University of Jerusalem, Tel-Aviv University, Adobe Research ● 2021/3/31 Arxiv投稿 ● CLIPの応用例．StyleGANの画像生成とCLIP の埋め込み表現を組み合わせて、テキスト入力で画像を編集できる． ● コード：https://github.com/orpatashnik/StyleCLIP 2

https://github.com/orpatashnik/StyleCLIP

StyleCLIP 結果例 3

CLIP(Contrastive Language-Image Pre-training) ● Webから収集した「画像+テキスト」4億組の訓練データ ● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習 ● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能 4

StyleGAN ● Mapping networkとSynthesis networkの２つで構成 ● Mapping network（８層）は潜在変数zを潜在空間Wにマッピングする ● Synthesis network（18層）は4 x 4 x 512の定数が入力．各層へスタイル（潜在変数にアフィン変換）をAdaINで入力，ノイズも入力． ● 正則化(style regularization)として異なる潜在変数z1, z2から生成したw1, w2を混ぜスタイルの相関を防ぐ（W+空間） ● W+空間とスタイル（S）空間を本論文の手法でも用いる． 5

StyleGAN 6

関連研究 ● TediGAN ▸ テキストによる顔画像の生成と編集 ▸ 画像とテキストを共通の埋め込み空間にマッピング．style mixingによって画像を生成・編集． ● Generating Images from Prompts using CLIP and StyleGAN（ブログ記事） ▸ StyleGANとCLIPを組み合わせた Text2Image（生成のみ）．本論文の手法におけるLatent Optimizer（後述）に近い． 7

Style CLIP３つのアプローチ 1. Latent Optimization a. 潜在変数w∈W+を最適化する方法 b. 画像とテキストのペアごと最適化が必要で生成に数分かかる． 2. Latent Mapper a. mappering networkを訓練する方法 b. ある入力テキストに対して潜在空間の manipulation stepを出力するように訓練 3. Global Directions a. （入力画像によらない）グローバルな manipulation stepを見つけて編集する方法 b. StyleGANの潜在空間としてスタイル空間Sを使っている 8

手法１（Latent Optimization） ● StyleGAN生成画像と入力テキストのCLIP埋め込み表現間の距離（Dclip）を最小化し，StyleGAN 上の潜在変数w∈W+を最適化 ● 入力画像と乖離しすぎないように元の潜在変数とのL2距離をとる ● identity lossによって人物の乖離を制御 ● λL2とλIDの値はパラメータ ● 汎用的だが，元画像とテキストのペアごとに毎回最適化が必要で数分かかるのがデメリット 9

10.

手法１（Latent Optimization） ● Latent Optimizationによる結果（200~300 イテレーション） ● 人物を変えたい時はλIDを小さな値にする 10

11.

手法２（Latent Mapper） ● 入力テキストtの画像操作内容を出力するようにマッピングネットワークを訓練する． ● Latent Optimizationに比べ，推論時は時間がかからない（75ms） ● 層ごとに生成画像の別の表現を学習するStyleGANの構成に倣い，mapping networkは３つに分ける（coarse（粗い）, medium（中）, and fine（細かい）） 11

12.

手法２（Latent Mapper） ● 元の画像の特徴を保持しながら，テキスト tによる画像編集させるため，mapperを以下のlossで訓練． ● CLIP loss：CLIP潜在空間における生成画像とテキストのコサイン距離を最小化 ● L2 norm：元の画像の特徴を保持するため ● identity loss（Latent Optimizationのときと同じ） 12

13.

手法２（Latent Mapper） ● Fig4 人物は保持しつつ髪型だけ変更（列ごとに別のMapper） ● Fig5 一度に複数要素の変更 13

14.

手法３（Global Directions） ● 手法２であるテキストに対するmanipulation stepの類似度は高いことがわかった(Table2) ● このことから，入力テキストの編集内容をStyleGANのStyle空間における単一でグローバルな方向にマッピングする方法を検討．（手法３） ● 入力テキストからCLIPの埋め込み空間におけるベクトルΔtを求め，これをStyleGANのスタイル空間Sにおける編集方向Δsにマッピングしたい ● CLIP空間において，画像の多様体とテキストの多様体は同じ意味的変更に対して，共線的になる ● よって，テキスト入力による変更内容をΔtとし，それによるCLIP埋め込み空間での画像の変更内容をΔiとしたとき，StyleGANのスタイル空間Sにおける各チャネルとΔiとの関連性を評価し，編集の方向性Δsを決定していく 14

15.

手法３（Global Directions） ● 自然言語をエンコードする際の工夫 ▸ 80のテンプレート文を使って単語をエンコードし，その平均を利用することで，ノイズを軽減（Prompt Engineering） ● s ∈ Sにおいてチャネルcに対して摂動を与え， CLIP空間でのその画像ΔicのΔiへの射影から関連度の高い変更を探す．閾値βを設け，下回るRcは無視し，その他の変更を適用． ● Fig 6 閾値βの値によってdistanglenmtの度合いを制御可能．（他手法にはないユニーク点） ▸ βが大きいと髪だけ変化し，小さい時は目元や顔の形まで変化．(αは摂動の度合い) 15

16.

手法３（Global Directions） 16

17.

手法３（Global Directions） 17

18.

比較と評価 ● 複雑で特殊な属性（特にアイデンティティに関わるもの）については、Mapperが優れた操作性 ● よりシンプルで一般的な属性であれば、Global Directionsで十分であり、より分離した操作が可能 18

19.

比較と評価 ● 他の画像編集手法との比較（テキスト入力に限らず） ● GANSpaceでは、操作は肌の色や照明も変わってしまっている． ● InterFaceGANでは、人物が変わってしまっている（Lipstickの場合） ● 提案手法はStyleSpaceと似ており，変えたい要素だけ変え，他の要素は保持できている 19

20.

Limitations ● 事前学習済みのStyle-GAN GとCLIPの埋め込み表現を用いているので，その訓練データの範疇を超えるイメージ操作は難しい ● あまりに思い切った操作は失敗することがある（右図で虎->ライオンはうまくいくが，虎->狼はうまくいってない） 20

21.

まとめ ● CLIPの埋め込み表現を利用した応用例． ● StyleGANの画像生成と潜在空間表現とうまく組み合わせて，テキスト入力の画像編集の手法を提案． ● 既存手法に比べ，より複雑でより分離（distanglenmt）された編集が可能 21