【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

>100 Views

April 16, 21

スライド概要

2021/04/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 岡田 領/Ryo Okada 1

2.

書誌情報 StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery ● Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, Dani Lischinski ● Hebrew University of Jerusalem, Tel-Aviv University, Adobe Research ● 2021/3/31 Arxiv投稿 ● CLIPの応用例.StyleGANの画像生成とCLIP の埋め込み表現を組み合わせて、テキス ト入力で画像を編集できる. ● コード:https://github.com/orpatashnik/StyleCLIP 2

3.

StyleCLIP 結果例 3

4.

CLIP(Contrastive Language-Image Pre-training) ● Webから収集した「画像+テキスト」4億組の訓練データ ● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述 文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習 ● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能 4

5.

StyleGAN ● Mapping networkとSynthesis networkの2つ で構成 ● Mapping network(8層)は潜在変数zを潜在 空間Wにマッピングする ● Synthesis network(18層)は4 x 4 x 512の定 数が入力.各層へスタイル(潜在変数にア フィン変換)をAdaINで入力,ノイズも入力. ● 正則化(style regularization)として異なる潜在 変数z1, z2から生成したw1, w2を混ぜスタイ ルの相関を防ぐ(W+空間) ● W+空間とスタイル(S)空間を本論文の手 法でも用いる. 5

6.

StyleGAN 6

7.

関連研究 ● TediGAN ▸ テキストによる顔画像の生成と編集 ▸ 画像とテキストを共通の埋め込み空間 にマッピング.style mixingによって画 像を生成・編集. ● Generating Images from Prompts using CLIP and StyleGAN(ブログ記事) ▸ StyleGANとCLIPを組み合わせた Text2Image(生成のみ).本論文の手 法におけるLatent Optimizer(後述)に 近い. 7

8.

Style CLIP3つのアプローチ 1. Latent Optimization a. 潜在変数w∈W+を最適化する方法 b. 画像とテキストのペアごと最適化が必要で生 成に数分かかる. 2. Latent Mapper a. mappering networkを訓練する方法 b. ある入力テキストに対して潜在空間の manipulation stepを出力するように訓練 3. Global Directions a. (入力画像によらない)グローバルな manipulation stepを見つけて編集する方法 b. StyleGANの潜在空間としてスタイル空間Sを使 っている 8

9.

手法1(Latent Optimization) ● StyleGAN生成画像と入力テキストのCLIP埋め込 み表現間の距離(Dclip)を最小化し,StyleGAN 上の潜在変数w∈W+を最適化 ● 入力画像と乖離しすぎないように元の潜在変 数とのL2距離をとる ● identity lossによって人物の乖離を制御 ● λL2とλIDの値はパラメータ ● 汎用的だが,元画像とテキストのペアごとに 毎回最適化が必要で数分かかるのがデメリッ ト 9

10.

手法1(Latent Optimization) ● Latent Optimizationによる結果(200~300 イテレーション) ● 人物を変えたい時はλIDを小さな値にす る 10

11.

手法2(Latent Mapper) ● 入力テキストtの画像操作内容を出力するようにマッピングネットワークを訓練する. ● Latent Optimizationに比べ,推論時は時間がかからない(75ms) ● 層ごとに生成画像の別の表現を学習するStyleGANの構成に倣い,mapping networkは3つに分ける (coarse(粗い), medium(中), and fine(細かい)) 11

12.

手法2(Latent Mapper) ● 元の画像の特徴を保持しながら,テキスト tによる画像編集させるため,mapperを以 下のlossで訓練. ● CLIP loss:CLIP潜在空間における生成画像 とテキストのコサイン距離を最小化 ● L2 norm:元の画像の特徴を保持するため ● identity loss(Latent Optimizationのときと同 じ) 12

13.

手法2(Latent Mapper) ● Fig4 人物は保持しつつ髪型だけ変更(列ごと に別のMapper) ● Fig5 一度に複数要素の変更 13

14.

手法3(Global Directions) ● 手法2であるテキストに対するmanipulation stepの類似度は高いことがわかった(Table2) ● このことから,入力テキストの編集内容をStyleGANのStyle空間における単一でグローバルな 方向にマッピングする方法を検討.(手法3) ● 入力テキストからCLIPの埋め込み空間におけるベクトルΔtを求め,これをStyleGANのスタイ ル空間Sにおける編集方向Δsにマッピングしたい ● CLIP空間において,画像の多様体とテキストの多様体は同じ意味的変更に対して,共線的に なる ● よって,テキスト入力による変更内容をΔtとし,それによるCLIP埋め込み空間での画像の変 更内容をΔiとしたとき,StyleGANのスタイル空間Sにおける各チャネルとΔiとの関連性を評価 し,編集の方向性Δsを決定していく 14

15.

手法3(Global Directions) ● 自然言語をエンコードする際の工夫 ▸ 80のテンプレート文を使って単語をエンコ ードし,その平均を利用することで,ノイ ズを軽減(Prompt Engineering) ● s ∈ Sにおいてチャネルcに対して摂動を与え, CLIP空間でのその画像ΔicのΔiへの射影から関連 度の高い変更を探す.閾値βを設け,下回るRcは 無視し,その他の変更を適用. ● Fig 6 閾値βの値によってdistanglenmtの度合いを 制御可能.(他手法にはないユニーク点) ▸ βが大きいと髪だけ変化し,小さい時は目 元や顔の形まで変化.(αは摂動の度合い) 15

16.

手法3(Global Directions) 16

17.

手法3(Global Directions) 17

18.

比較と評価 ● 複雑で特殊な属性(特にアイデンティティに関わるもの)については、Mapperが優れた操作性 ● よりシンプルで一般的な属性であれば、Global Directionsで十分であり、より分離した操作が可能 18

19.

比較と評価 ● 他の画像編集手法との比較(テキスト 入力に限らず) ● GANSpaceでは、操作は肌の色や照明 も変わってしまっている. ● InterFaceGANでは、人物が変わってし まっている(Lipstickの場合) ● 提案手法はStyleSpaceと似ており,変 えたい要素だけ変え,他の要素は保持 できている 19

20.

Limitations ● 事前学習済みのStyle-GAN GとCLIPの埋め 込み表現を用いているので,その訓練デ ータの範疇を超えるイメージ操作は難し い ● あまりに思い切った操作は失敗すること がある(右図で虎->ライオンはうまくい くが,虎->狼はうまくいってない) 20

21.

まとめ ● CLIPの埋め込み表現を利用した応用例. ● StyleGANの画像生成と潜在空間表現とうまく組み合わせて,テキスト入力の画像編集 の手法を提案. ● 既存手法に比べ,より複雑でより分離(distanglenmt)された編集が可能 21