【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

167 Views

July 05, 23

@deep learning jp

スライド概要

2023/6/30
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.9K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.9K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.4K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.7K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Yuki Sato, University of Tsukuba M2 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Xingang Pan1,2, Ayush Tewari3, Thomas Leimkühler1, Lingjie Liu1,4, Abhimitra Meka5, Christian Theobalt1,2 1Max Planck Instutute 2Saarbrücken Research Center 3MIT 4University of Pennsylvania 5Google AR/VR • 投稿先: SIGGRAPH 2023 • プロジェクトページ: https://vcai.mpi-inf.mpg.de/projects/DragGAN/ • 選定理由 ➢ GANの生成画像の潜在変数を直接最適化することで、追加のネットワークの学習を必要とせず、短時間で実行可能である ➢ インタラクティブな操作による高品質な画像編集を可能とした 2

https://vcai.mpi-inf.mpg.de/projects/DragGAN/

概要 • GANの生成画像に対して、画像内で任意のハンドル点をターゲット点に近づくように逐次的に処理する画像編集手法を提案 • 追加のネットワークを学習するのではなく、StyleGANの特徴マップを直接最適化することで高速な画像生成が可能 • 複数の点を同時に変形させつつ、ハンドル点と関連のない画像領域を保存可能 3

背景目的：任意の生成画像のポーズ・形状・表情・レイアウトの正確な制御既存手法： • 3次元表現を用いた手法やアノテーションデータを用いた教師あり学習 → 学習データに依存し、編集可能なオブジェクトが限定される • 自然言語による条件付け → 生成画像の精度や、位置・形状・レイアウトなど異なる条件を独立して制御することが難しい対話的に画像内の複数のハンドル点を操作・GANの特徴マップを直接最適化するため追加の学習が必要なく、オブジェクトの種類に限定されない・ポイントベースの操作による正確な制御が可能 4

StyleGAN StyleGAN[1] • Mapping Networkを用いて特徴量のもつれをなくした中間潜在変数を利用し、各解像度で正規化を行うことで、細かな特徴を制御可能な高解像度画像生成が可能 StyleGAN2[2] • AdaINを標準偏差を用いた正規化に置き換え、Generator, Discriminatorの構造を改良することで、生成画像の品質向上を達成 [1]より引用 1. 2. Karras, Tero, Samuli Laine, and Timo Aila. “A style-based generator architecture for generative adversarial networks." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. Karras, Tero, et al. "Analyzing and improving the image quality of stylegan." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 5

GANの制御性潜在変数ベクトルを編集 • アノテーションデータや3Dモデルを用いた教師あり学習を利用 • 物体位置の移動精度が低いなど正確な制御が難しいポイントベースの手法 • 画像の特徴を独立に、正確に操作可能 • GANWarping[3]：ポイントベースの編集手法だが、3次元姿勢の制御など困難なタスクが存在 • UserControllableLT[4]：GANの潜在変数をユーザの入力を用いて変換して入力することで画像を編集するが、画像内で1方向へのみドラッグ可能であり複数点を異なる方向に同時に編集できない 3. Wang, Sheng-Yu, David Bau, and Jun-Yan Zhu. "Rewriting geometric rules of a gan." ACM Transactions on Graphics (TOG) 41.4 (2022): 1-16. 4. Endo, Yuki. "User-Controllable Latent Transformer for StyleGAN Image Layout Editing." arXiv preprint arXiv:2208.12408 (2022). 6

Point tracking 目的：連続した画像間における対応する点の動きを推定 • 連続したフレーム間のオプティカルフロー推定 RAFT[5] • 画素単位で特徴量を抽出し相関を算出し、RNNによる反復処理で推定を行う PIPs[6] • 複数フレームにまたがる任意のピクセルを追跡してフローを推論可能両手法ともフロー予測のためのモデルを別途学習させる必要がある 5. Teed, Zachary, and Jia Deng. "Raft: Recurrent all-pairs field transforms for optical flow." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part II 16. Springer International Publishing, 2020. 6. Harley, Adam W., Zhaoyuan Fang, and Katerina Fragkiadaki. "Particle Video Revisited: Tracking Through Occlusions Using Point Trajectories." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXII. Cham: Springer Nature Switzerland, 2022. 7

DragGAN: 概要目的： 𝑛個のハンドル点𝑝𝑖 を対応するターゲット点𝑡𝑖 に到達するように中間潜在変数wを最適化する →追加のネットワークの学習を必要としないポイントベースの編集手法入力: • ハンドル点 𝑝𝑖 = 𝑥𝑝,𝑖 , 𝑦𝑝,𝑖 | 𝑖 = 1,2, … 𝑛 • ターゲット点 𝑡𝑖 = 𝑥𝑡,𝑖 , 𝑦𝑡,𝑖 | 𝑖 = 1,2, … 𝑛 • バイナリマスク(任意) M 出力: • 変換後の画像 8

DragGAN : 概要 StyleGAN2 • 特徴マップ(F)にはStyleGAN2の6ブロック目の出力を使用 – 実験より、解像度と識別性(特徴マップを用いたL1損失によるハンドル点の追跡精度)のトレードオフが最も良いため – 最適化の対象である中間潜在変数wも6ブロック目の入力までとした • Fを生成画像と同じ解像度にバイリニア補完反復処理 1. 2. motion supervision: 𝑝𝑖 を𝑡𝑖 の方向へ近づけるようにwを更新し特徴マップF′を獲得 point tracking: F′を用いて𝑝𝑖 を更新 9

10.

DragGAN: motion supervision 目的：現在のハンドル点𝑝𝑖 をターゲット点𝑡𝑖 に近づけるようにwを更新する • 以下の損失関数ℒでwを更新する。 𝑛 ℒ =෍ ෍ F 𝑞𝑖 − F(𝑞𝑖 + 𝑑𝑖 ) 1 + λ (F − F0 ) ∙ (1 − M) 1 𝑖=0 𝑞𝑖 ∈Ω1 (𝑝𝑖 ,𝑟1) • 𝑝𝑖 を中心とした半径𝑟1の円内の座標𝑞𝑖 ∈ Ω1 𝑝𝑖 , 𝑟1 全てを対象とする • 𝑞𝑖 と、𝑞𝑖 から𝑑𝑖 = 𝑡𝑖 −𝑝𝑖 だけ移動した𝑞𝑖 𝑡𝑖 −𝑝𝑖 2 + 𝑑𝑖 に位置する特徴ベクトルのL1損失を最小化 • 編集領域がマスクMで与えられた場合、現在の特徴マップFと最初の特徴マップF0 でマスク領域以外が一致するような再構成誤差を加える 10

11.

DragGAN: point tracking 目的：特徴マップF′内で対応するハンドル点𝑝𝑖 を探索し、更新する • 以下の更新式を適用 𝑝𝑖 ≔ argmin 𝑞𝑖 ∈Ω2 (𝑝𝑖 ,𝑟2) • Ω2 𝑝𝑖 , 𝑟2 = る 𝑥, 𝑦 𝐹 ′ 𝑞𝑖 − 𝐹0 𝑝𝑖 1 𝑥 − 𝑥𝑝,𝑖 < 𝑟2, 𝑦 − 𝑦𝑝,𝑖 < 𝑟2 に属する座標𝑞𝑖 全てを対象とす 11

12.

実験設定データセット • FFHQ(512), AFHQCat(512), SHHQ(512), LSUN Car(512), LSUN Cat(512), Landscapes HQ(256), microscope(512), self-distilled dataset including Lion(512), dog(1024), and Elephant(512) ハイパーパラメータ • λ = 20, 𝑟1 = 3, 𝑟2 = 12 • 全ての𝑝𝑖 から𝑡𝑖 までの距離が𝑑ピクセル以下でプロセスを終了 𝑑=1 if 𝑛 ≤ 5 ቊ 𝑑 = 2 otherwise 12

13.

実験内容実験の種類 • 生成画像に対する編集 • 実画像を入力とし、GAN Inversionを用いて潜在変数を獲得して編集 • 顔画像を2枚生成しそれぞれのランドマークを検出、入力画像のランドマークを編集しターゲットのランドマークと一致するように最大300回反復して編集 • 2枚の画像A,Bを生成しAからBへのフローを算出し、フロー内のランダムな点をハンドル点としてAをBと一致するように最大100回反復して編集 (Ablation study) StyleGAN2の使用するブロックを変更 / 𝑟1を変更評価方法 • 生成精度：FID • 再構成誤差：MSE, LPIPS, MD(ターゲット点と最終更新後のハンドル点の平均距離) • 処理時間 13

14.

比較手法対話的な点ベースの編集 • UserControllableLTをベースラインとした • マスクを用いた実験を行う際、 UserControllableLTはマスク入力を受け付けないため、16 × 16のグリッドでマスクに含まれない点を固定点とした point tracking手法の比較 • DragGANのpoint tracking手法を、従来手法であるRAFTとPIPsに置き換えて精度を比較した 14

15.

実験結果: 生成画像に対する編集 • 複数のデータセットにおいてDragGANの生成画像はより自然で優れていた 15

16.

実験結果: point trackingの比較 • RAFTやPIPsでは、操作中にハンドル点が異なる点となり、正しく移動できなかった • point trackingを行わない場合、ハンドル点は背景に着いてしまい編集されなかった 16

17.

実験結果: 画像を入力とした編集 • PIT[7]を用いて実画像から潜在変数を獲得して編集した結果、表情や姿勢、形状を高い精度で編集できていた 7. Roich, Daniel, et al. "Pivotal tuning for latent-based editing of real images." ACM Transactions on Graphics (TOG) 42.1 (2022): 1-13. 17

18.

実験結果: ハンドル点のトラッキング精度 • 実験は1000回行い平均を算出した • DragGANではターゲットに合わせて口を開け、顎の形状がターゲット点と近かった • DragGANは高精度なトラッキングにより、従来手法と比較して高い精度を示した • 実行時間については、 UserControllableLTが最も高速であったハンドル点が1点の場合の結果ハンドル点の数ごとのMD 18

19.

実験結果: 再構成の精度 • 実験では、潜在変数𝑤1 から得られた画像と、 𝑤1 にランダムな摂動を加えた 𝑤2 から得られる画像をペアとしてフローを計算した • 実験を1000回行い平均を算出した • 再構成タスクにおいて、DragGANは既存手法を上回る精度を示した • point trackingについてもDragGANで提案された手法が最も良い精度を示した 19

20.

実験結果: Ablation study • StyleGANの6ブロック後の特徴マップが最も性能が良かった • 𝑟1の変化に対して敏感ではないが𝑟1 = 3が若干精度が高かった 20

21.

Discussion マスクの有効性 • マスクを加えることでマスク領域外を保持して編集が可能である分布外の表現 • 口の内部などデータ分布に含まれない画像を生成可能であるが学習データに依存すると考えられる Limitation • データ分布に沿わないデータを生成しようとするとアーティファクトが現れた • テクスチャがない点をハンドル点とするとトラッキングが正常に動作しない 21

22.

まとめ • 追加のネットワークやデータを使わず、ユーザの入力に従って対話的に画像を編集可能 • ポイントベースの編集を3次元生成モデルに拡張する予定 22

23.

DragDiffusion[8] 概要: 大規模拡散モデルを用いた広いドメインに対応する対話的編集モデル DragGANの手法をDiffusion Modelの特定の時刻のデータに対して適用 (A)学習済みモデルをLoRA[9]を用いてfine-tuneし、入力画像を再構成できるパラメータを獲得 (B) DDIMを用いて拡散過程を計算し、逆拡散過程の特定の時刻𝑡でノイズデータを編集する 1. 2. 時刻𝑡のノイズデータ𝑧𝑡 を𝑧𝑡 0 とし、 𝑧𝑡 𝑘 にDragGANで提案されたmotion supervisionを適用した𝑧ෝ𝑡 𝑘 を用いて損失を計算し𝑧𝑡 𝑘+1 を得る更新した𝑧𝑡 𝑘+1 と𝑧𝑡 0 を用いてDragGANで提案されたpoint trackingを行い、ハンドル点を更新する [8]より引用 8. Yujun, Shi, et al. “DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing”. arXiv preprint arXiv:2306.14435 (2023). 9. Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). 23

24.

DragDiffusion 実験設定 • Diffusion Model: Stable Diffusion 1.5[10], LoRA: 200 step, DDIM: 50 step • DDIMの40step目を編集実験結果 • 定性的には自然に編集できている気になる点 • LoRAなしでデータセットに沿った画像を編集した結果 • 実行時間 • DragGANのlimitationで述べられていた点に関する実験結果 10. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. 24

25.

感想 • GANを用いることで反復処理の実行時間を短縮しており、アプリケーション等への応用が期待できる – テキストを用いた条件付けと比較して明確な編集が可能であり、意図した画像を生成可能 – DragDiffusionではLoRAの処理が含まれるためDragGANと比較して低速であると考えられる • 3次元生成モデルが持つ3次元表現へ拡張することで編集の幅が広がる • Latent DiffusionのDecoderに対しても同様のことが成立するのか気になる – Diffusion Modelの高い表現能力とDragGANの高速な編集能力を両立できるか • StyleGAN-XLのような広いドメインを扱うモデルに対しても同様のことが成立するのか気になる – DragDiffusionではLoRAを用いたfine-tuneこの点をある程度考慮できていると考えられる • 編集後の生成画像の品質という点ではDiffusion Modelを用いる手法が勝ると考えられる – Diffusion Modelのノイズデータと生成画像は同じ解像度であるためDragGANと比較して編集位置を明確化できている 25