【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

1.5K Views

February 17, 23

#deep learning #StyleGAN-T #GANs #text-to-image synthesis #Deep Learning #Japanese presentation

スライド概要

2023/2/17
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] StyleGAN-T: Unlocking the Power of GANs for Fast LargeScale Text-to-Image Synthesis University of Tsukuba M1, Yuki Sato http://deeplearning.jp/ 2023/2/17 1

http://deeplearning.jp/

書誌情報 StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis Axel Sauer1,2, Tero Karras2, Samuli Laine2, Andreas Geiger1,Timo Aila2, 1University of Tübingen, Tübingen AI Center 2NVIDIA • 投稿先: arXiv(2023/01/23) • プロジェクトページ: https://github.com/autonomousvision/stylegan-t • 選定理由: Ø StyleGANをText-to-Imageへ応用. Ø Diffusion modelが主流となっているText-to-Imageタスクにおいて,GANの立ち位置を明確化. ※出典が明記されていない限り図表は論文・プロジェクトページより引用 2023/2/17 2

https://github.com/autonomousvision/stylegan-t

概要 • 幅広い構造を含むデータを学習可能なStyleGAN-XL[1]をベースに,⼤規模なtext-to-Imageモデルを構築,学習させた. • StyleGAN-Tでは⾼速かつ⾼品質な画像⽣成を実現した. 1. Sauer, Axel, Katja Schwarz, and Andreas Geiger. "Stylegan-xl: Scaling stylegan to large diverse datasets." ACM SIGGRAPH 2022 conference proceedings. 2022. 2023/2/17 3

背景: text-to-image におけるGAN GANのメリット StyleGAN[2]に⾒られるGANは潜在空間を制御することで,⽣成画像を制御可能であり,また,⾼速な画像⽣成が可能である. GANのデメリットデータ数が少なく,狭いドメインのデータセットでは⾼い精度を⽰すが,データ数が急速に増加しているこのタスクでは安定した学習が難しい. – テキストデータから画像を⽣成するtext-to-imageでは,Diffusion Model(DM)や Autoregressive Model(ARM)が主流である. 2. ⼤規模で多様なドメインを含むImageNetでの学習を安定に⾏えるStyleGANXLをベースとして,StyleGANの利点を活かしつつ,text-to-imageへ応⽤できないか. arras, Tero, Samuli Laine, and Timo Aila. "A style-based generator architecture for generative adversarial networks." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 2023/2/17 4

StyleGAN-XL • StyleGANの⽣成画像を制御可能な設計がImageNetのような⼤規模で多様なデータセットで著しく性能が低下するという問題に対処した. • StyleGAN3[3]をベースとして以下の点を改良した. 1. 2. 3. 4. 正則化の廃⽌潜在変数の低次元化(512→64), Projected GAN[4]の導⼊各クラスラベルの埋め込み表現の事前学習徐々に⽣成画像の解像度を上げるProgressive Growingの再導⼊ 5. Feature NetworkとしてCNNとViTの２つのネットワークを使⽤ 6. Classifier Guidance[5]の導⼊ 3. 4. 5. Karras, Tero, et al. "Alias-free generative adversarial networks." Advances in Neural Information Processing Systems 34 (2021): 852-863. Sauer, Axel, et al. "Projected gans converge faster." Advances in Neural Information Processing Systems 34 (2021): 17480-17492. Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794. 2023/2/17 5

StyleGAN-T • StyleGAN-XLをベースにtext-to-Imageタスクへ拡張した. 2023/2/17 6

StyleGAN-T: Generator • StyleGAN2のGeneratorをベースとする. – StyleGAN3で導⼊された変形に対する等価性はこのタスクでは必要なく,計算コストが⼤きくなるため. • Residual blockを導⼊. – ⼤規模データセットを学習できるように層を深くした際の,学習の安定化のため. • Layer scaleの導⼊. – 深い層の学習を改善するため. 2023/2/17 7

StyleGAN-T: Generator • CLIPから得られる特徴量𝑐!"#! を潜在変数𝑤 に直接concatする. – 𝑐!"#! が⽣成画像のスタイルに⼤きく影響するため. • ⽣成した各層のスタイル𝑠について,3つのベ ̃ クトル𝑠̃$ , 𝑠̃% , 𝑠̃&に分解して, 𝑠 = 𝑠̃$ ⊙ 𝑠̃% + 𝑠̃&として⼊⼒する. – そのまま⼊⼒するより表現⼒が増加する(ポリノミアルネットワーク[6],[7]で提案されている). 6. 7. Chrysos, Grigorios G., et al. "P-nets: Deep polynomial neural networks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. Chrysos, Grigorios, Markos Georgopoulos, and Yannis Panagakis. "Conditional generation using polynomial expansions." Advances in Neural Information Processing Systems 34 (2021): 28390-28404. 2023/2/17 8

StyleGAN-T: Discriminator • Discriminatorの⼊⼒に,微分可能な変換を適⽤する. 𝑐!"#! • ⼊⼒が224%となるようにランダムクロップ. • Feature Networkには,⾃⼰教師あり学習を⽤いたDINOを⽤いる. – ⾃⼰教師あり学習による事前学習は精度向上に有効. Generated Image 2023/2/17 9

10.

[beta]

StyleGAN-T: text encoder
• Text encoderには事前学習済みのCLIP text
encoderを⽤いる.
• ⽣成画像をCLIP image encoderに通して得
られる𝑐()*+"と,𝑐!"#! の球⾯距離の２乗誤差
を損失として⽤いる.
𝐿$%&' = arccos ( (𝑐)*+," * 𝑐!"#! )

– ⼊⼒されたテキストと⽣成画像のキャプション
が近づくように制約をつける.
– 学習に⼤きな影響を与えるため,重み付けを⾏
う.(論⽂内では0.2)

• 実験より𝐿,-./が有効であるのは64%の解像
度までと確認されたため,⾼解像度では64%
にランダムクロップして適⽤.
2023/2/17

10

11.

StyleGAN-T: 学習⽅法 • ２つの学習⽅法を⽤いる. – Phase 1: Text encoderを固定して学習する. – Phase 2: Generatorを固定して学習する. • 実験では,phase1で64%の解像度まで学習を⾏い,その後phase2の学習を挟んで,phase1の学習を最後まで⾏う. – phase1の事前学習で得られるGeneratorを⽤いることで,⽣成された低解像度画像にアーチファクトが出ることを防ぐことが可能である. – Phase2では,アーチファクトを発⽣させずに𝐿$%&'を⼤きくして学習が可能である.これにより, 画像の品質を保ったまま,text encoderの精度を改善可能である. – Phase2が収束したのち,phase1を再開する. 2023/2/17 11

12.

StyleGAN-T: truncation trick • StyleGANでは,類似した画像ばかりを⽣成することを防ぐために導⼊した. • StyleGAN-Tでは,潜在変数𝑤について,𝑐!"#! をconcatする前の潜在変数に基づいて,潜在変数を変換した. • 実験より,truncationによりスケーリングパラメータ𝜓を⼩さくすると,CLIPスコアが⼤きくなり,⼊⼒に忠実になるが,⽣成画像の多様性が⼩さくなった. 2023/2/17 12

13.

実験設定 • 学習には複数のデータセットを⽤い,合計25億個の画像とテキストのペアデータを⽤いた. • 学習時間の合計はStable 8. $ Diffusion[8]の0程度に抑えられた. CompVis. Stable diffusion model card, 2022. https://github.com/CompVis/stable-diffusion/blob/main/Stable_Diffusion_v1_Model_Card.md 2023/2/17 13

14.

評価⽅法 • zero-shot MS COCOを⽤いた性能評価を⾏った. – 64( , 256( の２つの解像度で評価した. • 評価指標としてFIDとCLIP scoreを⽤いた. – 学習で⽤いたCLIPとは異なるモデルでCLIP scoreを算出した. 2023/2/17 14

15.

実験結果: ⽣成精度の評価 • 64%では最も良い精度であり,かつ⽣成速度も速かった. • 256%ではGANモデルの中では最も良い精度だが,DMに劣る精度だった. 2023/2/17 15

16.

実験結果: ⽣成画像の多様性と⼊⼒への忠実度 • truncationを⾏う事で,FID, CLIP scoreの両⽅でSD-distilledを上回った. – SD-distilledではサンプリングのステップ数を増加,eDiff-Iではguidance scaleを増加させることがtruncationにあたる. – ⽣成速度について,eDiff-Iが32s, SD-distilledが0.6sであったのに対し,StyleGAN-Tは0.1sであった. • Phase2でtext encoderを学習することで,FIDを⼤きく上昇させる事なく,CLIP scoreを⼤幅に向上させることができていた. 2023/2/17 16

17.

実験結果: 視覚評価 • 潜在変数を変化させた際,⽣成された画像も滑らかに変化していた. • 様々なスタイルの画像を⽣成可能であった. 2023/2/17 17

18.

考察 • GANは低解像度画像における⼤規模text-to-image syntehsisにおいて,DM以上の性能を持っていた. • eDiff-Iが64% → 256%でFIDが減少したのに対し,StyleGAN-Tでは上昇しており,StyleGAN-Tの超解像モデルは性能が低かった. – この差を,⻑時間の学習やモデルの拡張で埋めらるかは不明. • DALL-E2[9]と同様に,オブジェクトの結合やテキストの⽣成は失敗した. – CLIPよりも巨⼤な⾔語モデルを使⽤することで解決できると考えている. 9. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 (2022). 2023/2/17 18

19.

Future works • 𝐿,-./によるアーチファクトが発⽣するため,⾼解像度の画像でCLIPを再学習するなどDiscriminatorの条件付けについて⾒直す必要がある. • GANにおけるtruncationは,DMのguidanceと異なるため,truncationにかわる⼿法を⾒つければ,改善の余地がある. • モデルの巨⼤化と学習時間の増加による⾼解像度画像の⽣成精度向上. 2023/2/17 19

20.

感想 • ⽣成精度はDMと⽐較して数値以上に劣っているように⾒える. – LDMと⽐較して潜在変数の次元が⾮常に⼩さく,上⼿く情報を圧縮できていない. • データセットのドメインを絞ってfine-tuningなどするとどうなるか. – 画像のドメインが絞られれば,必然的にテキストの表現も限られるため,StyleGANが得意とする学習内容となる. • 超解像モデルをLDMのようなDecoderにするとどうなるか. – LDMではテキストによる条件付けは潜在変数にしか⾏っておらず,Decoderによる⾼解像度化の処理には含まれていない. 2023/2/17 20