【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

213 Views

February 17, 23

スライド概要

2023/2/17
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] StyleGAN-T: Unlocking the Power of GANs for Fast LargeScale Text-to-Image Synthesis University of Tsukuba M1, Yuki Sato http://deeplearning.jp/ 2023/2/17 1

2.

書誌情報 StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis Axel Sauer1,2, Tero Karras2, Samuli Laine2, Andreas Geiger1,Timo Aila2, 1University of Tübingen, Tübingen AI Center 2NVIDIA • 投稿先: arXiv(2023/01/23) • プロジェクトページ: https://github.com/autonomousvision/stylegan-t • 選定理由: Ø StyleGANをText-to-Imageへ応用. Ø Diffusion modelが主流となっているText-to-Imageタスクにおいて,GANの立ち位置を明確 化. ※出典が明記されていない限り図表は論文・プロジェクトページより引用 2023/2/17 2

3.

概要 • 幅広い構造を含むデータを学習 可能なStyleGAN-XL[1]をベース に,⼤規模なtext-to-Imageモデル を構築,学習させた. • StyleGAN-Tでは⾼速かつ⾼品質 な画像⽣成を実現した. 1. Sauer, Axel, Katja Schwarz, and Andreas Geiger. "Stylegan-xl: Scaling stylegan to large diverse datasets." ACM SIGGRAPH 2022 conference proceedings. 2022. 2023/2/17 3

4.

背景: text-to-image におけるGAN GANのメリット StyleGAN[2]に⾒られるGANは潜在空間を制御することで,⽣成画像を制御可能 であり,また,⾼速な画像⽣成が可能である. GANのデメリット データ数が少なく,狭いドメインのデータセットでは⾼い精度を⽰すが,データ 数が急速に増加しているこのタスクでは安定した学習が難しい. – テキストデータから画像を⽣成するtext-to-imageでは,Diffusion Model(DM)や Autoregressive Model(ARM)が主流である. 2. ⼤規模で多様なドメインを含むImageNetでの学習を安定に⾏えるStyleGANXLをベースとして,StyleGANの利点を活かしつつ,text-to-imageへ応⽤できな いか. arras, Tero, Samuli Laine, and Timo Aila. "A style-based generator architecture for generative adversarial networks." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 2023/2/17 4

5.

StyleGAN-XL • StyleGANの⽣成画像を制御可能な設計がImageNetの ような⼤規模で多様なデータセットで著しく性能が低 下するという問題に対処した. • StyleGAN3[3]をベースとして以下の点を改良した. 1. 2. 3. 4. 正則化の廃⽌ 潜在変数の低次元化(512→64), Projected GAN[4]の導⼊ 各クラスラベルの埋め込み表現の事前学習 徐々に⽣成画像の解像度を上げるProgressive Growingの再 導⼊ 5. Feature NetworkとしてCNNとViTの2つのネットワークを 使⽤ 6. Classifier Guidance[5]の導⼊ 3. 4. 5. Karras, Tero, et al. "Alias-free generative adversarial networks." Advances in Neural Information Processing Systems 34 (2021): 852-863. Sauer, Axel, et al. "Projected gans converge faster." Advances in Neural Information Processing Systems 34 (2021): 17480-17492. Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794. 2023/2/17 5

6.

StyleGAN-T • StyleGAN-XLをベースにtext-to-Imageタスクへ拡張した. 2023/2/17 6

7.

StyleGAN-T: Generator • StyleGAN2のGeneratorをベースとする. – StyleGAN3で導⼊された変形に対する等価性は このタスクでは必要なく,計算コストが⼤きくな るため. • Residual blockを導⼊. – ⼤規模データセットを学習できるように層を深 くした際の,学習の安定化のため. • Layer scaleの導⼊. – 深い層の学習を改善するため. 2023/2/17 7

8.

StyleGAN-T: Generator • CLIPから得られる特徴量𝑐!"#! を潜在変数𝑤 に直接concatする. – 𝑐!"#! が⽣成画像のスタイルに⼤きく影響するた め. • ⽣成した各層のスタイル𝑠について,3つのベ ̃ クトル𝑠̃$ , 𝑠̃% , 𝑠̃&に分解して, 𝑠 = 𝑠̃$ ⊙ 𝑠̃% + 𝑠̃&として⼊⼒する. – そのまま⼊⼒するより表現⼒が増加する(ポリノ ミアルネットワーク[6],[7]で提案されている). 6. 7. Chrysos, Grigorios G., et al. "P-nets: Deep polynomial neural networks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. Chrysos, Grigorios, Markos Georgopoulos, and Yannis Panagakis. "Conditional generation using polynomial expansions." Advances in Neural Information Processing Systems 34 (2021): 28390-28404. 2023/2/17 8

9.

StyleGAN-T: Discriminator • Discriminatorの⼊⼒に,微分可能な変換を適 ⽤する. 𝑐!"#! • ⼊⼒が224%となるようにランダムクロップ. • Feature Networkには,⾃⼰教師あり学習を ⽤いたDINOを⽤いる. – ⾃⼰教師あり学習による事前学習は精度向上に 有効. Generated Image 2023/2/17 9

10.
[beta]
StyleGAN-T: text encoder
• Text encoderには事前学習済みのCLIP text
encoderを⽤いる.
• ⽣成画像をCLIP image encoderに通して得
られる𝑐()*+"と,𝑐!"#! の球⾯距離の2乗誤差
を損失として⽤いる.
𝐿$%&' = arccos ( (𝑐)*+," * 𝑐!"#! )

– ⼊⼒されたテキストと⽣成画像のキャプション
が近づくように制約をつける.
– 学習に⼤きな影響を与えるため,重み付けを⾏
う.(論⽂内では0.2)

• 実験より𝐿,-./が有効であるのは64%の解像
度までと確認されたため,⾼解像度では64%
にランダムクロップして適⽤.
2023/2/17

10

11.

StyleGAN-T: 学習⽅法 • 2つの学習⽅法を⽤いる. – Phase 1: Text encoderを固定して学習する. – Phase 2: Generatorを固定して学習する. • 実験では,phase1で64%の解像度まで学習を⾏い,その後phase2の学習を挟ん で,phase1の学習を最後まで⾏う. – phase1の事前学習で得られるGeneratorを⽤いることで,⽣成された低解像度画像にアーチ ファクトが出ることを防ぐことが可能である. – Phase2では,アーチファクトを発⽣させずに𝐿$%&'を⼤きくして学習が可能である.これにより, 画像の品質を保ったまま,text encoderの精度を改善可能である. – Phase2が収束したのち,phase1を再開する. 2023/2/17 11

12.

StyleGAN-T: truncation trick • StyleGANでは,類似した画像ばかりを⽣成 することを防ぐために導⼊した. • StyleGAN-Tでは,潜在変数𝑤について,𝑐!"#! をconcatする前の潜在変数に基づいて,潜在 変数を変換した. • 実験より,truncationによりスケーリングパ ラメータ𝜓を⼩さくすると,CLIPスコアが⼤ きくなり,⼊⼒に忠実になるが,⽣成画像の多 様性が⼩さくなった. 2023/2/17 12

13.

実験設定 • 学習には複数のデータセットを⽤い,合計25億個の画像とテキストのペアデータを ⽤いた. • 学習時間の合計はStable 8. $ Diffusion[8]の0程度に抑えられた. CompVis. Stable diffusion model card, 2022. https://github.com/CompVis/stable-diffusion/blob/main/Stable_Diffusion_v1_Model_Card.md 2023/2/17 13

14.

評価⽅法 • zero-shot MS COCOを⽤いた性能評価を⾏った. – 64( , 256( の2つの解像度で評価した. • 評価指標としてFIDとCLIP scoreを⽤いた. – 学習で⽤いたCLIPとは異なるモデルでCLIP scoreを算出した. 2023/2/17 14

15.

実験結果: ⽣成精度の評価 • 64%では最も良い精度であり,かつ⽣成 速度も速かった. • 256%ではGANモデルの中では最も良 い精度だが,DMに劣る精度だった. 2023/2/17 15

16.

実験結果: ⽣成画像の多様性と⼊⼒への忠実度 • truncationを⾏う事で,FID, CLIP scoreの両⽅でSD-distilledを上回った. – SD-distilledではサンプリングのステップ 数を増加,eDiff-Iではguidance scaleを増 加させることがtruncationにあたる. – ⽣成速度について,eDiff-Iが32s, SD-distilledが0.6sであったのに対 し,StyleGAN-Tは0.1sであった. • Phase2でtext encoderを学習するこ とで,FIDを⼤きく上昇させる事な く,CLIP scoreを⼤幅に向上させるこ とができていた. 2023/2/17 16

17.

実験結果: 視覚評価 • 潜在変数を変化させた際,⽣成された 画像も滑らかに変化していた. • 様々なスタイルの画像を⽣成可能で あった. 2023/2/17 17

18.

考察 • GANは低解像度画像における⼤規模text-to-image syntehsisにおいて,DM以上の 性能を持っていた. • eDiff-Iが64% → 256%でFIDが減少したのに対し,StyleGAN-Tでは上昇してお り,StyleGAN-Tの超解像モデルは性能が低かった. – この差を,⻑時間の学習やモデルの拡張で埋めらるかは不明. • DALL-E2[9]と同様に,オブジェクトの結合やテキストの⽣成は失敗した. – CLIPよりも巨⼤な⾔語モデルを使⽤することで解決できると考えている. 9. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 (2022). 2023/2/17 18

19.

Future works • 𝐿,-./によるアーチファクトが発⽣するため,⾼解像度の画像でCLIPを再学習する などDiscriminatorの条件付けについて⾒直す必要がある. • GANにおけるtruncationは,DMのguidanceと異なるため,truncationにかわる⼿法 を⾒つければ,改善の余地がある. • モデルの巨⼤化と学習時間の増加による⾼解像度画像の⽣成精度向上. 2023/2/17 19

20.

感想 • ⽣成精度はDMと⽐較して数値以上に劣っているよう に⾒える. – LDMと⽐較して潜在変数の次元が⾮常に⼩さく,上⼿く情報を 圧縮できていない. • データセットのドメインを絞ってfine-tuningなどする とどうなるか. – 画像のドメインが絞られれば,必然的にテキストの表現も限ら れるため,StyleGANが得意とする学習内容となる. • 超解像モデルをLDMのようなDecoderにするとどうな るか. – LDMではテキストによる条件付けは潜在変数にしか⾏ってお らず,Decoderによる⾼解像度化の処理には含まれていない. 2023/2/17 20