[DL輪読会]Seeing What a GAN Cannot Generate

>100 Views

October 11, 19

#deep learning #GAN #Deep Learning #Image Generation #Network Inversion #Mode Collapse

スライド概要

2019/10/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Seeing What a GAN Cannot Generate Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ➢ 著者 – David BauらMITの研究チーム – GAN Dissectionを提案したチーム ➢ ICCV2019に採択 ➢ コード：2週間前に公開 – https://github.com/davidbau/ganseeing 2

https://github.com/davidbau/ganseeing

概要 ➢ 既存のGAN手法のmode collapseに注目。 ➢ 主に物体レベルのmode collapseを研究対象として、議論を行った – どのような物体が作成されないかを統計的に検討 ➢ 単独の画像に注目し、GANの生成器をレイヤ毎にnetwork inversion を実施し、生成器を最適化する – レイヤ毎の特徴量を最適化することで、生成器の性能の上限を向上 – 既存のGAN手法が失敗するケースを分析 3

既往研究 ➢ GANの課題：mode collapse/ mode drop – ターゲット分布の一部分は生成されない – 既存のGANの結果を評価する指標はモデル全体を対象とする – 本研究は、物体レベルのmode collapseを評価 ➢ Network inversion – x = G(E(x)) – 生成器のinversionとなるencoderにより取得した潜在空間に対し、特定の操作を行うことで、画像を編集できる – 構造の複雑な生成器に対しては困難 – 本研究は、 Layer-wise network inversion + Layer-wise image optimizeを提案 ➢ GANの可視化 – 多くの研究は、分類問題や、GANが学習できる物体の可視化に注目 4

手法 ➢ 生成画像と実画像のセマンティックセグメンテーション結果を比較し、 GANが生成できない物体を全体的に評価 ⁃ ⁃ セグメンテーション結果に対し、各クラスの画素数で比較 FSD（Fréchet Segementation Distance）でモデルの全体性能を評価(FIDと類似） 2 + 𝑇𝑟 ∑𝑔 + ∑𝑡 + 2(∑𝑔 ∑𝑡 )1/2 ⁃ 𝐹𝑆𝐷 = ⁃ ⁃ 𝜇𝑡 は学習サンプルの各クラスの平均画素数。∑𝑡 は各クラスの画素数の共分散 𝜇𝑔 は生成画像の各クラスの平均画素数。∑𝑔 は各クラスの画素数の共分散 𝜇𝑔 − 𝜇𝑡 (1) 5

手法 ➢ 問題設定 – x‘ = G(z) = G(E(x)) • Network inversion によるGの最適化：Gはnon-convexのため、全体のinversionが難しい • zの最適化：局所的最小値に落ちやすい – 追跡可能なnetwork inversion • x' = G(z) = Gf(gn(·· · ((g1(z)))) (2) = Gf(r*) where Gfは生成器の深い層。gnは浅い層。 ∗ r = arg min 𝑙(Gf 𝑟 , 𝑥) 𝑟 – 完璧なr*を求めれば、漏れのない画像を生成できる ∗ r ≈r0= gn(·· · ((g1(z0)))) – ランダムなzより、ある程度正則化されたz0 が望ましい。実画像ｘをencodeすることで、正則化したz0を求められる z0 = E(x) 6

手法 ➢ Layer-wise network inversion – Encoder Eを学習できれば、 z0の推定ができる – pre-trainした独立するレイヤを使うことで、大きいなネットワークの学習がしやすくなる – Layer-wise inversionで、Eを最適化する – x′= Gf(gn(·· · ((g1(z)))) のレイヤ毎(gi)に、inversionとなるeを用いて最適化する • ri = gi(ri-1) ⇒ ri-1 ≈ ei(ri) ⇒ ri ≈ gi(ei(ri)) • eiの最適化 • E* = e1(e2(·· · (en(ef(x)))) 7

手法 ➢ Layer-wise image optimization ∗ – 目標は、なるべく完璧なr を見つけて、物体が漏れない画像を生成する。 ⇒ Gf(r*) – 各 giにおいて、ある特徴量𝛿𝑖 を加えることで、 ri を最適化 – 𝑟 ≡ 𝛿𝑛 + 𝑔𝑛 ⋯ 𝛿2 + 𝑔2 𝛿1 + 𝑔1 𝑧0 ∗ – r = arg min( 𝑙 x, Gf 𝑟 𝑟 + λ𝑟𝑒𝑔 ∑𝑖 𝛿𝑖 (3) 2) – 𝑙 x, Gf 𝑟 は画像のpixel lossおよび、VGG perceptual lossとする 8

実験1 ➢ GANが生成した画像の全体評価 ➢ 実験対象 – WGAN-GP, Progressive GAN, StyleGAN ➢ データセット – LSUN bedroom images ➢ 評価内容 – GANで生成した画像でsemantic segmentationし、その結果を統計的に評価する – 合計336クラス、10,000枚以上の画像で評価 ➢ セグメンテーション手法 – Unified Perceptual Parsing network 9

10.

実験1 ➢ 実画像と比較し、GANは小さく、複雑な物体の生成が苦手 Real images ➢ 性能として、StyleGAN > Progressive GAN > WGAN 10

11.

実験2 ➢ 異なるデータセットにおいて、生成できない物体は類似する ➢ 実験対象： Progressive GAN ➢ データセット：LSUN church/bedroom images 11

12.

実験3 ➢ 提案手法有効性の検証 ➢ baseline – a): optimize z – b): learn E directly – c): b)+a) ➢ abalation study – d): layer-wise network inversion only – e): a)+optimize z – f): a)+optimize r (r=Ef(x)) ➢ 提案手法は、中間レイヤの特徴量において、99％以上相関 ➢ Eの目的は、Gが生成できない物体（dropped modes）を明確にする ➢ d),e)はGの下限を示す。f)はGの上限を示す 12

13.

実験4 ➢ Layer-wise inversion across domains – 対象物体が同じで、学習データに含まれていない場合：形状は大体復元できるが、細部は困難 – シーンが異なる場合、基本的には難しい 13

14.

まとめ ➢ GANの生成画像をセグメンテーションし、FSDで全体を評価した ➢ Layer-wise network inversionで、Gをレイヤ毎にinversionし、Gの復元上限（dropped mode）を明確にした ➢ 今後の課題 – なぜGANは、学習データでの出現頻度が高い物体を生成しないのか？ – 学習データを変更せず、どうやってGANを物体の表現を学習できようにするのか？ ➢ 所感 – 着眼点が面白い – 方法は、割と地味 – 解釈性も入れるべき？ 14