[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation

2.2K Views

May 17, 19

#deep learning #Deep Learning #Image-to-Image Translation #Unsupervised Learning #UNIT #MUNIT #FUNIT #Image Transformation

スライド概要

2019/05/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Few-Shot Unsupervised Image-to-Image Translation Kento Doi, Iwasaki lab (the Department of Aeronautics and Astronautics) http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 書誌情報 – 論文誌 : arXiv – 日時 : 2019/05/05 – 著者 : NVIDIAの研究グループ • 概要 – Few-shot画像変換 (変換先のクラスを数枚与えるだけでそのクラスに変換) 2

発表内容 • 本発表では, 同じ著者の論文を順に追っていきます – Unsupervised Image-to-Image Translation Networks (UNIT) – Multimodal Unsupervised Image-to-Image Translation (MUNIT) – Few-Shot Unsupervised Image-to-Image Translation (FUNIT) – 全て教師なし画像変換に関する論文 • Few-shot画像変換が実現するまで, どのようにアルゴリズムが発展してきたかを確認 • その他関連する論文も適宜紹介 3

発表内容 1. 画像変換とは 2. Unsupervised Image-to-Image Translation Networks 3. Multimodal Unsupervised Image-to-Image Translation 4. Few-Shot Unsupervised Image-to-Image Translation 5. まとめ 4

画像変換とは • 画像変換とは？ – 画像をあるドメインから異なるドメインへ変換する P. Isola et al. “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017. • 教師なし画像変換とは？ – 学習データの画像がペアで与えられない • e.g. ) Cycle GAN J. Zhu et al. “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”, ICCV, 2017. 5

UNIT : お気持ち • 教師なし画像変換の問題を以下のように定義 – 2つのドメインの画像集合の周辺分布それらの同時確率分布を推定 , から, • しかし, このような問題では, 無数の同時確率分布が存在する ➢ 2つのデータ集合の潜在表現が共通であるという仮定 (制限) を与える M. Liu et al. “Unsupervised Image-to-Image Translation Networks”, NIPS, 2017. 6

UNIT : 提案手法 • ネットワーク構造 – – – – VAE + GAN (VAE-GAN) ドメインごとにE, G, Dがある一部の層で重みを共有 (右図点線 CoGAN) 潜在表現の分布が共通と仮定 • 損失関数 – VAE loss – GAN loss – Cycle consistency loss 7

UNIT : 実験 (画像変換) M. Liu et al. “Unsupervised Image-to-Image Translation Networks”, NIPS, 2017. 8

UNIT : 実験 (ドメイン適応) • 以下のマルチタスク学習 1. ソースドメインとターゲットドメインで画像変換 2. ソースドメインの画像をdiscriminatorから得た特徴で分類 3. 変換前後の画像でdiscriminatorの出力が近くなるように M. Liu et al. “Unsupervised Image-to-Image Translation Networks”, NIPS, 2017. 9

10.

UNIT : まとめ • 潜在空間が共通であるという仮定を基に, 教師なし画像変換のフレームワークを提案 – VAE-GAN, Coupled GANベースのネットワーク構造 – VAE loss, GAN loss, Cycle consistency lossでモデルを学習 • 以下の実験で手法の有効性を確認 – 複数データセットにおける画像変換を定性的に確認 – ドメイン適応における分類スコアを他の手法と比較 10

11.

MUNIT : お気持ち • ターゲットドメインがマルチモーダルという問題設定 House catには色々な種類がいる (マルチモーダル) Big catから house cat への変換 X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. • 既存手法(pix2pixやcycle GAN)ではマルチモーダルな変換を扱うことができない – 入力にノイズを入れて生成を確率的にしているが, あまり効いていない (pix2pix 参照) • 本論文では潜在表現をcontentとstyleにdisentangle (分解) することにより実現 – Content … 空間的な構造に関する情報, ドメイン不変 – Style … rendering (外観)に関する情報,ドメイン固有 11

12.

MUNIT : 提案手法 • どのようにdisentangleするか • それぞれの潜在表現に以下の仮定を適用 – Content codeは空間情報を含む高次元の特徴マップ • 複雑な空間的構造を表現できるように – Style codeは空間情報を含まない比較的次元が低い特徴ベクトル • ガウシアンからサンプル • Style codeの効果は大域的かつ比較的シンプルであるため X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. 12

13.

MUNIT : 提案手法 • 以下のLossで学習 – 再構成誤差 – 潜在表現の再構成誤差 – Adversarial Loss (生成画像の質) X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. 13

14.

MUNIT : 実験結果 • Edge to Shoe – スタイルは正規分布からサンプル既存手法でマルチモーダルな変換は難しい提案手法は多様な画像を生成できた X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. 教師ありの手法 14

15.

MUNIT : 実験結果 • Animal to Animal – かなり多様な画像に変換できている感じがある – 顔の向きは保存されている (content と style をうまくdisentangleできている) X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. 15

16.

MUNIT : 実験結果 • Example-basedな画像変換 – 2枚の画像の content と style を入れ替える X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. 16

17.

MUNIT : まとめ • 特徴空間をcontentとstyleにdisentangleすることにより, 教師なし学習によるマルチモーダルな画像変換を実現 • 実験では画像の質と多様性を評価 – 既存の教師なしの手法を大きく上回った – 教師ありの手法に近い結果 17

18.

FUNIT : 概要 • Few-shot 教師なし画像変換 – ソースクラスからターゲットクラスへの画像変換 – テスト時は, 未知のターゲットクラスの画像が数枚のみ与えられる – 過去の経験を活用して未知のクラスも効率的に対処できることを目指す – 例) 色々な犬を見た経験があれば未知の犬種でも特徴を捉えられる/整理できる • いくつかのデータセットで検証 – – – – 動物の顔鳥花食べ物 18

19.

FUNIT : お気持ち • 特徴表現のdisentangleの活用 – クラス不変な特徴 … 空間的な構造に関する情報 – クラス固有の特徴 … 外観に関する構造 ➢ Few-shotの画像変換では, クラス固有の特徴を少ないデータから, いかに取り出し, 変換に反映させるかが課題となる – ネットワークアーキテクチャの工夫 – 学習方法の工夫 19

20.

FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder 20

21.

FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder Content image (変換元画像)を Content Code (ドメイン不変の特徴) に変換 21

22.

FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder Class Image (変換先画像) から Class Code (クラス固有の特徴) を抽出 • 複数枚の結果を平均 22

23.

FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder Content Code (ドメイン不変の特徴) とClass Code (ドメイン固有の特徴)から画像を生成 • • ResBlockの正規化はAdaIN (Adaptive Instance Normalization) Class Codeは, AdaINの際のAffine変換のパラメータとして入力される 23

24.

Adaptive Instance Normalization (AdaIN) • スタイル変換の論文(8で紹介された手法 – 特徴マップを平均, 分散で正規化したのちにスケールとバイアスを与える – スケールとバイアスによりスタイルを制御 μ(x), σ(x)は特徴マップの平均・分散 X. Huang and S. Belongie. Arbitrary style transfer in realtime with adaptive instance normalization. ICCV, 2017. • 特徴マップのスケールはGANでも重要 – 最新のcGANでは, クラスを特徴マップのスケールにより制御(9, 10 ➢ 特徴マップのスケールを学習することで狙ったクラスの画像が生成できるようになる？ 24

25.

FUNIT : ネットワーク構造 • Discriminator – 出力次元がクラス数と同じ – クラスの真偽を判定 25

26.

FUNIT : 学習方法 • : 入力画像, : 変換画像, : ターゲット画像 (全K枚) • Adversarial loss • 再構成誤差 • feature matching loss 生成画像とターゲット画像間のfeatureの誤差は最終層を除いた discriminator • これらの和を目的関数とする 26

27.

FUNIT : 実験 • ハイパーパラメータ – – – – – 学習率 : 0.0001 最適化 : RMSProp Adversarial loss : hinge loss K : 学習時 1, テスト時1, 5, 10, 15, 20 T. Miyato and M. Koyama. “cGANs with projection discriminator”, ICLR, 2018. • データセット – – – – Animal Faces : ImageNetから肉食獣のクラスを抽出し構築 Birds : 北米の555種類の鳥の種類を集めたデータセット, 全48527枚 Flowers : 102種類の花の画像, 全8189枚 Foods : 256種類の食べ物画像のデータセット, 全31395枚, 電通大 – いずれも学習時に用いるソースクラスと, テスト時に用いられるターゲットクラスに分割 27

28.

FUNIT : 実験 • ベースライン – Fair … FUNITと同じ条件 (ターゲットクラスは学習時に用いない) • StarGAN-Fair-K : StarGAN(12の拡張 – Unfair … ターゲットクラス (K枚) も使用して学習 • • • • StarGAN-Unfair-K CycleGAN-Unfair-K UNIT-Unfair-K MUNIT-Unfair-K 28

29.

FUNIT : 実験 • 評価方法 – ソースクラスから25,000枚の画像をサンプル – ターゲットクラスの画像を各クラスK枚ずつサンプル (K=1, 5, 10, 15, 20) – 画像変換を行い結果を比較 • 評価指標 – 4つの観点から評価 1. Translation Accuracy … 分類器により, 生成された画像が正しいクラスに分類されるか 2. Content Preservation … domain invariant perceptual distance (Instance Normalization してから特徴マップの距離を計算する) 3. Photorealizm … Inception Scoreで計算 4. Distribution Matching … FID score (ターゲットクラスごとに計算し平均) 29

30.

FUNIT : 実験結果 • Animal Faces と North American Birds データセットにおける実験結果 • 全ての指標で提案手法は高い性能を示した – Unfairよりも良い 30

31.

FUNIT : 実験結果 • StarGANとの比較 31

32.

FUNIT : 実験結果 • 学習データのクラス数と画像生成の性能の関連 – 生成画像の質の外観に関する指標は上昇 – ドメイン不変の特徴に関する指標はそんなに変わらず 32

33.

FUNIT : 実験結果 • Content CodeはそのままでClass codeをinterpolation 33

34.

FUNIT : 実験結果 • (上) クラウドソーシングを利用し画像の質を評価してもらった結果 – ほとんど勝っている 34

35.

FUNIT : 実験結果 • ソース画像とターゲット画像が大きく異なる場合 – うまく変換できない – 色が変わるだけ – 当たり前な気がする 35

36.

FUNIT : 実験結果 • 生成画像の例 (K=5) 36

37.

FUNIT : 実験結果 • 生成画像の例 (K=5) 37

38.

FUNIT : まとめ • Few-shot 教師なし画像変換手法を提案 – 特徴表現のdisentangleを活用 – クラス固有の表現の抽出をうまく汎化できた • 以下の要因が生成画像の質を左右 – 学習データのクラス数 – テスト時のターゲットデータの数 • ソース画像とターゲット画像が大きく異なると変換不可能 38

39.

参考文献 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. M. Liu et al. “Few-Shot Unsupervised Image-to-Image Translation”, arXiv, 2019. M. Liu et al. “Unsupervised Image-to-Image Translation Networks”, NIPS, 2017. X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. P. Isola et al. “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017. J. Zhu et al. “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”, ICCV, 2017. A. B. L. Larsen, S. K. Sønderby, H. Larochelle, and O. Winther. “Autoencoding beyond pixels using a learned similarity metric”, International Conference on Machine Learning, 2016. M.-Y. Liu and O. Tuzel. “Coupled generative adversarial networks”, Advances in Neural Information Processing Systems, 2016. X. Huang and S. Belongie. Arbitrary style transfer in realtime with adaptive instance normalization. In IEEE International Conference on Computer Vision (ICCV), 2017. T. Miyato and M. Koyama. “cGANs with projection discriminator”, ICLR, 2018. T. Park et al. “Semantic Image Synthesis with Spatially-Adaptive Normalization”, arXiv, 2019. A. Noguchi et al. “Image Generation from Small Datasets via Batch Statistics Adaptation”, arXiv, 2019. 39

40.

12. Y. Choi et al. “StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-toImage Translation”, CVPR, 2018. 40