"High-Resolution-Image-Synthesis-and-Semantic-Manipulation-with-Conditional-GANs"をざっくり要約

>100 Views

February 13, 24

スライド概要

授業で発表したスライドです.Publicにできるように編集しております.

profile-image

抹茶(maccha, matchaism, etc.)

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

matchaism 1

2.

概要 ➢ Pix2PixHD  高解像度の画像生成のための手法  Semanticマップを活用  オブジェクトのテクスチャも制御できる • CVPR 2018 • NVIDIAとカリフォルニア大学バークレー校の共同研究 2

3.

関連研究 ➢ Pix2Pix  CGANをベース  GAN loss + L1 loss  今でもPix2Pixベースの研究を見かける ➢ Cascaded Refinement Networks  異なるスケールのsemanticマップを段階的に入力  Perceptual Loss 3

4.

関連研究 ➢ 関連研究の課題点  Pix2Pixなど既存のGANでは,高解像度でリアルな画像の生成は困難  高解像度な画像を生成したCRNでも,テクスチャが欠けていた ➢ 本研究の貢献  ラベル情報を操作することで Interactive Object Editing が可能  Boundary map を使用することでより物体の境界が鮮明に 4

5.

提案/Coarse-to-fine generator Coarse-to-fine generatorでは,Generatorを2つのネットワークに分離 ➢ G1: Global Generator Network • 3つのモジュールで構成: Front-end + Residual Block + Back-end • • Frontではダウンサンプリング,Backではアップサンプリング Residual Blockでは本命の画像生成 (1024x512の画像) ➢ G2: Local Enhancer Network • 間にG1をはさみ,入力画像の解像度をダウンサンプリング,出力画像をアップサンプリング • さらに両端を別のLocal Enhancer Networkではさむと,幅と高さが2倍 (G2, G3, G4, …) 先頭: ダウンサンプリングし,G1に渡す • 末尾: G2の出力とG1の先頭の出力のelement-wise sumをとり,アップサンプリング • 5

6.

提案/Multi-scale discriminators D2 D1 D3 ※実際は変換前の画像と変換後or正解の画像をconcat (実質2入力1出力) 高解像度の画像を1つのDiscriminatorで識別するには,deepかつ大きな畳み込みが必要 ↓  Discriminatorを分離  異なるスケールを受け付ける (D1:x1, D2:x1/2, D3:x1/4)  解像度を上げるときは,さらにDiscriminatorを追加すればよい 6

7.

提案/Improved adversarial loss G.T. Images ・・・ Real/Fake Generated Images ・・・ Real/Fake ※実際は変換前の画像と変換後or正解の画像をconcat (実質2入力1出力) ➢ Feature Matching Loss (FM Loss) Discriminatorをより騙すことのできるGeneratorを目論む • Discriminatorへの入力が生成画像/正解画像でも,Discriminatorの中間層のレベルまで類似させる • 7

8.

提案/Using Instance (Boundary) Maps  Semanticマップ  同じカテゴリに属するオブジェクト同士で境界がない  境界部分がぼやける ←はっきりとしてほしい  Instanceマップ  オブジェクト一つ一つを区別してくれる (オブジェクト間の境界が明解)  異なる画像間で同じカテゴリのオブジェクトの数が異なる ↓  Boundaryマップ  オブジェクトの境界線に関する(バイナリ)マップ  周辺4pixelが全て同じオブジェクトならば0, 1つでも異なるならば1 8

9.

提案/Learning an Instance-level Feature Embedding  Semanticマップからは多様な画像(1:多)が生成される → オブジェクトの指定をユーザの意思でできるようにしたい ↓ ➢ Feature Encoder Network (Encoder-Decoder構造)  G.T.画像から特徴量の抽出  特徴マップをSemanticマップの各instanceごとにaverage pooling  Instance内のクラス分類にはK-meansクラスタリングを利用  Pooling後の特徴マップとSemanticマップをGeneratorに入力  同じsematic label(例:車,道)でも,テクスチャ(車種,アスファルト)を区別 9

10.

評価実験  FM lossの重み 𝜆 = 10  Feature Encoderの出力は3次元  K-meansクラスタリングのクラス数𝐾 = 10  LSGANをベース  GAN loss, FM lossで学習した手法とGAN loss, FM loss, Perceptual lossで学習した手法で比較  Dataset: Cityscape, NYU, Helen Face, ADE20K 10

11.

評価実験/Quantitative Comparisons ➢ 実験内容  Sematicマップの画像を入力し,画像生成  生成画像をPSPNetでSematic Segmentation  提案手法とPix2Pix, CRNで,正解のラベルとの類似度を比較 ➢ 結果 • 教師画像と精度が類似 11

12.

評価実験/Human Perceptual Study ➢ 実験内容 • 被験者に主観的な評価をしてもらった 1. 2. 2枚の画像を時間をかけて観察してもらい,判定 2枚の画像を制限時間内見て,判定 (1/8~8秒のうちのランダム時間内) ➢ 結果  VGGのPerceptual lossの有効性を示した  時間をかけるほどrealを見分けやすい  時間をかけるほど提案手法(Pix2PixHD)がCRNよりリアルに見える 1 2 12

13.

評価実験/Human Perceptual Study 13

14.

評価実験/Interactive Object Editing ➢ 実験内容 • インスタントの特徴を変え,テクスチャの変化を観察 ➢ 結果 • リアルタイムに顔の属性や肌の色に変更を加えることができる 2 14

15.

結論 ➢ 結論  提案手法はSemanticマップとInstanceマップを使用した画像の生成手法  オブジェクトに対して,テクスチャの制御を可能にした  リアルな画像を生成するためには,instanceレベルの特徴埋め込みを学習することが重要 ➢ 議論  異なる画像で同じカテゴリのオブジェクトの数が異なるため,Instanceマップの利用が難しい  テクスチャの制御方法の改善 15

16.

感想と参考文献/感想 ➢ 感想 画像処理分野には詳しくないが,Pix2Pixを活用した研究はよく見かけていた • Pix2Pixの改良ということだが,かなりネットワークが複雑化していた • • 複数のネットワークや損失関数の「合わせ技」による改善はよく見かける 解像度を上げるため,ネットワークを長くする手法もよく見かける • オブジェクトの境界をはっきりさせるためにSemantic Segmentationを活用するのもしばしば見かける • ↓ • 生成画像の品質を高める手法がまとまっており,この文献1つで広く把握できそう (なお2018発表) 16

17.
[beta]
感想と参考文献/参考文献
本スライドに掲載した図は,下記文献から引用した.
<引用論文>
•
•
•

Ting-Chun Wang et al., “High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”, 2014.
Phillip Isola et al., “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017.
Qifeng Chen et al., "Photographic Image Synthesis with Cascaded Refinement Networks," ICCV, 2017.

<参考資料>
•

•

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANsを読んだ #機械学習 – Qiita
•
https://qiita.com/d-ogawa/items/24f7d102e18c687e3c18
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東) | PPT
•
https://www.slideshare.net/ssuser86aec4/cvpr2018-pix2pixhd-cv-103835371

17