[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution

104 Views

February 25, 22

#deep learning #Deep Learning #Image Super-Resolution #Generative Models #GAN #Image Processing

スライド概要

2022/02/25
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution Presenter: Kazutoshi Akita (Toyota Technological Institute, IntelligentInformation Media Lab) http://deeplearning.jp/ 1

http://deeplearning.jp/

論文情報 • 論文名：GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution (CVPR2021) • 著者：Kelvin C.K Chan1, Xintao Wang2, Xiangyu Xu1, Jinwei Gu3,4, Chen Change Loy1 1S-Lab, Nanyang Technological University , 3Tetras.AI. , 4Shanghai AI 2Applied Reserch Center, Tencent PCG Laboratory • URL 論文： https://openaccess.thecvf.com/content/CVPR2021/html/Chan_GLEAN_Generative_Latent_Bank_for_Large-Factor_Image_SuperResolution_CVPR_2021_paper.html プロジェクトページ： https://www.mmlab-ntu.com/project/glean/ ※本資料の図は上記論文及びプロジェクトページから引用 2

概要 • 8～64倍という非常に大きい拡大倍率の超解像タスクにおいて，リアルさと忠実性を両立した画像を出力可能に 3

従来手法 • Encoder-Decoderモデル Encoder Update 𝐿𝑜𝑠𝑠 Decode LR SR e.g. ・HRとのMSE ・HRとSRのVGG feature間でMSE ・SRとHRを見分けるDiscriminatorによる Adversarial Loss メリット：高い忠実性・LRを入力＆MSEで学習しているため，大域的な構造は忠実に再現デメリット：アーティファクトの発生・MSE単体での学習・MSEと他のLossの併用 ⇒ ⇒ Over-smoothing artifact Unnatural artifact ESRGAN GT 4

従来手法 • GAN inversion Update Pre-trained GAN Generator 𝑧 𝐿𝑜𝑠𝑠 e.g. ・SRを低解像化したものとLRのMSE SR メリット：高いリアルさ GANの良さデメリット①：忠実性の欠如・Generatorにあらゆる自然画像を生成させるのは非現実的 & 𝑧の探索が困難デメリット②：推論時の計算コスト・推論時にzの探索を行うため PULSE GT 5

提案手法 • Encoder-Bank-Decoderモデル Update – Generative LatEnt bANk (GLEAN) Encoder Pre-trained GAN Generator Decode 𝐿𝑜𝑠𝑠 実画像のリアルなテクスチャや形状を事前分布として保持 ⇒ Bank ・Encoder-Decodeモデルにより，大域的な構造の忠実性は担保・GAN Generatorは局所領域のテクスチャや形状のみ学習すればよい・潜在変数に該当するものをEncoderで推定するため，計算コスト低 GLEAN GT 6

提案手法 • モデル詳細 – 各所でマルチスケール特徴を利用し，大域的な構造と局所的なリアルさを両立 – Bank（GAN Generator）にはStyleGAN，StyleGAN2を利用局所的なテクスチャや形状のみを学習するモデル構造 7

実験結果 • 他手法との定性的比較 8

実験結果 • 他手法との定性的比較 9

10.

実験結果 • 様々な倍率での結果 10

11.

実験結果 • 人の正面画像だけで学習した場合の結果 11

12.

実験結果 • 各カテゴリの画像における他手法との定量的比較 – PSNR / LPIPS • PSNR： GTとの誤差高いほうが良い • LPIPS：人が見て綺麗かどうかの指標低いほうが良い 12

13.

実験結果 • マルチスケール特徴の効果確認ここを消したりして実験 13

14.

実験結果 • Bankの効果確認ここを消したりして実験 14

15.

実験結果 • Decoderの効果確認 w/o decodeはここの出力 15

16.

実験結果 • Reference-baseの手法との比較 – 高解像画像（or パッチ）の辞書からテクスチャなどを持ってくる手法 – 提案手法では，Bankが暗黙的に高解像画像の辞書を獲得していると見なせるので比較する – DFDNet, SRNTTという2手法と比較 16

17.

実験結果 • DFDNetとの比較 – 目や鼻といった顔のパーツ部分の高解像画像の辞書を作る手法 17

18.

実験結果 • SRNTTとの比較 18

19.

まとめ • 大まかな構造を担保するEncoder-Decodeモデルと，リアルなテクスチャを生成するGANを組み合わせ，忠実性とリアルさを両立した超解像を提案 19