【論文紹介】スケッチ画像の自動彩色手法

236 Views

October 25, 23

スライド概要

下記の論文に関する発表資料です。
GANを用いた参照ベースのスケッチ画像の自動彩色手法として
CVPR2020に採択されたものです
J. Lee et al., "Reference-based sketch image colorization using augmented-self reference and dense semantic correspondence", Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., pp. 5801-5810, Jun. 2020.

sgmtg

@sgmtg

スライド一覧

画像生成AIについて研究している大学院生です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.74MB)

関連スライド

アルゴリズム超初心者入門

sgmtg 2.2K

初心者のための組み合わせゲームに関するアルゴリズム入門

sgmtg 1.3K

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 285K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 278.4K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 165.8K

AR.jsとA-Frameではじめるお手軽WebAR/VR

ar_fukkuoka webar webvr aframevr arjs

Takashi Yoshinaga 149.7K

各ページのテキスト

論文紹介 Reference-Based Sketch Image Colorization using Augmented-Self Reference and Dense Semantic Correspondence

この論文のタスク：リファレンス画像をヒントとして用いるスケッチ画像の着色入力スケッチ画像出力リファレンス画像 • スケッチ画像とリファレンス画像の対応関係を学習する必要がある J. Lee et al., "Reference-based sketch image colorization using augmented-self reference and dense semantic correspondence", Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., pp. 5801-5810, Jun. 2020.

論文の概要 • 提案したことスケッチ画像とリファレンス画像の対応関係を学習するために、 Attention機構をもとにしたモジュールであるSCFTを提案 ( Spatially Corresponding Feature Transfer ) • 結果複数のデータセットで定量評価、定性評価ともに既存手法を上回る

学習プロセスの概略図

学習データの入力・入力画像はすべて256*256のサイズ出力の教師画像・データセットの画像のRGB値それぞれにランダムノイズを加えたものリファレンス画像・教師画像を変形したもの・TPS変換を使うスケッチ画像・データセットの画像から輪郭抽出したもの・XDoGを使う

Er Es • スケッチ画像とリファレンス画像について、 Encoderを用いてそれぞれの特徴量Vs, Vrを抽出各層の空間サイズ h×w が同じ値になるようにダウンサンプリングし、すべてのチャネルについて concatenateしたもの特徴量の[ h×w, c ] = [ 256, 992 ]

SCFT • 画像間の対応関係を学習する

出力 • C = Vs + Vr* • Cを４層のRes blocksに入力 • skip接続のあるDecoderに入力 • 識別器：Patch GAN

損失関数

10.

評価指標 • FID 実画像と出力画像の分布の距離を測定 • Semantically Corresponding PSNR（本論文で提案） • リファレンス画像と出力画像は構造が異なるため通常のPSNRが使えない • 出力画像のパッチに対応する領域同士でPSNRを行う • 出力画像がリファレンス画像のスタイルをどれほど忠実に反映しているかを評価

11.

データセット • ImageNet • Human Face • Yumi FID を計算 • Tag2pix • Edges → Shoes • SPair-71k SC-PSNRを計算

12.

定量的結果（FID）

13.

定量的結果（SC-PSNR）

14.

線画着色出力例 Image Net Human Face Yumi Tag2pix Edges → Shoes 画像変換スタイル変換

15.

ユーザテスト

16.

Attention Mapsの可視化スケッチ画像の左目の領域をクエリとしたとき、リファレンス画像中で注目する上位三つの領域を可視化・attention mapは目の領域に注目・出力画像を正しく青色で着色できる