[DL輪読会]Painting style transfer for head portraits using convolutional neural networks

>100 Views

February 08, 18

#deep learning #Convolutional Neural Network #Style Transfer #Portrait #Artificial Intelligence #Image Processing

スライド概要

2018/1/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

“Painting Style Transfer for Head Portraits using Convolutional Neural Network (SIGGRAPH2016)” Haruka Murakami Matsuo Lab 1

書誌情報 • SIGGRAPH’16 • 被引用数：17（17/01/16時点） • 著者 – Ahmed Selim∗ CONNECT center, Trinity College – Mohamed Elgharib∗ Dublin Qatar Computing Research Institute, HBKU – Linda Doyle* CONNECT center, Trinity College Dublin • 選定理由：画像編集による自動化粧の従来研究があまりなく、既に採択されている近い研究を参考にしたかったため。 • 内容：肖像画を、パーツを崩さずにいろんな芸術家のスタイルで描く – いろんな研究を引用して組み合わせた研究（引用文献６０件弱！！） – 動画でも出来ている 2

似顔絵を描く際の問題 • 似顔絵を描くとパーツが崩れる＊論文内より一部抜粋した図 • 従来の研究 – 鉛筆でのスケッチが前提 • 肖像画の構成要素 – ブラシ使い、輪郭＆パーツ、テクスチャ • パーツを崩さずにスタイルだけ適用できないか？ 3

今回のポイント • 人の顔写真を参考画像のスタイルに顔を崩さずに変換＋動画 • 顔写真＋参考肖像画１点のみでOK 従来は・・・ – イメージからの類推に頼り、テクスチャーを取ってそれっぽいものにしていた – 顔写真＋寄せたいスタイルが何点か必要だった – 参考画像は肖像画であればどんなスタイルのものでも構わない • 画像にCNNを使った空間上の制約を加え、顔が崩れないようにした • 動作の情報なしで、動画でも変換がスムーズに行えるようにした 4

どんな画像が参考画像でも適応できる • 顔のパーツを保ってStyle Transferすると 5

従来手法との比較 • そんなに違うかなあという感じもするが。比較手法 [Gatys et al. 2015] 元写真参考画像提案手法 Γ = １、１０、１００ 6

前提の式（従来手法で考え方は提案済み） • I : 顔写真 E:参考肖像画通常の特徴量の式をテクスチャーの特徴量 Glで更新する εは割り算の解なしを防ぐためのパラメータ 7

今回導入した考え方 • 顔の崩れを防ぐ式 • F[O]はVGG network – 5×5の畳み込みを3×3の２層で表現する – 層が増えるので、弁別能力が高くなる 8

今回のアルゴリズム • Γ：絵と写真のバランス • 基本的には普通のCNN • Gain Mapを得て、テクスチャーを捉えた後、先ほどの空間束縛式の最適化を繰り返す 9

10.

横顔も出来てる 10

11.

動画への拡張 • 画像からの応用としてアラインメント変化を取得して反映し、動画にも適用 • https://www.youtube.com/watch?v=SoyjFyHpwFI • すごいところ – 比較的スムーズ – ちらつき、Shower ‒ door effect、Ghost effectを防いでいる – ただし、他の参考文献の手法を適用 11

https://www.youtube.com/watch?v=SoyjFyHpwFI

12.

実行環境 • VGG network with max pooling は[Simonyan and Zisserman 2014] 、implementation は [Johnson 2015] を利用 • 静止画 – 画像サイズ: 合計約4502 ピクセル – 重みを最適な値に調整 – 最適化のためのイテレーション1000回 • 動画 – 画像１枚あたり約100 秒（イテレーション300回） – 画像サイズを500 ⇥ 378 に再調整。テクスチャーのアラインメント変化の処理時間は１画像あたり5.3秒。 – GeForce GTX 780を使用（ i7-3740QM CPU @2.7 GHz 、8 GB of RAM ） – 最適化されていないMATLABのコードで実行 12

13.

Feature work • 顔の位置や髪の毛の位置の認識を間違えるとうまくいかない • alignmentにまだ難がある 13