[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face and Caricature Modeling

>100 Views

May 19, 17

#deep learning #Deep Learning #3D Modeling #Sketching System #CNN #Caricature

スライド概要

2017/5/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 88.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 61.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 41.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 40.9K

各ページのテキスト

DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face and Caricature Modeling 19 May, 2017 M2 杉原祥太

書誌情報 • 著者： Xiaoguang Han, Chang Gao and Yizhou Yu • The University of Hong Kong • Proceedings of SIGGRAPH 2017 • https://www.youtube.com/watch?v=93WZHKYxqtM 2

https://www.youtube.com/watch?v=93WZHKYxqtM

概要 • 顔のスケッチから3Dモデルを対話的に⽣成するシステム • CNNと全結合層を組み合わせた 3

背景 • 顔のモデルは個⼈や表情によって多様である． • 少ない労⼒で⽣成できたら嬉しい • Contributions • 3D顔モデルのための画期的なシステムの提案 • CNNとBilinear modelの組み合わせ • 顔モデル拡張 4

関連研究 • Data-drivenなスケッチによるモデル⽣成 • ⼊れ物，⽊など(Huang et al. 2016), 建物(Nishida et al. 2016) • インタラクティブ性，ネットワークの新規性，データの⾮公開 • Morphableな顔モデル • CNN以外からも形状の特徴を得ているので，推定がより正確 • 3D顔カリカチュア • 2Dスケッチから3D顔カリカチュアは本研究初 • スケッチベースのモデリング • スケッチの線だけでなく，Deepから3D座標を推測して制約条件に 5

提案システム • 3つのインタラクションモードがある． • 1. Initial Sketching Mode • 描いたスケッチがそのまま3Dモデルへ • 2D投影と3Dモデルの形状は正確には⼀致しない • 2. Follow-up Sketching Mode • 線を修正していく • 適宜スケッチとモデルを切り替えられる • 3. Gesture-Based 3D Face Refinement • ジェスチャーで編集 6

データベースの構築 • 3Dモデル • Chao et al. 2014 のデータベースを拡張 • 15000個 (150⼈×表情25通り×誇張4段階) • 2Dスケッチ • 雛形にあらかじめ線を定義しておき，線をレンダリング • ⼿書きスケッチを2000枚⽤意した 7

Bilinear Morphable Representation • Cao et al. 2014のアイデア • 顔のデータベースを3階テンソル𝑇で表現する • 𝑇（11500頂点, 600⼈, 表情25通り） • 𝑇を特異値分解 • • • • • • 𝑇×# 𝐔×% 𝐔 = 𝐶 , 𝐶はcore tensor, + ×% 𝐔 + 𝑇 ~ 𝐶* ×# 𝐔 𝐶* は左上⾓を保存したcore tensor 𝑉 = 𝐶×# 𝑢. ×% 𝑣 . 個⼈，表情を表すベクトル𝑢, 𝑣 8

ネットワーク構成 • 上はAlexNetと⼀緒 (ReLU, Softmax) • 𝑢, 𝑣を別々に計算したいため，FC Layersで異なるネットワークを⽤いる． 𝑢が⼤きい • 輪郭を捉えるため，Shape-level InputでBilinear modelを使う 1 • Loss関数： 𝐸 = ∑5 𝑤5 𝐶5 ×# 𝑢. ×% −𝑔5 # , 𝑔5 はground truth 2 9

10.

学習の流れ • Classifier training • Identity, expressionと⼀致するよう学習 • 𝑢 − 𝑣 regression • 𝑢, 𝑣をLoss関数が⼩さくなるよう学習 • Final tuning • 内挿して10000データを増やす． • 10%をテストデータに 10

11.

実験 • Iterations • Classifier training : 500,000 • 𝑢 − 𝑣 regression: 800,000 • Final tuning: 500,000 • Learning rate: 0.00001, mini-batch size: 50 • Momentum: 0.9, weight decay: 0.00005 11

12.

結果 12

13.

結果 • モデル⽣成時間 • Laplacianとの⽐較 • (b)が提案⼿法 13

14.

結果 • 検証 • 38⼈×12問 • どちらがより⾃然でスケッチに忠実か 14

15.

結果 • ZBrushとの⽐較 • 10分で未経験者でもプロと似たようなモデルが作れる 15

16.

結果 • ⼿法の⽐較 • • • • PixelShapeCNN(提案) PixelCNN(CNNのみ) ShapeNN(2Dbilinearのみ) PixelCNN-Wrinckle(w/o wrinckle) • PixelCNNSingle (u,v同⼀のネットワーク） 16

17.

Limitations 17