【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan

>100 Views

June 23, 22

スライド概要

2022/06/17
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Authentic Volumetric Avatars from a Phone Scan Kento Doi, Matsuo Lab. http://deeplearning.jp/ 1

2.

概要 • スマートフォンの自撮りから高精細なアバターを作成 • カメラを縦横に動かし無表情の顔をスキャン • カメラを正面に固定したまま様々な表情をスキャン • 大量のデータで事前学習したモデルを用いることで少コストで作成可能 • アバターはカメラ視点,表情,視線方向を操作可能 • リアルタイムのテレプレゼンスシステム等に応用可能

3.

書誌情報 • Conference: SIGGRAPH 2022 • Research team: Reality Labs • Paper url: • https://drive.google.com/file/d/1i4NJKAggS82wqMamCJ1OHRGgViuyoY6R /view?usp=sharing • YouTube: • https://www.youtube.com/watch?v=t7_TMD7v0Xs

4.

Agenda • Method • • • • • • • Overview Universal Prior Method Dataset Training and Loss Conditioning Data Acquisition Personalized Decoder Generation Finetuning a Personalized Decoder • Experiments

5.

Overview a. Priorとなるモデルを事前学習 b. 無表情のユーザー動画と (a) の位置合わせ c. 様々な表情のユーザー動画で (b) をfine-tuning

6.

Universal Prior Model

7.

Universal Prior Model • 数式で書くと,以下のようになる • e, Θidはそれぞれ表情,identityの特徴 • (ただし,論文でΘidはハイパーネットワークのパラメータとして説明されて いる) • v, gはそれぞれカメラポーズと視線方向

8.

Universal Prior Model

9.

Dataset • ドーム状の環境 (右図) で人物の頭部を 撮影 • 計90個のカメラ (color 40, mono. 50) • 255人の被験者 • 画像データから顔の3Dmeshを復元 (下 図) J. R. Tena et al. Interactive Region-Based Linear 3D Face Models. SIGGRAPH, 2011.

10.

Training & Losses • 前ページで説明したデータセットを用い,以下の損失関数でUPMを訓練 • ただし, • L_mvpは再構成誤差を除いたレンダリング用の損失 • geometryの損失や,正則化の損失で構成される (先行研究のものを使っていて,詳細はよく理 解できませんでした.)

11.

Conditional Data Acquisition • Universal Prior Modelを新しい個人に適 応させたい ➢iPhone12で新しいユーザの画像 (無表情) をキャプチャ a. b. c. d. スマホを縦横に動かし動画を撮影 ランドマークを検出 シルエットを検出 3Dメッシュを復元

12.

Personalized Decoder Generation • Identity Encoderに新しく撮影した個人の画像とmeshを入力すると, その個人のアバターを生成することができる

13.

Personalized Decoder Generation • しかし,対処すべきdomain gapが2つ存在する 1. 照明条件の差異 • スタジオと環境が異なるため照明条件も異なる • テクスチャの正規化 (本文9ページ左上) を実施 (詳細はよくわかりませんでし た) 2. 撮影する視点の数と範囲 • スタジオで撮影するより,視点の範囲と数が少ない • スタジオのデータからスマホによる撮影の軌跡に重なる画像を選択し, Universal Prior Modelを学習

14.

Finetuning a Personalized Decoder • 任意の表情の画像とmeshをexpression encoderに入力すると,アバターの 表情を操作できる ➢しかし,シワなどの細かい特徴が失われてしまうことがある

15.

Finetuning a Personalized Decoder • 正面から撮影した様々な表情 (65種類) の写真を使ってネットワーク をfine-tuningすることで,さらにアバターの本物らしさを増加させる • ただし,汎化性能を失わないように,元のデータセットも混ぜて学習を行う

16.

Experiments: Universal Prior Model

17.

Experiments: Universal Prior Model

18.

Experiments: Finetuning Personalized Models

19.

Experiments: Finetuning Personalized Models

20.

Experiments: Finetuning Personalized Models

21.

Experiments: Comparison

22.

Experiments: Comparison

23.

Experiments: Comparison

24.

Experiments: Limitations

25.

Examples

26.

Examples