【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan

>100 Views

June 23, 22

deep learning

スライド概要

2022/06/17
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 22.4K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.5K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.3K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 10.9K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.3K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Authentic Volumetric Avatars from a Phone Scan Kento Doi, Matsuo Lab. http://deeplearning.jp/ 1

http://deeplearning.jp/

概要 • スマートフォンの自撮りから高精細なアバターを作成 • カメラを縦横に動かし無表情の顔をスキャン • カメラを正面に固定したまま様々な表情をスキャン • 大量のデータで事前学習したモデルを用いることで少コストで作成可能 • アバターはカメラ視点，表情，視線方向を操作可能 • リアルタイムのテレプレゼンスシステム等に応用可能

書誌情報 • Conference: SIGGRAPH 2022 • Research team: Reality Labs • Paper url: • https://drive.google.com/file/d/1i4NJKAggS82wqMamCJ1OHRGgViuyoY6R /view?usp=sharing • YouTube: • https://www.youtube.com/watch?v=t7_TMD7v0Xs

Agenda • Method • • • • • • • Overview Universal Prior Method Dataset Training and Loss Conditioning Data Acquisition Personalized Decoder Generation Finetuning a Personalized Decoder • Experiments

Overview a. Priorとなるモデルを事前学習 b. 無表情のユーザー動画と (a) の位置合わせ c. 様々な表情のユーザー動画で (b) をfine-tuning

Universal Prior Model

Universal Prior Model • 数式で書くと，以下のようになる • e, Θidはそれぞれ表情，identityの特徴 • (ただし，論文でΘidはハイパーネットワークのパラメータとして説明されている) • v, gはそれぞれカメラポーズと視線方向

Universal Prior Model

Dataset • ドーム状の環境 (右図) で人物の頭部を撮影 • 計90個のカメラ (color 40, mono. 50) • 255人の被験者 • 画像データから顔の3Dmeshを復元 (下図) J. R. Tena et al. Interactive Region-Based Linear 3D Face Models. SIGGRAPH, 2011.

10.

Training & Losses • 前ページで説明したデータセットを用い，以下の損失関数でUPMを訓練 • ただし， • L_mvpは再構成誤差を除いたレンダリング用の損失 • geometryの損失や，正則化の損失で構成される (先行研究のものを使っていて，詳細はよく理解できませんでした．)

11.

Conditional Data Acquisition • Universal Prior Modelを新しい個人に適応させたい ➢iPhone12で新しいユーザの画像 (無表情) をキャプチャ a. b. c. d. スマホを縦横に動かし動画を撮影ランドマークを検出シルエットを検出 3Dメッシュを復元

12.

Personalized Decoder Generation • Identity Encoderに新しく撮影した個人の画像とmeshを入力すると，その個人のアバターを生成することができる

13.

Personalized Decoder Generation • しかし，対処すべきdomain gapが2つ存在する 1. 照明条件の差異 • スタジオと環境が異なるため照明条件も異なる • テクスチャの正規化 (本文9ページ左上) を実施 (詳細はよくわかりませんでした) 2. 撮影する視点の数と範囲 • スタジオで撮影するより，視点の範囲と数が少ない • スタジオのデータからスマホによる撮影の軌跡に重なる画像を選択し， Universal Prior Modelを学習

14.

Finetuning a Personalized Decoder • 任意の表情の画像とmeshをexpression encoderに入力すると，アバターの表情を操作できる ➢しかし，シワなどの細かい特徴が失われてしまうことがある

15.

Finetuning a Personalized Decoder • 正面から撮影した様々な表情 (65種類) の写真を使ってネットワークをfine-tuningすることで，さらにアバターの本物らしさを増加させる • ただし，汎化性能を失わないように，元のデータセットも混ぜて学習を行う

16.

Experiments: Universal Prior Model

17.

Experiments: Universal Prior Model

18.

Experiments: Finetuning Personalized Models

19.

Experiments: Finetuning Personalized Models