【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion

3.3K Views

October 28, 22

#@deep learning jp #deep learning #3D model #NeRF #Diffusion model #Machine learning

スライド概要

2022/10/28
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “DreamFusion: Text-to-3D using 2D Diffusion” Presenter: Takahiro Maeda D2 (Toyota Technological Institute) http://deeplearning.jp/

http://deeplearning.jp/

目次 1. 2. 3. 4. 5. 6. 書誌情報概要研究背景提案手法実験結果考察・所感 2

1. 書誌情報紹介論文タイトル: DreamFusion: Text-to-3D using 2D Diffusion 出典: ArXiv (2022.9) 著者: Ben Poole et. al. 所属: Google Research, UC Berkeley 選書理由 3Dメッシュを生成するDiffusion modelに興味があった ※引用は最後にまとめてあります．特に明示が無い場合は，紹介論文，動画から引用 3

2. 概要 DreamFusion • 3Dモデル（NeRF）を生成するDiffusionを提案 • 3Dモデルのデータセットは必要なし 4

3. 研究背景 • ビデオゲームやCG映画は，大量の高精細な3Dモデルが必要 • これまでは，モデリングソフトなどを用いて人手で3Dモデルを作成サメ • 機械学習により生成する試みはあったが，データセットが少量のため困難 • 発展が著しい Diffusionによる画像生成＋ NeRFによる3次元形状推定を組み合わせれば，大量の3Dモデルを生成できるのでは？ Stable Diffusion [1] NeRF[2] 5

4. 提案手法手法概要学習済みImagen (txt2img) を用いて，NeRFのパラメータを更新細かな3次元形状を学習するためのポイント • 様々なカメラや光源を用いてレンダリングした画像を使用(structure from X) • 光源を変更するために，NeRFがalbedo（表面の色）を推定 6

4. 提案手法 • 学習時の工夫のablation (ⅰ) (ⅱ) (ⅲ) (ⅳ) 視点変更プロンプトに視点情報追加光源変更テクスチャ（albedo)を消した画像も入力 7

4. 提案手法 • Classifier-free diffusion guidance[4] (CFG) – テキストへの忠実性をコントロールする手法 – Stable Diffusion, GLIDE, Imagenなどの有名な手法で採用されている – Diffusionの損失関数 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔𝑡 𝝐𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 ] 変更する推定ノイズ – classifier diffusion guidance[3] 𝝐ො 𝜙 (𝒛𝑡 ; 𝑦, 𝑡) = 𝝐𝜙 𝒛𝑡 ; 𝑡 − 𝜔𝑡 𝜎𝑡 𝛻𝒛 𝑡 log 𝑝(𝑦|𝒛𝑡 ) テキストへの画像の忠実度を測るclassifierの勾配 – classifier-free diffusion guidance[4] 𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 = 1 + 𝜔 𝝐𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝜔𝝐𝜙 𝒛𝑡 ; ∅, 𝑡 テキストを条件付けした推定ノイズテキストを条件付けしない推定ノイズ stable diffusion 𝜔 = 7.5 DreamFusion 𝝎 = 𝟏𝟎𝟎

4. 提案手法 guidance weight 𝜔 が低い →プロンプト忠実度が低い →視点ごとに多様な画像を生成 →3次元形状が学習難 9

10.

4. 提案手法 • Score Distillation Sampling （SDS) – Diffusion + NeRFの高計算負荷を緩和する高速化手法 – 色飽和した画像が出力されるため，画像生成には不向き – Diffusionの損失関数の微分 𝛻𝜃 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔 ′ 𝑡 𝝐ො 𝜙 𝜕𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 𝜕𝒙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 ] 𝜕𝒛𝑡 𝜕𝜃 推定ノイズ誤差ただし， 𝜕𝒛𝑡 𝜕𝒙 = 𝜕(𝛼𝑡 𝒙+𝜎𝑡 𝝐) 𝜕𝒙 ノイズ推定器の勾配 NeRFの勾配 = 𝛼𝑡 𝑰は省略，𝒙 = 𝑔(𝜃) (NeRF) – Score Distillation Sampling 𝛻𝜃 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔 ′ 𝑡 𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 削除 𝜕𝒙 ] 𝜕𝜃 10

11.

• Score Distillation Sampling (続き） 𝜕𝒙 𝛻𝜃 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔 𝑡 𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 ] 𝜕𝜃 – ノイズ推定器の勾配の無視により高速化し，現実的な計算コストに – かなり場当たり的な手法では？ ′ • 著者らはProbability Density Distillation Loss[5]と同等だと証明した • 後付け感はぬぐえていない • 話題性に乗ったスピード感のある論文なためしょうがない色飽和の例 – 勾配無視により色飽和した画像が生成されやすいらしい – 色飽和した単調な背景が生成されやすいため，NeRFの学習が安定化するのでは？ 11

12.

5. 実験結果 12

13.

6. 考察・所感 • Limitation – 計算負荷の都合上，64×64の生成画像を用いており，形状は細かくない – 平面に絵が描いてあるような形状が学習されることがある – 提案する手法によって生成される形状は，Seedによってあまり変化がない • 所感 – Stable Diffusion版実装が存在 – Imagenから半年で3Dモデルへの拡張が提案されており，スピード感がある – NeRFには複数視点の画像が必要なため，Diffusionの多様性を狭めなければ学習が成功しない印象．（もったいない！） – 背景を固定するなどの詳細なプロンプトを与えることができれば解消可能？ 13

https://github.com/ashawkey/stable-dreamfusion

14.

引用 [1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. [2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106. [3] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794. 14

15.

引用 • [4] Ho, Jonathan, and Tim Salimans. "Classifier-free diffusion guidance." arXiv preprint arXiv:2207.12598 (2022). • [5] Oord, Aaron, et al. "Parallel wavenet: Fast high-fidelity speech synthesis." International conference on machine learning. PMLR, 2018. 15