【DL輪読会】Novel View Synthesis with Diffusion Models

752 Views

October 28, 22

#@deep learning jp #Diffusion Models #Novel View Synthesis #3D Diffusion Model #UNet #3D consistency score

スライド概要

2022/10/28
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

Novel View Synthesis with Diffusion Models Naruya Kondo (Digital Nature Group M2) 1

書誌情報 ● Novel View Synthesis with Diffusion Models ○ Arxiv (Submitted on 2022/10/6) ○ 著者：Google ■ Daniel Watson, William Chan, Ricardo Martin-Brualla, Jonathan Ho, Andrea Tagliasacchi, Mohammad Norouzi ○ プロジェクトページ (⇦ 必見) ● ひとことで言うと ○ Diffusion modelで1枚の画像からNovel View Synthesis (NVS)する 3DiM を提案 ○ (不可能なはずの)厳密な三次元復元にはあまりこだわらないかわりに、高品質な画像生成と高い三次元の一貫性を出せるのが特徴 ● 選んだ理由 ○ 何かしらdiffusion系をちゃんと読んでおきたいと思い ○ (結果が良すぎて嘘くさい気がした) 2

https://3d-diffusion.github.io/

プロジェクトページ 3

https://3d-diffusion.github.io/

本論文の貢献 1. Novel View Synthesis のための Diffusion Model である 3DiM を提案 (3DiM: 3D Diffusion Model) 2. diffusion step で確率的に(input viewの)条件付けを行う、 "stochastic conditioning" を提案 3. 三次元の一貫性を高めるために UNet を改良した X-UNet を提案 4. 三次元の一貫性を考慮するための新しい評価方法 "3D consistency score" を提案 4

(前提知識) 5秒でわかる Diﬀusion Model • 基本だいたい Denoising Diffusion のこと (要出典) • ノイズからデータを生成できるやつ • 学習時: • 推論時: • 様々な加減(1000段階くらい)でノイズを足し (x_{t} = x_{t-1} + noise)，足されたノイズをUNet等で予測する (noise = UNet(x_{t}))．予測したnoiseのL1 or L2 lossを最小化する (だけ) 学習したモデルで、ただのノイズ画像から1000回くらいノイズを除去猛者による1ファイル完結の実装: https://github.com/lucidrains/denoising-diffusion-pytorch/blob/main/denoising_diffusion_pytorch/denoising_diffusion_pytorch.py 5

https://github.com/lucidrains/denoising-diffusion-pytorch/blob/main/denoising_diffusion_pytorch/denoising_diffusion_pytorch.py

既存手法の問題点 • Few shotなNeRF系 (reg nerfなど) – 他のシーンで学習した知見を活用できない – 見えない部分がぼやける • Few shotで空間にencodeする系 (pixel nerfなど) – 他のシーンに知見を活用できるが、エンベディングベースなのでぼやける ⇨ あらゆるシーンのNVSに活用できて、ぼけない手法が欲しい 6

3DiM: 3D Diﬀusion Model 7

Pose Conditional Diﬀusion Model • 3DiM が基本的にやりたいこと – ⇨ input {pose + view}, target pose から target viewを生成したい！推論時は完全なノイズからスタート R: 回転行列, t: 並進ベクトル (target/query両方の R と t を入れる) 実際には、各 pixelに対応する光線の始点と向き (0~1) を、 sin cos で positional embedding – ⇧ 基本このDiffusion Modelを学習させる (割と強引な気もする(?)) • 生成は普通のdenoising diffusion同様にUNet系を使う (UNetが単純に強い(重要)) – Poseは Positional Embedding をして、画像と一緒に入力 8

3DiM: 3D Diﬀusion Model ⇦ このdiffusion stepは 250回 (注: 恐らくサイコロの絵はただランダムだと言いたいだけで、傾きは関係なさそう) • 3次元の一貫性を出すため、input view + 生成したview の全てで条件付けして、新しいviewを生成 • conditioningするviewはdiffusion step枚にランダムに選択 – (⇧生成した全viewも含めてconditioningするとメモリが大変なことになる問題への工夫) 9

10.

XUNet • • 1. 2. 3. • タスク: (embeddingされた) input view, input noiseを入力にして、 noiseだけを出力する基本UNet。違い⇩ 2枚のviewの処理に用いるNNの重みを共有する pose と noise level をpositional encodingしてinputに追加する基本は各viewで独立した処理をするが、途中でcross attentionを入れる実装的には、 input view, input noise両方に対してそれぞれの pose / noise level enbedding をし、それぞれの noise を出力する (重みの共有をしているため ) 10

11.

学習 • diffusion process z: noise付きのview σ: sigmoid 関数 k: 何個目のviewか • loss • diffusion reverse process (推論 / 条件付け用) ⇦基本(2)をx_kの式に変えただけ x_iはランダムに選ぶ 11

12.

評価 PSNR (peak signal to noise ratio): - とりうるmseのmaxと2画像のmseの比 SSIM (structure similarity): - 小さい領域の画素値の平均や分散で2画像の類似度を定義 FID (Fréchet inception distance): - 画像の集合同士の距離を、各画像のinception netで抽出した特徴量の距離で定義 • PSNR, SSIMは結構低い。FIDだけ良い 12

13.

3D consistency score • 正当な評価ができていない！ – PSNR / SSIM は正解画像と比較するので、悪化して当然 – そもそも1 viewで完全に正しい三次元構造を予測することは無理であり、正しい viewを生成することよりも、三次元の一貫性を評価するべき！ • 3D consistency score – Geometry Free な NVS の三次元の一貫性を評価する新しい方法 – NVSで生成した画像を基にNeRFを学習させ、 NeRFがうまく学習できれば (生成した画像と比較して PSNR / SSIM が悪くないことが確認できれば)、一貫性が高いと言える – ⇨ 本当は違うGeometryだったことにして、評価をし直してあげる 13

14.

3D consistency score もともとのデータセット(正しいジオメトリ)でNeRFを学習 ⇨ 本当は違う ⇨ ジオメトリだったことにしてあげて、 3DiMで生成した画像でNeRFを学習 PSNR/SSIMは悪化してない！ (既存手法はPSNR/SSIM が弱すぎる) 14

15.

Ablation Im-to-Im - stochastic conditioning なし Concat-UNet - 単純にinputをconcatするだけの UNet - パラメタシェアとかなし Regression - 1 step のdiffusion model - 直接 target view を推定 • そもそもUNetだけでも割と構造的には正しい生成ができる (Concat-UNet) • が、それぞれ表現力は低い。 15

16.

まとめと感想 • • • • • 3DiM: NVS のための diffusion model "stochastic conditioning" UNet を改良した X-UNet "3D consistency score" 厳密な三次元復元にはあまりこだわらないかわりに、高品質な画像生成と高い三次元の一貫性を出せる • 結果の見た目が良すぎるのには納得した – UNetとposeのpositional embeddingでだいたい向きは合う +diffusionで最強 • 個人的に「厳密な三次元復元にこだわらない教」なのでぜひ使っていきたい 16