【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

27.7K Views

November 10, 23

#4D Gaussian Splatting #動的シーンレンダリング #3D Gaussian Splatting #HexPlane #リアルタイムレンダリング

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering Naruya Kondo (落合研 D1) 1

書誌情報 ● 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering ○ Arxiv Submitted on 2023/10/12 (＆既に引用3…!) ○ by Huazhong University, Huawei ● ひとことで言うと ○ 3D Gaussian Splatting を、画像/映像からの4D再構成タスクに応用、高い再現度と高速なレンダリングを実現 ○ 3D空間を3枚の平面に圧縮する "Tri-Plane" の進化系 "HexPlane" (CVPR 2023) を、うまく Gaussian Splatting の点の移動の記述に使ってる 2

プロジェクトページ https://guanjunwu.github.io/4dgs/ 3

https://guanjunwu.github.io/4dgs/

ここからの内容 • 事前準備 – 3D Gaussian Splatting – Canonical Field と変形の記述 – Tri-Plane / HexPlane (⇦ 本輪読会初??) • 提案手法 – Gaussian Deformation Field – 学習 • 結果 • まとめ・感想 4

3D Gaussian Splatting (3DGS) • 3D Gaussian Splatting for Real-Time Radiance Field Rendering (HP) – シーンの大量の撮影画像を使って3D再構成 – NeRF (Neural Radiance Field) の Neural ではなく Gaussian 版。 – 大量の Spherical Harmonics (SH) でシーンを表現 • 背景) PlenOxels (CVPR 2022) – – • Octree 形式 (立方体をN回8分割した8**N (+pruning)のSHで表現) 精度がいまひとつだったし、ハイパラチューニングが必要だった(体感) 3DGS は点の増殖 (clone/split) と枝刈り (remove) を賢くやってる PlenOxels Spherical Harmonics 5

3D Gaussian Splatting (3DGS) • (超)参考: https://note.com/npaka/n/ncd4b84c1e2eb • • • > 最初に「SfM」(Structure from Motion) 法を使用して、一連の画像から点群を推定します。 > 次に、各点をガウスに変換します。~~ ただし、SfMデータから推定できるのは位置と色のみです。 > 学習には、ニューラルネットワークに似た確率的勾配降下法を使用しますが、レイヤーは使用しません。 – 微分可能レンダリング + L1 Loss (+ SSIM Loss) – 自動化された高密度化とプルーニングを適用 • > 特定のガウスに対して勾配が大きい場合 (つまり、不正確すぎる場合) – > ガウスが小さい場合はクローンを作成 ⇦ 共分散が小さい – > ガウスが大きい場合は分割 ⇦ 共分散が大きい – > ガウスのアルファが低すぎる場合は削除 Differentiable surface splatting 6

https://note.com/npaka/n/ncd4b84c1e2eb

3D Gaussian Splatting (3DGS) • ガウシアンの定義 (⇦ 厳密にはたぶんこう) ● ● χ == (x-μ) 分数は、正規化定数 Σ: 分散共分散行列 • ただしΣは以下に分解して学習 ● 分解して学習する必要性はあまりわからず... S: 対角行列, R: 回転行列 (R^(-1)=R^T) (3Dガウシアンの向きの軸をR、軸方向の広がりをSが表す。) 7

Canonical Field と変形の記述 Nerfies など 4DGS Nerfies (ICCV 2021) (に限らず、Neural Volumes (SIGGRAPH 2019) / HyperNeRF (SIGGRAPH 2021)とかでも) • 「正規化空間」と、「時刻 t の点 x が正規化空間のどこにあるか」を学習して変形を再現 (a) – 今まで (NeRF) は、あるピクセルに相当する光線上の点の場所を調べれば、その点の色と密度がわかった – 3DGS では、周辺の点の色と密度と広がり全部を調べないと、その点の色と密度がわからない！ • ⇨ 3DGS では、正規化空間のどこに時刻 t の点 x があるのかを調べるのではなく、時刻 t を再現するときは、先にすべての点群を移動させればいい！ (b) 8

TriPlane / HexPlane EG3D HexPlane 9

10.

TriPlane / HexPlane • Tri-Plane: 3D空間を3枚の平面の特徴量の寄せ集めで表現 – ある点の情報は、xy, yz, zx 平面の特徴で表現、+ MLP で色などを予測 – 3D再構成 / 3D生成 • HexPlanes or K-Planes (両方CVPR 2023) – 4次元に拡張。xy, zt, xz, yt, yz, zt の6枚の平面で表現 (⇦ canonical frame は不要) 10

11.

4D Gaussian Splatting 11

12.

Gaussian Deformation Field f_{voxel} • xyzt 空間の特徴マップを作り、デコードして点の動きを得る ⇦ それに、隣接する点は似たように動くはず！ – 4次元空間はデータサイズがやばい… ⇨ HexPlane (解像度は4段階) – HexPlane で、色と密度の場を学習するのではなく、点の動きを学習 • 位置だけではなく、サイズと回転の変化も推定 12

13.

学習 • 先に無理やり1つの Canonical な 3DGS を学習、その後でdeformation field を学習 • Loss は、L2誤差と TV Loss – TV Loss: 特徴空間 (今回は deformation field) を滑らかに • 各特徴平面 (xy, zt, xz, yt, yz, zt) の各要素と隣の要素との差を小さく 13

14.

結果 14

15.

結果 • inward-facing scene では 4DGS が良かった。一方、outward-facing では HexPlane / K-Plane の方が良かった…(あれ) – この表はどう PSNR の平均を取ったのだろう… • レンダリングはとても速い！モデルサイズもそこまで大きすぎない 15

16.

Ablation • voxel (HexPlane) なしで直接 Δx 等を予測はだめ ⇨ HexPlane 使うの大事！ • Canonical frame のみの強制学習のフェーズがないとだめ • SSIM Loss を入れると悪化 – 「deformation を学習するのが難しくなるから」 (⇦ 確かに…? • MLPを大きくするともっと綺麗になる (トレードオフ) • 7分くらいの学習でも結構いい感じ 16

17.

まとめ・感想 • 4D Gaussian Splatting を提案、リアルタイムの動的シーンレンダリングを実現 • Canonical frame と deformation field の学習 – 光線上の点の移動ではなく、全体の点を移動させてレンダリング • 近い点の移動をHexPlaneで効率的に表現 • 3DGSを動的なシーンに拡張するには、点の移動を記述・保存しないといけないはずで、NeRF系よりかなり大変だろうと思ってたら一瞬で実現しててすごい… • Max 5 秒くらいのそんなに激しくない変形なので、どこまで使えるのか • シミュレーション系 (現在の状態が過去の状態に依存する) にもあっさり拡張されそう...? • 17