【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

1.2K Views

March 20, 24

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.99MB)

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 7.6K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 5.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 4.6K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 3.9K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

京都大学人工知能研究会KaiRA 3.3K

【Pythonで学ぶ音声認識】第3章：音声処理の基礎と特徴量抽出（3.6・3.7節）

京都大学人工知能研究会KaiRA 2.3K

各ページのテキスト

2023年度論文読み会＃11（3Dデータ論文読み会＃6）任意視点からの画像を生成するNeRF 京都大学理学部 3回生松田拓巳元論文 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 0

https://arxiv.org/abs/2003.08934

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 目次 1. 論文の概要 2. 提案手法 3. 実験結果 1

1. 論文の概要 2

1. 論文の概要 1.1 複数視点の2D画像を使って、任意視点からの2D画像を生成 1. Input Images：複数視点からの2D画像を撮影する 2. Optimize NeRF：モデルを学習 3. Render new views：任意視点からの2D画像を生成 3

1. 論文の概要 1.2 論文手法 ⚫ 視線方向上の各点の色と不透明度*をNNで予測し、各点の情報を集約して１pixelの色を求める ⚫ NNの構造は、ちょっと工夫を入れたMLP（畳み込み不使用） ⚫ Diffuse Synthetic 360°，Realistic Synthetic 360°においてSoTAを達成＊論文では体積密度(volume density)と表記されているが、本スライドではイメージのしやすさのため不透明度と表現する 4

1. 論文の概要 1.3 デモを見てみよう ⚫ こちらのサイトにたくさんの例が掲載されている https://www.matthewtancik.com/nerf 5

https://www.matthewtancik.com/nerf

2. 提案手法 6

2. 提案手法 2.1 モデルの概要（forward） 1. ある視線方向 𝐫 上に何点かサンプリングする 2. 各点の(𝑥, 𝑦, 𝑧, 𝜃, 𝜑)をNNに入力し、点の色 𝒄 と不透明度 𝜎 を得る（色：𝑥, 𝑦, 𝑧, 𝜃, 𝜑に依存、不透明度：𝑥, 𝑦, 𝑧に依存） 3. 各点が発する色が視点に届いたときに何色になるかを計算（NNではない。式に代入して計算） 4. 視線方向を変えて上記を繰り返す（画像の全pixel分） 7

2. 提案手法 2.1 モデルの概要（学習） 1. ある視線方向 𝐫 上に何点かサンプリングする 2. 各点の(𝑥, 𝑦, 𝑧, 𝜃, 𝜑)をNNに入力し、点の色 𝒄 と不透明度 𝜎 を得る（色：𝑥, 𝑦, 𝑧, 𝜃, 𝜑に依存、不透明度：𝑥, 𝑦, 𝑧に依存） 3. 各点が発する色が視点に届いたときに何色になるかを計算（NNではない。式に代入して計算） 4. 実際の色との誤差（L2距離）を計算し逆伝播を行いNNの重みを更新 8

10.

2. 提案手法 2.2 ① ある視線方向𝐫上に何点かサンプリングする ⚫ ほぼ等間隔に𝑁点を取る：𝑡𝑖 ∼ 𝒰 𝑡𝑛 + この点のRGBを求めたい 𝑖−1 𝑁 𝑡𝑓 − 𝑡𝑛 , 𝑡𝑛 + 𝑖 𝑁 𝑡𝑓 − 𝑡𝑛 このスクリーン上に画像を生成する 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡𝑓 𝑡𝑛 9

11.

2. 提案手法 2.2 ② 各点の(𝑥, 𝑦, 𝑧, 𝜃, 𝜑)をNNに入力し、点の色 𝒄 と不透明度 𝜎 を得る色 𝐜1 = (𝑟1 , 𝑔1 , 𝑏1 ) ＆不透明度 𝜎1 MLP 視線方向 (𝜃, 𝜑) 空間座標 (𝑥1 , 𝑦1 , 𝑧1 ) 𝑡1 𝑡2 𝑡3 𝑡4 𝑡5 𝑡6 𝑡𝑓 𝑡𝑛 10

12.

2. 提案手法 2.2 ③ 各点が発する色が視点に届いたときに何色になるかを計算 𝑁 𝑖−1 𝐶መ 𝐫 = ෍ 𝑇𝑖 1 − 𝑒 −𝜎𝑖 𝛿𝑖 𝒄𝑖 , where 𝑇𝑖 = exp − ෍ 𝜎j 𝛿𝑗 𝑖=1 これでスクリーン上の 1点のRGBがわかった 𝑗=1 (𝐜6 , 𝜎6 ) (𝐜5 , 𝜎5 ) (𝐜4 , 𝜎4 ) (𝐜3 , 𝜎3 ) (𝐜2 , 𝜎2 ) 𝑡6 (𝐜1 , 𝜎1 ) 𝑡5 𝑡4 𝑡 3 𝑡2 𝑡𝑓 𝑡1 𝛿5 𝛿2 𝑡 𝛿 𝑛 1 11

13.

2. 提案手法 2.2 ④ 方向を変えて繰り返す ⚫ これを全pixel分繰り返せば、この視点から見たの画像が完成する 12

14.

2. 提案手法 2.2 学習するときはどうするか？ ⚫ 真の画像とレンダリング後画像との誤差を計算し、逆伝播してNNの重み更新 ground truth レンダリング後画像誤差 (L2距離) 誤差 (L2距離) ground truth レンダリング後画像 13

15.

2. 提案手法 2.3 NNの詳細 – ポイント ⚫ 10層の全結合層をもつニューラルネットワーク ⚫ 入力する前にPositional Encodingを行う（下図の関数𝛾(⋅)に相当） ⚫ (𝑥, 𝑦, 𝑧)と(𝜃, 𝜑)は別の箇所から入力、出力も𝜎とRGBは別の箇所から出てくる 14

16.

2. 提案手法 2.3 NNの詳細 – Positional Encoding 𝛾 𝑝 = sin 20 𝜋𝑝 , cos 20 𝜋𝑝 , ⋯ , sin 2𝐿−1 𝜋𝑝 , cos 2𝐿−1 𝜋𝑝 ⚫ 𝑝には𝑥, 𝑦, 𝑧, 𝜃, 𝜑が入る（予め[-1,1]に正規化しておく） ⚫ 𝑥, 𝑦, 𝑧に対しては𝐿 = 10、𝜃, 𝜑に対しては𝐿 = 4と本研究では設定 ⚫ Positional Encodingを行わないと、下図のようにぼやけてしまう（高周波表現が苦手） 15

17.

2. 提案手法 2.3 NNの詳細 – 構造 ⚫ (𝑥, 𝑦, 𝑧)と(𝜃, 𝜑)は別の箇所から入力、出力も𝜎とRGBは別の箇所から出てくる ⚫ なぜそんなことをするのか？ • 不透明度𝜎は、視線角度 𝐝 = (𝜃, 𝜑) に依存してほしくない • 色(RGB)は、位置 𝐱 = (𝑥, 𝑦, 𝑧) と視線角度 𝐝 = (𝜃, 𝜑) に依存してほしい 𝐱のみだと鏡面反射を表現できてない 𝐱の情報しか見ずに出力 𝐱, 𝐝の情報を見て出力 16

18.

2. 提案手法 2.4 計算量削減の工夫 – 階層的ボリュームサンプリング ⚫ 何もない領域の点をサンプリングするのは効率が悪い ⚫ 「粗いNN」と「細かいNN」の2つを使う • 粗めに𝑁𝑐 個サンプルし「粗いNN」の出力にもとづいて重みをつける • 重みが大きい所を重点的に𝑁𝑓 個追加でサンプル • 𝑁𝑐 + 𝑁𝑓 個を使って画像レンダリング 𝑁𝑐 𝐶መ𝑐 𝐫 = ෍ 𝑤𝑖 𝑐𝑖 , where 𝑤𝑖 = 𝑇𝑖 (1 − 𝑒 −𝜎𝑖 𝛿𝑖 ) 𝑖=1 17

19.

2. 提案手法 2.5 実装の詳細 ⚫ 損失関数 (c=coarse, f=fine, 𝐫=ray) ℒ=෍ 𝐶መ𝑐 𝐫 − 𝐶 𝐫 2 መ𝑓 𝐫 − 𝐶 𝐫 + 𝐶 2 2 2 𝐫∈ℛ ⚫ 𝑁𝑐 = 64, 𝑁𝑓 = 128, ℛ = 4096ray ⚫ 最適化手法 • Adam（𝛽1 = 0.9, 𝛽2 = 0.999, 𝜖 = 10−7 ） • 学習率 = 5 × 10−4 exp 5 × 10−5 ⚫ NVIDIA V100 GPU1枚で学習に1～2日かかる（1万～3万iteration）←クソ遅い • 推論は1フレーム当たり30秒くらいかかる 18

20.

■補足｜NeRFの学習速度を爆速にしたInstant NGP ⚫ Multiresolution Hash Encodingという手法でNeRFの学習を5～15秒程度に ※JAXNeRF：NeRFをJAX（Google製の機械学習用ライブラリ）で実装したもので、元祖論文の実装（TensorFlow）よりも高速 • 参考サイト複数の視点の画像から新しい視点の画像を生成する技術「NeRF」とその学習速度を大幅に改善した研究の紹介（https://www.ibis.ne.jp/blog/20221117-nerf/） 19

https://www.ibis.ne.jp/blog/20221117-nerf/

21.

3. 実験結果 20

22.

3. 実験結果 3.1 従来手法との定量的な比較 ⚫ Diffuse Synthetic 360°，Realistic Synthetic 360°，Real Forward-Facingで評価 ⚫ 評価指標 • PSNR：ground-truthとの画素値誤差（MSE）に依存する類似度計算方法（大きいほど良） • SSIM：画素単体だけでなく画素周囲の情報も考慮した類似度計算方法（大きいほど良） • LPIPS：学習済みCNNで抽出した特徴量を利用した類似度計算方法（小さいほど良） 21

23.

3. 実験結果 3.2 従来手法との定性的な比較 ⚫ 従来手法では表現できていなかった細部まで NeRFは表現可能に ⚫ 従来手法の論文リンク • LLFF（SIGGRAPH 2019） • SRN（NeurIPS 2019） • NV（SIGGRAPH 2019） 22

24.

3. 実験結果 3.3 Ablation studies ⚫ Ablation study：削除実験。モデルのどの部分が結果に重要な貢献をしているか調べる 23

25.