【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"

178 Views

May 25, 22

スライド概要

2022/05/20
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

論文紹介: DEEP LEARNING JP Instant Neural Graphics Primitives with a Multiresolution [DL Papers] Hash Encoding Ryosuke Ohashi, bestat inc. http://deeplearning.jp/

2.

書誌情報 ◆ SIGGRAPH 2022 (2022年8月) 採択論文 ◆ 概要 ⚫ ニューラル場 (NeRF等)の効率的な入力エンコーディング手法を提案 ⚫ 数秒~数分の訓練時間で場の詳細まで学習(単一のRTX3090で) ⚫ 高速な推論 2

3.

数秒でNeRFやSDFをいい感じに学習できる! 3

4.

背景:ニューラル場 ◆ 場(Fields) ⚫ 空間上に広がった何らかの(物理的)量を表すもの ⚫ ◆ 電磁場,流体の密度場,etc... ニューラル場(Neural Fields) ⚫ 何らかの場をニューラルネット(MLP等)で表したもの ⚫ ⚫ (未知の)場の離散的なサンプルから,勾配法で場を再構成できる NeRF (Neural Radiance Fields)で超有名になった 4

5.

⚫ Mildenhall et al. 2020 “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis” 5

6.

背景:MLPを使うときの弱点 ◆ MLPを使うときの弱点 ⚫ 場の詳細を再構成するのが苦手 ⚫ ◆ アーキテクチャ?サンプリング方法? アーキテクチャの工夫 ⚫ 入力エンコーディング ⚫ 場の入力座標xを様々なスケールで変動するデータ列に埋め 込んでからMLPに食べさせるとよい 6

7.

背景:入力エンコーディング ◆ 周波数エンコーディング ⚫ 入力座標xを様々な周期の三角関数でエンコーディング ⚫ ⚫ LoD (Level of Detail) filtering ⚫ ◆ NeRF (Mildenhall et al. 2020) Mip-NeRF (Barron et al. 2021) パラメトリックエンコーディング ⚫ 入力座標xを訓練可能な関数群でエンコーディング ⚫ エンコード関数をMLPでモデリングしても,元の問題にぶつかってしまう... ⚫ 代わりに離散的な空間テーブル・ツリーでモデリングする ⚫ メモリを使う代わりに柔軟な関数を低計算コストで表現できる ⇒ ⚫ Neural Sparse Voxel Fields (Liu et al. 2020) ⚫ Neural Geometric Level of Detail (Takikawa et al. 2021) ⚫ Etc... 適合的かつ効率的! 7

8.

提案手法:多重解像度ハッシュエンコーディング ◆ ◆ 様々な解像度の離散的な空間テーブルで,様々な周波数のエンコード関数をモデリング ⚫ 柔軟なエンコード関数を学習できるので,NeRFなどより格段に小さいMLPを使うだけでよくなる ⚫ 一部の空間からくるサンプルだけで最適化を進めても,MLP側を壊さず空間テーブルの局所的変更だけで適合できる 空間ハッシュを使って,入力座標を固定サイズの空間テーブルにマッピングする ⚫ 必要メモリに応じてテーブルサイズを制限できる ⚫ いろんな解像度のテーブルを必要なだけ設けて使えるようになる 8

9.

提案手法:ハッシュ衝突が悪さしないか? ◆ テーブルサイズを下げると,高解像度テーブルでのハッシュ衝突が増える... ⚫ 実はちょっとした悪影響しか出ない ⚫ 空間ハッシュ値はほぼランダムに分布するので,ある解像度のテーブルで起 こった空間ハッシュ衝突が他の解像度のテーブルでも同時に起こることはま ずない ⚫ いろんな解像度のテーブルをそれなりの個数作っておけば,あとはMLP側 が頑張って帳尻合わせしてくれる 9

10.

結果:数秒~数分の訓練で場の詳細まで学習 10

11.

結果:高速な推論 ◆ NeRFを1080p (128 samples per pixel)でDoF効果付きレンダリング(RTX3090で5秒) ◆ DoF効果無しのもっとシンプルなレンダリング方法ならリアルタイムで実行可能 11

12.

まとめ,感想 ◆ まとめ ◆ ◆ ◆ ニューラル場の入力エンコーディング新手法「多重解像度ハッシュエンコー ディング」を提案 空間ハッシュを使うと,必要メモリをあまり気にすることなく,多重解像度 テーブルエンコーディングの力をバリバリ活用できる 感想 ◆ ◆ ニューラル場のアーキテクチャのデファクトスタンダードになっていきそう な気がする 画像分類タスクとかにも使えたら面白そう 12