【DL輪読会】Variable Bitrate Neural Fields

>100 Views

August 19, 22

deep learning

スライド概要

2022/8/19
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 26.4K

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 25.9K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13.4K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 12.6K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.5K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 10.4K

各ページのテキスト

DEEP LEARNING JP 論文紹介： [DL Papers] Variable Bitrate Neural Fields Ryosuke Ohashi, bestat inc. http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ◆ ◆ SIGGRAPH 2022 (2022年8月) 採択論文ニューラル場に対し，辞書を使った圧縮考慮最適化手法を提案 ⚫ ◆ ※紹介論文からの引用は省略させていただきます圧縮性能で先行研究を凌駕 2

背景：ニューラル場 ◆ 何らかの「場」をニューラルネットで表したもの https://en.wikipedia.org/wiki/Vector_field ◆ 平面上の磁場 ◆ MLPで表す ◆ x, y → M(x, y) ◆ M(x,y) ≒ f(x, y; θ) 3

https://en.wikipedia.org/wiki/Vector_field

背景：Grid-based Neural Fields ◆ 空間特徴テーブルとMLPを繋げて作ったニューラル場 ◆ 大幅高速化＆近似性能向上できるが，メモリが大量に必要... ◆ 〇値を局所的に操作可能 ◆ 〇値の参照が速い ◆ ✕ メモリが大量に必要 ◆ ✕ 値の局所的変更は大域的影響を及ぼす ◆ ✕ 値の参照が遅い ◆ 〇省メモリ 4

背景：データ構造の工夫 ◆ 空間分割木 ◆ Neural Sparse Voxel Fields (Liu et al. 2020) 空間ハッシュテーブル Multiresolution Hash Encoding (Müller et al. 2022) ◆ 分解能を上げるとき ◆ 多重ハッシュテーブルに詰め込み ◆ 疎な箇所を省く ◆ ハッシュ衝突をMLPで解消する 5

背景：必要メモリ量の比較 ◆ MLP：たかだか数十MB程度 ◆ Dense Grids：512^3とかを使うとすぐ数GB越え規模に... ◆ Sparse Grids / Multiresolution Hash：数十MB～に抑えられる Instant Neural Graphics Primitives with a Multiresolution Hash Encoding (Müller et al. 2022) 6

提案手法：Vector-Quantized Auto-Decoder ◆ 問題意識：もっと省メモリに出来ないか？ ◆ キーアイデア：空間特徴テーブルを辞書化する ◆ 空間特徴グリッドの必要メモリ：(num_grid * dim_feat * 32) bits ◆ b-bitsキーの辞書に出来たら：(num_grid * b) + (2^b * dim_feat * 32) bits ◆ 実用上はb ≦ 16 くらい迄で上手くいけば充分省メモリになる 7

提案手法：Vector-Quantized Auto-Decoder ◆ 問題点：辞書ルックアップ操作は微分できない ◆ 解決方法：最適化時のみsoft-indexを使う ◆ ※ただしブレンドされた表現に依存してしまわないような工夫も使う 8

補足：VQ-AD？特徴テーブルをb-bitの離散的キーで辞書化 → Vector-Quantized learnableなlatent codesとdecoderから成る最適化問題設定 → Auto-Decoder （Auto要素ゼロな気はするが，Auto-Encoderっぽい問題設定からEncoderを取り去ったもの，というニュアンスらしい） 9

10.

実験結果 NeRFを用いたnovel view synthesisタスクで実験圧縮性能の高さを確認 ◆ 空間分割木ベースのベースライン ◆ K-means VQによる事後圧縮 ◆ 提案手法（VQAD） 10

11.

実験結果 11

12.

その他の実験結果学習可能インデックスのほうがランダムインデックスによる辞書化よりも遥かに優れている 12

13.

補足：Variable Bitrate? 実はベースライン手法のNGLOD（著者らによる先行研究）の構造によって，荒いモデルは少ないメモリ量のみで読みだせるようになっている．先行研究の時点で論文タイトルにあるVariable Bitrateになっている気がするが， SIGGRAPHに投稿する上で応用が分かりやすいタイトルにしたかったのかも 13

14.

まとめ，感想 ◆ ◆ まとめ ◆ ニューラル場に対し，辞書を使った圧縮考慮最適化手法を提案 ◆ 圧縮性能で先行研究を凌駕感想 ◆ ◆ 分割木やハッシュ関数に並ぶベーシックなデータ構造である辞書を使った研究になっていて面白かったリッチな3Dコンテンツはデータ量が肥大化しがちなので，リッチな3Dコンテンツを綺麗なまま圧縮できる技術は実用的にも価値がありそう 14