LERF: Language Embedded Radiance Fields

868 Views

March 15, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.88MB)

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 22.7K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.7K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.3K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 10.9K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.3K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] LERF: Language Embedded Radiance Fields 林雨亭 (国際航業株式会社) http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • Title: – LERF: Language Embedded Radiance Fields(ICCV2023 oral) • 著者: – Justin Kerr*, Chung Min Kim*, Ken Goldberg, Angjoo Kanazawa, and Matthew Tancik (UC Berkeley) • Project URL: – https://www.lerf.io/ • Code: – https://github.com/kerrj/lerf 2

概要 • CLIPのtext embeddingをNeＲＦに組み込むことで、queryに対応する 3D領域を抽出 • LERFの特徴 – 入力text queryの3D relevancy mapsをリアルタイムで生成 – Pre-trainされたCLIPのまま利用するため、様々なqueryに対応 – 異なるスケールの物体に対応 3

提案手法の概要 • 課題： – CLIPにおけるtext embeddingは画像全体を対象（global的）とする一方、 NeRFはrayを対象（local的） • 対策 – Volumeに対応した画像をcropしてtext embeddingを抽出 4

提案手法- LERF Volumetric Rendering NeRF • 通常のNeRF: 𝑓 𝑥, Ԧ 𝑑Ԧ = 𝑐, Ԧ𝜎 • LERFの場合、視線方向に独立するtext embeddingを追加 – 𝐹𝑙𝑎𝑛𝑔 𝑥, Ԧ 𝑠 𝜖ℝ𝑑 , where 𝑠 = 𝑠𝑐𝑎𝑙𝑒 – Volumeを対象とするため、scaleを定義する必要がある • 焦点距離と距離で計算（幾何的に錐台のよう） • Rayのrendering(text embedding) – 𝜙෠ 𝑙𝑎𝑛𝑔 = ∫𝑡 𝑤 𝑡 𝐹𝑙𝑎𝑛𝑔 𝑟 𝑡 , 𝑠(𝑡) 𝑑𝑡 • Where 𝑤 𝑡 = ∫𝑡 𝑇 𝑡 𝜎 𝑡 𝑑𝑡 𝑇 𝑡 = ∫𝑡 exp(−𝜎 𝑠 𝑑𝑠) （透過率） – 単位球体（unit sphere）に正規化 5

提案手法-Multi-Scale Supervision • 学習する際に、Crop画像毎にCLIPからtext embedding（教師信号）を推定する処理は時間を要する • 予め教師信号を作成しておく – crop画像のサイズ 𝑠𝑚𝑖𝑛 , 𝑠𝑚𝑎𝑥 に従い、crop画像を作成 – 各crop画像から、CLIPでtext embeddingを作成 – 学習する際の(ray上)画像位置に従い、最近傍4枚のcrop画像から教師を内挿法で作成 • text embeddingの損失関数：renderされたtext embeddingと教師の cosine類似度 6

提案手法- DINO Regularization • LERFの推定結果はノイジー • DINO特徴を別の正則化として追加 – DINO特徴量は教師なしで、物体を分離する効果がある（前景背景の分離） – DINOは画素毎の特徴ベクタルを推定 – MSE lossで学習 7

提案手法- Querying LERF • 評価手法 – 任意のtext queryが与えられた時の3D relevancy mapsを評価 – 1) relevancy score, 2) scaleの推定 • Relevancy(language embedding) score – text queryのembedding （CLIP）、標準text(“object”, “things”, “stuff”, and “texture”)のembedding（CLIP）と、renderされたlanguage embedding （LERF）のcosine類似度で表現 • 𝑚𝑖𝑛𝑖 = exp(𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑞𝑢𝑒𝑟𝑦 ) exp 𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑖𝑐𝑎𝑛𝑜𝑛 +exp(𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑞𝑢𝑒𝑟𝑦 ) • renderされたlanguage embeddingとtext queryのembedding が近いかで評価 8

提案手法- Querying LERF • Scale Selection – 一定scale範囲内のRelevancy scoreを推定して、最も高いのを最終結果 – ヒューリスティックだが、最もロバスト • Visibility Filtering – Viewの数が少ないと、ノイズが増加する傾向 – 推論時、 Viewの数<5のサンプルは捨てる 9

10.

提案手法- 実装の詳細 • Text embeddingとDINO特徴はNeRFと独立 – 勾配は独立させ、NeRFパーツを同時に最適化 • NeRFモデルはNeRFactorを採用 • Hashgridを利用 10

11.

実験 • 検証データセット – 既存のNeRF用のデータには、物体が少ないため、本手法の評価が困難 – 自ら評価用データを13個新規作成 • in-the-wild：grocery store, kitchen, book store • long-tailed: teatime, figurines, hand – Iphoneアプリpolycamでデータを作成 11

12.

定性評価 • relevancy scoreが50%以上の領域を可視化 • 異なるスケールの物体を認識可能 • 様々なqueryに対応 – 例：色、具体的な書名・キャラクターなど • 同じ物体が異なるqueryに反応 12

13.

Existence Determination • LERFは対象シーンにおける物体のありなし判定にも対応可能 – 2種類のqueryで評価 • MSCOCOのlabel • Long-tail label(自ら作成したシーン） – MSCOCOのlabel（既存手法にとってはin-distribution）において、性能は既存手法と同程度 – Long-tail labelにおいて、LERFの性能が高い – 提案手法は、言語情報を有効に処理できることを示唆 13

14.

Localization精度 • 判定基準 – 提案手法：Relevancy scoreの最大値がGT(3D bbox)内に位置するか – 既存手法：推定したboxがGT内に位置するか • 特にlong-tail物体において、LERFは有効性を示した 14

15.

Ablation Study • DINO特徴は境界の推定において有効 – view数が少ない時 – 前景背景の分離が困難な時 15

16.

Ablation Study • Single-Scale Training – 異なるスケールの物体に効果を確認 16

17.

提案手法のLimitations • CLIPとNeRFのlimitationを引き継いでしまう • CLIP関連limitation – 否定形 (例えば：“not red” ≈ “red”) – 物体間の空間関係 – 類似物体（見た目・意味的） • NERF関連limitation – 高精度な3D reconstructionが必要 – Viewが少ない時にはノイジーになってしまう 17

18.

まとめ • LERFは、CLIPのtext embeddingをNeRFのvolumeに組み込むという、 3D Language Grounding手法 – multi-scaleでtext embeddingを融合 – DINO特徴で正則化 • Long-tailカテゴリに対し、高いロバスト性を示した • リアルタイム処理と主張するが、処理速度に関する内容は見当たらない 18