【DL輪読会】SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Mode

431 Views

April 18, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 3.19MB)

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 23.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 12.8K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 11.9K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.1K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.7K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

SceneScript: Reconstructing Scenes With Autoregressive Structured Language Model An Naruya Kondo (落合研 D2) 1

書誌情報 ● SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model ○ Arxiv Submitted on 2024/03/19 ○ by Meta！ ● ひとことで言うと ○ ウォークスルーで得られる HMD (VRゴーグル) の映像+荒い点群から、シーンの primitive を再構成 (壁/窓/ドア+椅子/机/ソファ+開き状態/曲線…等) ○ データセット作り (100K) とその使いこなしがすごいタイプ、たぶん ○ 完全な密な点群を使う先行研究より難しめ ○ 3~5秒で再構成できる、速い 2

プロジェクトページ https://ai.meta.com/blog/scenescript-3d-scene-reconstruction-reality-labs-research/ https://www.projectaria.com/scenescript/ https://www.projectaria.com/ 3

ここからの内容 • 背景 • 手法 – データセット – Scene Script – エンコーダー3パターン • 結果 • 拡張・応用 • まとめ 4

背景 • 環境の正確な理解 for AI / VR • メモリ効率が高いと嬉しい – ボクセル: 表現力、メッシュ: 推定の計算量、NeRF/SDF: 重い/使いづらい • スクリプトベースがいい！blender のような – 解釈可能性・編集可能性が高い – (テキストベースと何が違う? データ生成との相性?) 5

最終的なイメージ 6

データセット • 頑張る。 (floor plan というのを作って3Dを置く、としか言及されてない) • ウォークスルーの映像 + 点群 (+ aux)、10K + テスト1K • 4コマンドを使ったスクリプト付き 7

データセット 8

SceneScript 全体像 • Encoder (3種類, どれでもいい) + Decoder (Transformer) • 次のtoken予測で学習 • Decoder Transformerは、8層8ヘッド、パラメタ数35M 9

10.

Encoder (点群だけver) • SLAM でとった点群Pのみで予測 • 点群 Convで、 N×3 -> K×512 に圧縮 • 512 の index に?、 positional encoding を concat • transformer へ 10

11.

Encoder (点群 + 画像ver) • 点pに画像からの情報を付ける • 画像 I_i -> 特徴マップ F_i 各点を全てのF_iに飛ばし、特徴ベクトルを集めて平均 • 3Dconvして transformer へ 11

12.

Encoder (画像だけver) • RayTran (ray-traced transformers, 2022) を使用 – ray を考慮した transformer? をした後に3Dグリッドにして decode – 訓練データセット使って、オブジェクトの位置推定 + segmentation loss + occupancy loss で学習 12

13.

結果 • SceneCAD: 壁だけ推定, RoomFormer: 2D地図を推定 • 部屋の奥・複数窓とかに強い 13

14.

結果 • 点群 + 画像が一番精度出る 14

15.

結果 • 部屋数が増えると、点群のようなグローバルな3D情報が必要 15

16.

Failure Case • HMDの探索が不完全なとき • 外れ値に引っ張られるとき 16

17.

さらにアノテーション • CADとかで学習した primitive 推定手法で追加のアノテーション 17

18.

状態プロパティ: ドアの開閉 18

19.

点群-to-3Dベジエ曲線・構成的な物体 19

20.

まとめ • データセットが自動生成できる範囲ではかなり強そう – 詳細な認識になるとだんだん力技に･･･ • LLM とも相性が良さそう – >「このデスクは私の寝室に収まるか？」や「この部屋を塗るのに何ポットのペンキが必要か？」といった質問や、「大きなテーブルに[AR/MRアプリ]を配置する」といったコマンドに対応できる。らしい? • blender 系を使った3D理解/生成が流行ってる?? – blender in the loop な 3D 生成 • Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects • https://arxiv.org/abs/2402.09052 20

https://arxiv.org/abs/2402.09052