Denoising Point Clouds in Latent Space via Graph Convolution and Invertible Neural Network 論文要約
タイトル 目次 1. 論文概要 2. 関連研究 3. 研究背景 4. 提案手法 5. 実験・結果 6. まとめ 1
タイトル 論文概要 Denoising Point Clouds in Latent Space via Graph Convolution and Invertible Neural Network Ø 課題 Ø Point Cloudデータのノイズや外れ値が下流タスクで障害を起こ すためノイズ除去を行いたい Ø 提案手法 Ø 多層グラフ畳み込みと可逆ニューラルネットワークを組み合わせ ノイズとクリーンなデータを潜在空間上の異なる次元に分離 Ø 潜在空間上でノイズを分離することで幾何学的情報を損なわずに データを復元 Ø 結果 Ø PUNetで作成したノイズに対してCDとP2MにてSOTA 2
タイトル 研究背景 Ø LiDARなどで取得されるPoint Cloud Dataはノ イズが含まれ、これがレンダリングなどのプロ セスを妨げるためノイズ除去を行いたい Ø DLを使ったノイズ除去手法は大きく分けて二つ Ø 3Dユークリッド空間での除去 Ø 高次元特徴空間での除去←提案手法はこっち 3Dユークリッド空間でのノイズ除去 3
提案手法 タイトル INNとGCNNを活用した潜在空間上でのノイズ除去 1. INNでpc各点を潜在空間に全単射 • INNは潜在空間上でnoise sectionとclean sectionに分離 • GCNNはINNが綺麗に分離できるよう補佐 2. 潜在コードのうちnoise sectionのみ0にして潜在コードを更新 3. INNで更新された潜在コードを実空間に戻す 4
提案手法: Invertible タイトル Neural Network Ø INN設計に必要な要件 Ø 全単射 Ø 表現力 ØMonotone Operatorに基づいてINNを設計: 𝐼𝑑 + 𝐺 𝐹 𝑥 = 2 !" 𝑥 −𝑥 𝐼𝑑: 恒等関数, 𝐺 𝑥 : 𝐿 < 1 の𝐿𝑖𝑝𝑠𝑐ℎ𝑖𝑡𝑧連続関数 5
補足:Lipschitz連続 タイトル ØLipschitz連続の定義 関数 𝑓: ℝ → ℝ について、あるL > 0が存在して 𝑓 𝑥 − 𝑓(𝑦) ≤ 𝐿 𝑥 − 𝑦 , 𝑥, 𝑦 ∈ ℝ を満たす時リプシッツ連続であるという。 また、 L < 1の時𝑓を縮小写像という。 𝑓 𝑥 − 𝑓(𝑦) ≤ 𝐿 𝑥 − 𝑦 𝑥 ≠ 𝑦のとき 𝑓 𝑥 − 𝑓(𝑦) ≤𝐿 𝑥−𝑦 グラフ上の任意の点から傾き±𝐿の直線を引 いた時グラフは常にその直線の間に入る →関数の出力の変化が制限されている 6
補足:Invertible Monotone タイトル Operators for Normalizing Flows Invertible Monotone Operators for Normalizing Flows Ø正規化フローに関する新しいアプローチを提案 Ø正規化フロー:複雑な分布を一連の可逆変換を通じて構築する方法 Ø正規化フローの設計における課題 Ø可逆性の確保 Øヤコビ行列式の計算可能性 7
補足:Invertible Monotone タイトル Operators for Normalizing Flows ØResNet-based normalizing flow:𝑅 𝑥 = 𝑥 + 𝐺 𝑥 Ø𝐺(𝑥)を縮小写像とすることで𝑅(𝑥)の可逆性が確保される ØResNet-basedの課題:𝐿 < 2に制限されるため表現力が低い Øここで𝐺(𝑥)は縮小写像でなくても可逆である場合がある(𝐺 𝑥 = 5𝑥など) ØResNet-baseで可逆性を維持しつつ𝐺(𝑥)を変更してR(𝑥)の表現力をあげ たい 定理: 関数 𝑓: ℝ → ℝ とC" = 2 𝐼𝑑 + 𝐹 #$ − 𝐼𝑑というケイリー作用素について 𝐹は単調 ⇔ 𝐶! は1 − 𝐿𝑖𝑝𝑠𝑐ℎ𝑖𝑡𝑧 Ø→𝐶! を上記のように定義すればFの単調性が保証される 8
補足:Invertible Monotone タイトル Operators for Normalizing Flows Øケイリー作用素からFへ C" = 2 𝐼𝑑 + 𝐹 #$ − 𝐼𝑑 𝐶! + 𝐼𝑑 = 𝐼𝑑 + 𝐹 #$ 2 𝐶! + 𝐼𝑑 #$ = 𝐼𝑑 + 𝐹 2 𝐶! + 𝐼𝑑 #$ 𝐹 𝑥 = 𝑥 − 𝑥, 𝐶! は1 − 𝐿𝑖𝑝𝑠𝑐ℎ𝑖𝑡𝑧 2 ØResNetベースを維持しつつ単射性(全射も含めて可逆性)も確保 Ø𝐿! = (1 + 𝐿%! )/(1 − 𝐿%! )となり表現力も確保(Appendix A.8) 9
提案手法: Invertible タイトル Neural Network Ø 1 − 𝐿𝑖𝑝𝑠𝑐ℎ𝑖𝑡𝑧連続関数 𝐺 を実装する上での条件 𝑔& 𝑥 = 𝜓 𝑊𝑥 + 𝑏 としたとき、𝐿 < 1 の𝐿𝑖𝑝𝑠𝑐ℎ𝑖𝑡𝑧連続関数であるためには 𝑔& 𝑥 − 𝑔& 𝑦 ≤ 𝐾 𝑥 − 𝑦 , 𝐾≤1 でなければならない。(=⼊⼒の変化より出⼒の変化の⽅が⼩さい) 𝑔& 𝑥 について 𝑔& 𝑥 − 𝑔& 𝑦 = 𝜓 𝑊𝑥 + 𝑏 − 𝜓(𝑊𝑦 + 𝑏) 𝜓が1-Lipschitsである時 𝜓 𝑊𝑥 + 𝑏 − 𝜓(𝑊𝑦 + 𝑏) ≤ これより 𝑔& 𝑥 − 𝑔& 𝑦 𝑊𝑥 + 𝑏 − 𝑊𝑦 + 𝑏 = 𝑊(𝑥 − 𝑦) ≤ 𝐾 𝑥 − 𝑦 , 𝐾 ≤ 1を満たすためには 1. |𝜓 𝑥 − 𝜓(𝑦)| ≤ |𝑥 − 𝑦| 2. 𝑊 ' < 1 10
関連研究:DGCNN タイトル Dynamic Graph CNN for Learning on Point Clouds Ø pcd処理手法の課題: 各点が独立していて隣接した点の関係を取り入れられない →EdgeConv層を導入することで局所的幾何学的構造を活用 11
提案手法:Multi-level タイトル Graph Convolution Ø EdgeConvolution layerを密結合して階層的グラフ畳み込み(MLGC) を実現 隣接する点の情報 𝑥" ℎ($) 𝑥" 𝑥" 𝑓 ('(&) 𝑥! 𝑥" (𝑥" #𝑥" − 𝑥! ) 𝑓 (&) ℎ($) ℎ(&) 𝑓 (&) ℎ($) ℎ('(&) Ø エッジ特徴を利用することで隣接した点との関係を反映 Ø EdgeConvを密結合し各層の出力を後続でも活用することで大域的な 幾何学的構造を捉える 12
提案手法:Invertible タイトル Encoding Process Ø INNの関数 𝐹(𝑥) は隣接する特徴を取得できない →MLGCの特徴をINNに注入 𝑋)' = 𝑋 (') + 𝐶' 13
提案手法:その他 タイトル Ø Dimension Augmentation Ø 𝐹は入力データと同じ次元の結果を出力するため、そのままのデータ をINNに入れても別の三次元空間に変換するだけ →入力前にデータの次元を拡張 拡張特徴: ℎ() = 𝑓 𝑥( + ∑*" ∈,(*# ) 𝑔 𝑥/ 𝑥/ − 𝑥( , 𝑓, 𝑔は𝑀𝐿𝑃 入力: 𝑋 (0) = 𝑥( 0 = 𝑥( , ℎ() , (1$ 14
実験・結果:Setup タイトル Ø Dataset Ø 点群データのアップサンプリングを行うPU-Netというモデルで ガウスノイズを追加 Ø Implementation Ø light: 𝐼𝑁𝑁 & 𝐸𝑑𝑔𝑒𝐶𝑜𝑛𝑣 ×12, 𝐷) = 48, 𝑝𝑎𝑟𝑎𝑚 = 679𝐾 Ø heavy: (𝐼𝑁𝑁 & 𝐸𝑑𝑔𝑒𝐶𝑜𝑛𝑣 ×10)×3, 𝐷) = 32, 𝑝𝑎𝑟𝑎𝑚 = 1.4𝑀 15
実験・結果:Setup タイトル Ø Dataset Ø 点群データのアップサンプリングを行うPU-Netというモデルで ガウスノイズを追加 Ø Implementation Ø light: 𝐼𝑁𝑁 & 𝐸𝑑𝑔𝑒𝐶𝑜𝑛𝑣 ×12, 𝐷) = 48, 𝑝𝑎𝑟𝑎𝑚 = 679𝐾 Ø heavy: (𝐼𝑁𝑁 & 𝐸𝑑𝑔𝑒𝐶𝑜𝑛𝑣 ×10)×3, 𝐷) = 32, 𝑝𝑎𝑟𝑎𝑚 = 1.4𝑀 Ø Training loss g 𝑋 = min2:5→5 ∑*∈ Ø 𝐸𝑀𝐷 𝑋, k − Φ 𝑥k | 4 7 54 | 𝑥 g Ø Φはデノイズされたポイント𝑋とgtの𝑋間の写像 16
実験・結果:評価指標 タイトル Chamfer Distance (CD) 1 1 𝐶𝐷 𝑋, 𝑌 = * min 𝑥 − 𝑦 + * min 𝑥 − 𝑦 $∈% !∈# 𝑋 𝑌 !∈# $∈% Point-to-mesh (P2M) 1 1 𝑃2𝑀 𝑋, 𝑀 = * min 𝑑(𝑓, 𝑥) + * min 𝑑(𝑓, 𝑥) &∈' !∈# 𝑋 𝑀 !∈# &∈' Uniformity ' 𝑈 𝑋 =* ()* 𝑈+ (𝑆( ) ; 𝑈, 𝑆( - 𝑈+ 𝑆( = |𝑆( | − 𝑛( /𝑛( |0, | 𝑈, 𝑆( = * .)* 𝑑(,. − 𝑑? /𝑑? 17
タイトル 実験・結果 Ø 実験結果 18
タイトル 実験・結果 Ø 実験結果 Ø 他の手法はcleanなポイントに noise成分を集める形式なので 均一性に問題あり 19
タイトル 実験・結果 20
実験・結果:Ablation タイトル Study Ø light versionのフレームワークでAblation Studyを実施 21
タイトル 参考文献 原論⽂: https://openaccess.thecvf.com/content/CVPR2024/papers/Mao_Denoising_Point_Clouds_in_Latent _Space_via_Graph_Convolution_and_CVPR_2024_paper.pdf Supplementary: https://openaccess.thecvf.com/content/CVPR2024/supplemental/Mao_Denoising_Point_Clouds_CV PR_2024_supplemental.pdf Invertible Monotone Operators for Normalizing Flows: https://arxiv.org/pdf/2210.08176 Dynamic Graph CNN for Learning on Point Clouds: https://arxiv.org/pdf/1801.07829 Normalizing Flowの解説:https://qiita.com/opeco17/items/62192b4dd1cd9cbaa170 リプシッツ連続の解説:https://mathlandscape.com/lipschitz/ バナッハ不動点定理:https://mathlandscape.com/banach-fixed-pt/ 22
補足:バナッハ不動点定理 タイトル Øバナッハ不動点定理 1 > 𝐾 > 0とする。関数 𝑓: ℝ → ℝ が任意の 𝑥, 𝑦 ∈ ℝ に対し、 𝑓 𝑥 − 𝑓(𝑦) ≤ 𝐾 𝑥 − 𝑦 を満たす時、 𝑓 𝑥 ∗ = 𝑥 ∗ となる 𝑥 ∗ ∈ ℝがただ一つ存在する。 ℝ 𝑓 𝑥∗ ℝ 23