[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment

0.9K Views

October 23, 20

deep learning

スライド概要

2020/10/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment Shizuma Kubo, ACES.Inc http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 書誌情報 ➢ VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment ➢ 著者: Hanyue Tu, Chunyu Wang, Wenjun Zeng ➢ 所属: Microsoft Research Asia (1st authorは大学の所属もあり) ➢ ECCV’20 Oral (v1: 2020/04/13, v4: 2020/08/24 on arXiv) ➢ 実装コード: https://github.com/microsoft/voxelpose-pytorch ➢ 選択のモチベーション: Multi-Person Multi-Cameraの3D姿勢推定のタスクに興味があった 2

https://github.com/microsoft/voxelpose-pytorch

概要 • 複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した • 既存手法は2次元の姿勢推定の結果（keypoint情報）を使うのに対し、提案手法ではheatmap を3次元表現に落とし込み、頑健な推論を可能とした • これによって、以下の課題に対応された (論文の表現を使うと“elegantly”に対応) ➢ どの関節点が同一人物のものか ➢ 異なるカメラ視点でどの姿勢が同一人物か • 複数人の3次元姿勢推定はSOTA、1人の3次元姿勢推定でもSOTAと同等 3

目次 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ 4

目次 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ 5

既存の3D姿勢推定 Analytical 射影したときに2D keypointにあうように3D keypointを最適化 Predictive 2D keypointから3D keypointを回帰 (Deep的手法中心) Analytical 複数視点の2D keypointを幾何的手法(三角測量)で3D keypointを再現 Predictive 複数の2D keypointを3D特徴表現に落として回帰 (幾何的要素も含むことあり) Single Camera Single Person Multi Camera Single Camera Single Personに帰着 (Top-down) / Multi-Cameraの特殊ケース Multi Camera Pictorical modelやRe-identificationを使い、カメラ間の人物の紐付け Multi Person Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 6

既存の3D姿勢推定 Analytical • 以下の2つの項目が特に関連項目 Single Camera Predictive Single Person Analytical Multi Camera ➢ Single-Person Multi-Camera ➢ Multi-Person Multi-Camera • Single-Person Multi-Cameraのタスクは比較的論文あり ➢ 提案手法の発想が影響を強く受けているようにみえる Predictive ➢ 精度の高いモデルはPredictive要素を含む (こちらが現状の主流な雰囲気) • Multi-Person Multi-Cameraの研究はあまり盛んでない Single Camera Multi Person ➢ 比較のために出てくるという感じ ➢ 提案手法はむしろ、Single-Person Multi-Cameraの考え方を応用させたと捉え Multi Camera るほうが自然 Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 7

既存の3D姿勢推定 Analytical Single Camera ✓ Learnable Triagular of Human Pose [Iskakov+ ICCV’19 (oral)] ✓ ① triangulationを活用する手法と② 3D特徴を使う手法の2つを提案 Predictive Single Person ✓ ②のほうが精度が良くメインの手法 (SOTA/今回の提案手法に近い) ✓ Cross View Fusion for 3D Human Pose Estimation [Qiu+ ICCV’19] Analytical ✓ 2D姿勢の結果とtriangulationを活用する手法 ([Iskakov+]①に近い) ✓ Epipolar Transformers [He+ CVPR’20] Multi Camera Predictive ✓ エピポーラ幾何を利用したモジュールの提案 ✓ 上記2つの手法 ([Qiu+]と[Iskakov+]①)の精度向上 [Iskakov+ ICCV’19]① [Iskakov+ ICCV’19]② Single Camera Multi Person Multi Camera Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 8

既存の3D姿勢推定 Analytical Single Camera ✓ Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views [Dong+ CVPR’19] Predictive ✓ 2Dの姿勢推定をカメラごとに独立で行い、同じ人物でグルーピングを行い、Single-Personの3D姿勢推定の処理を行う Single Person ✓ 2D姿勢推定の結果を前提にするため、精度が落ちる Analytical Multi Camera ✓ (この論文に[Iskakov+ ICCV’19]の要素を足す感じが今回紹介する VoxelPoseのイメージ) Predictive Single Camera Multi Person Multi Camera Analytical: 幾何的に解決する手法、Predictive: ネットワークで解決する手法 9

10.

目次 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ 10

11.

提案手法 VoxelPose の全体像 • 提案手法は3つのモジュールから構成される ➢ (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力 ➢ (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定 ➢ (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定 11

12.

(a) 2D Pose Estimation • まず、各視点のカメラ画像を独立に2D Pose Estimationを行う • 2D Pose EstimationのモデルはHRNet (2DのSOTAモデル)を利用 • データが少ない場合、過学習回避のため学習済みのモデルを使用 ➢ 実験ではCOCOの学習済みモデルを使用 ✓ キーポイントまでは計算しない ✓ ヒートマップの状態で、CPN及び PRNで使用されるのがポイント 12

13.

(b) Cuboid Proposal Network (CPN) • 各視点の2D ヒートマップから人の存在領域を推定する ➢ Feature Volume: 2Dヒートマップを3次元の特徴量に落とし込む (多分、[Islakov+ ICCV’19]と同様) ➢ Cuboid Proposals: 3D convのネットワークを使って、人物の3D存在位置を推定 (ヒートマップ) 引用: [Iskakov+ ICCV’19] 13

14.

(b) Cuboid Proposal Network (CPN) • Feature Volumeは以下のように、今回のデータセットでは、8m x 8m x 2m程度になる ➢ 80 x 80 x 20の特徴量なので、1つのbinが大体100mmになる (人物の位置を特定だけなので粗い) ➢ 人がどこにいるかの候補領域を推定する (図のproposals (2m x 2m x 2m)にあたる領域を推定) 2m 8m 8m 14

15.

(c) Pose Regression Network (PRN) • CPNで推定した候補領域ごとに3D姿勢を推定する • CPNの3D特徴量の立方体より、小さなグリッドを使うことで、精緻な推定を行う • CPNの処理はあくまで、候補領域を出すための処理であることに注意 ✓ Proposalsのサイズは実スケールの 2m x 2m x 2mのサイズ ➢ Keypointごとに重みは共有されており、proposal 個数分の推論がされる (実装見ても多分そう) ✓ PRNのFeatureは64 x 64 x 64 なので、1つのbinが、2000 / 64 = 31.25mm になる ✓ ネットワークはCPNと入出力サイズ以外同じ 15

16.

学習方法 • 2D姿勢推定の学習を20エポック(学習率のスケジューリングあり)行い、CPNとPRNを含めて 10エポック学習を回した (データセットによっては2D推定にCOCOで学習済みの重みを使用) • CPNではGround Truth (GT)をガウシアンを使って、ヒートマップ化しておく CenterNetに似ている引用: [Zhou+ arXiv’19] GT 予測値 GT 予測値 16

17.

目次 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ 17

18.

データセット The Campus Dataset The Shelf Dataset The CMU Panoptic Dataset ➢ [Belagiannis+ CVPR’14] ➢ [Belagiannis+ CVPR’14] ➢ [Joo+ TPAMI’17] ➢ 屋外で3人の人物を3つのカメラ ➢ 棚を分解する4人の人物を5つの ➢ 様々なカメラ数 (3, 6, 12, 13, 23) で撮影したデータセットカメラで撮影したデータセット ➢ 小さなデータセットで過学習し ➢ 「The Campus Dataset」と同様ないように、2D姿勢推定はにCPNとPRNだけこのデータ COCOで学習し、CPNとPRNだセットで学習けこのデータセットで学習 ➢ 「The Campus Dataset」と同じで日常的な行動をする人々を撮影したデータセット ➢ このデータセットについては、 2D姿勢推定の学習においてもこのデータセットを使用論文で評価として提案された 18

19.

CPNの評価 • 提案手法は3つのモジュールから構成される ➢ (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力 ➢ (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定 ➢ (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定 19

20.

CPNの評価 • Feature Volumeのサイズ (80 x 80 x 20の部分)の妥当性 ➢ Binの幅を小さくすれば、精度が高くなっていく ((a)の図参照) ➢ 精度と速度のトレードオフを考えて、80 x 80 x 20がちょうどよかった (a) • 自動生成したヒートマップの学習利用可能性 ➢ 3D姿勢を射影して2D姿勢のヒートマップを生成し、それで学習 ((b)の図参照) ➢ (a)と(b)の差がない ➢ -> 画像データがなくても同等の性能が実現できる (汎化性能が高い) (b) • カメラの数による影響の検証 ➢ 複数のカメラを使わずに、1つのカメラだけで検証 ((c)の図参照) ➢ 175mmのthresholdでも95%以上出ている ➢ 1つのカメラだけでも検出可能な実用性がある [補足] この検証にはPanopticデータセットが使用されている (a)、(b)の実験では5視点のカメラが使用されており、(b)の学習ではカメラ画像は使われていない (c)の実験では学習/テストともに1視点カメラが使われている (c) 20

21.

PRNの評価 • 提案手法は3つのモジュールから構成される ➢ (a) 2D Pose Estimation : 2次元の姿勢推定モデルで単視点からの2D poseのヒートマップを出力 ➢ (b) Cuboid Proposal Network (CPN) : 人の存在候補領域を推定 ➢ (c) Pose Regression Network (PRN) : CPNの各候補領域ごとに3D poseを推定 21

22.

評価指標 Percentage of Correct Parts (PCP3D) Average Precision (AP) ✓ [Dong+ CVPR’19] ✓ 正解の関節点ごとに推論された最も近い関節点が正しいかどうかのaccuracy ✓ False positive(誤検知)は考慮されない ✓ PCP3Dのfalse positiveが考慮されない制限を解決するためにAverage Precisionを導入 ✓ MPJPEの値がKmm以下かどうかの基準で、 Average Precisionを計算 ✓ 物体認識で使われるAverage Precisionと感覚が違うので注意 Mean Per Joint Position Error (MPJPE) ✓ 推論された関節点と正解の関節点の距離を計算し、全ての関節点の平均を取る ✓ 物体認識のAP: Kが大きくなると難しい ✓ 今回のAP: Kが大きくなると簡単 ✓ 単位としてよくmmが使われる ✓ Single-Personの手法との比較で使用 22

23.

PRNの評価 • CPNのbinのサイズの影響 – (a)と(b)の比較。Binの数によって精度は上がるが、計算コストも上がるので、80 x 80 x 20がよい • カメラ(視点)の数の影響 ➢ (b)-(d)の比較。カメラの数を少なくすると、特にAP25 のように厳しい評価値では極端に悪くなる ➢ ただし、AP150の値はあまり下がらず、1視点3D姿勢と同様の評価基準の(j)はSOTA (40.1mm) と同等水準 • Heatmapの精度の影響 ➢ (b)と(g)の比較。Ground truthのheatmapを使うと精度は上がる [補足] この検証にもPanopticデータセットが使用されている • CPNのProposalの影響 ➢ (b)と(h)の比較。あまり変わらない。CPNの精度は十分で、PRNに改善可能性がある 23

24.

推論結果の例 • (a) 左が提案手法を射影した結果で、右がHRNet (a) の結果。通常難しいocclusionに対応 (複数カメラ使用のためfairな比較ではないことに注意) • (b) 失敗例。複数のカメラにうまく入れず、姿勢 (b) が崩れる • (c) カメラ視点が1つでもそこそこうまくいく例 • (d) 5視点の各射影とそれを3D表現で表示した例 (c) (d) 24

25.

既存手法との比較 • 2つのデータセット (Campus、Shelf) でSOTA (PCP3D) • ただし、既に高い値値での比較になってしまっている • Panopticは既存手法での値が見当たらなく、比較ができていないとのこと (future work) • エラーになっているものの多くは、正解データの間違いによるものだったとのこと (右図は正解データであるが、アノテーション漏れがある) 25

26.

既存手法との比較 Multi-Personの3D Pose EstimationでSOTA 引用: https://paperswithcode.com/task/3d-multi-person-pose-estimation 26

27.

既存手法との比較 Single-Personの3D Pose Estimation (Human3.6m) でもSOTAと同等 19mmなのでこの辺り引用: https://paperswithcode.com/sota/3d-human-pose-estimation-on-human36m 27

28.

目次 1. 既存手法 2. 提案手法 3. 評価・結果 4. まとめ 28

29.

まとめ • 要約 ➢ 複数カメラを使った複数人の3次元姿勢推定の手法であるVoxelPoseを提案した ➢ CPNとPRNを使って2次元姿勢を経由せずに、直接的に3次元姿勢を推定するため、2D姿勢推定の結果の悪影響を受けにくい、頑健なモデルとなった • 所感 ➢ 空間 (今回は 8m x 2m x 2mを仮定) の広さによって、どのように変わるのか見てみたい ➢ 既存手法に比べて、汎用的で実用的な手法になっていると感じた。とはいえ、それでも、空間の大小や複数カメラの扱いなど場面に応じて、変動が大きいため、どこまで汎用的に使うのがよいのかは難しそう ➢ あまりSOTAにこだわっていないようで、テクニカルな改善可能な点を多くあるように感じた。利用シーンにもよるが、現状のTitan X GPUで300msは遅い 29

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト