[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19

1.

DEEP LEARNING JP [DL Seminar] 3D Human Pose Estimation @ CVPR’19 / ICCV’19 Hiromi Nakagawa, Matsuo Lab https://deeplearning.jp

https://deeplearning.jp

2.

Overview • CVPR’19 / ICCV’19 にAcceptされた3D Human Pose Estimationに関する論文7本を俯瞰 • 最も多く見られたのは、3D Poseのアノテーションコストが高いという課題感に対する {Un/Self/Weakly/Semi}-Supervised Learningによるデータ(ラベル)効率改善の研究 – Multi-viewでの3D Poseの一貫性 – 2D↔3DのProjectionを活用した自己教師あり学習 – 敵対的誤差によるラベルなし表現の学習 • その他、Multi-person認識における深度推定問題や動画の時系列情報の活用などの方向性も見られた • 各手法に共通する課題・背景やアプローチ、それぞれの手法で異なる点、注目ポイントなどを整理した • note書きました↓ 【CVPR‘19 / ICCV’19】3D Human Pose Estimationの最新研究動向まとめ（https://note.mu/hirominakagawa/n/nbc226d7d1bfb） 2

https://note.mu/hirominakagawa/n/nbc226d7d1bfb

3.

Agenda Input Target View [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation SingleView SinglePerson [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision Image [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation MultiView Multi-Person Video [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training 3

4.

Agenda Input Target View [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation SingleView SinglePerson [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision Image [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation MultiView Multi-Person Video • 単一視点の画像から3D Poseを推定するアプローチ • 2D→3Dの推定と3D→2Dの射影による相互変換を用いた学習テクニックの提案 [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry • 2D Pose：比較的容易に・精度高く得られる • 3D Pose：カメラパラメータを使うことで2Dへの変換は容易 [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training 4

5.

RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation • ①2D→3D変換の学習と ②3D+カメラパラメータによる2Dへの射影をうまく活用して3D Poseを学習 • 敵対的学習によって中間の3D表現の質を改善 1 2 ①2D Poseから3D PoseとCamera Poseを生成 3D PoseはWGAN-GPで敵対的に学習。人体構造を明示的に考慮する特徴のKCS （Kinematic Chain Space）も加える ②3D PoseとCamera Poseから2D Poseを再構成して誤差を最小化 5

6.

RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation • 完全な教師ありには勝てないが、弱教師あり（WS）ではSoTA • KCS + Discriminatorによる3D Poseの学習の効果が確認された 2 2 6

7.

In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations • 1 2 [Wandt+ CVPR’19] RepNetと同様に、2D Poseから3D PoseとCamera Poseを推定→2Dに再射影して誤差を最小化するように学習を行う違い① 2D Poseの情報と3D Poseに関連する深さ情報(d)を明示的に分ける →入力画像の見た目の変化などにより頑健違い② 3D Poseは正解ラベルが存在する場合には教師ありで学習（Boneの長さも考慮） 7

8.

In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations • 2 2 実験結果 MPI-INF-3DHPではSoTA Human3.6MではSoTAではないが善戦（In-the-Wildなデータセットでこそ強みを発揮するとの主張） 8

9.

Unsupervised 3D Pose Estimation with Geometric Self-Supervision 1 4 • 2D↔3D間の射影を考慮した幾何学的（Geometric）な制約を用いた自己教師あり学習 9

10.

Unsupervised 3D Pose Estimation with Geometric Self-Supervision 2 4 • 2D↔3D間の射影を考慮した幾何学的（Geometric）な制約を用いた自己教師あり学習 ①Lifting Networkで 2D Poseを3D Poseに変換 ⑤2Dに射影 ②ランダムな回転Rを適用 ⑤逆回転R-1を適用 ③2Dに射影 ④Lifting Networkで 2D Poseを3D Poseに変換 10

11.

Unsupervised 3D Pose Estimation with Geometric Self-Supervision 3 4 • 2D↔3D間の射影を考慮した幾何学的（Geometric）な制約を用いた自己教師あり学習入力の2D Poseと再構成した2D Poseの誤差射影前の3D Poseと射影後の3D Poseの誤差 2D Poseの敵対的誤差（動画なら時間的一貫性も反映可能） 11

12.

Unsupervised 3D Pose Estimation with Geometric Self-Supervision • 教師なしアプローチのSoTAを更新 • Ablation Study（右） – 敵対的誤差（Adv）、2D/3Dでの自己教師あり学習（SS）、ドメイン適応（DA）、Discriminatorへの時間情報の入力（TD） – 全部入れることでベストの性能 4 4 12

13.

Agenda Input Target View [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation SingleView SinglePerson • 視点の相互変換や、カメラ幾何を用いた3Dラベルの作成を活用し、 [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations 複数視点（Multi-view）の画像から3D Pose推定のための表現を学習 [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision Image [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation MultiView Multi-Person Video [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training 13

14.

Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation • 1 2 Multi-viewの画像から3D Pose Estimationに有用な潜在表現を学習する – Pose空間で潜在表現を学習することで、画像空間で直接学習する[Rhodin+ ECCV’18]よりロバスト ②視点間の位置関係に基づく回転行列を潜在表現に適用カメラの外部パラメータ（視点間の位置関係）は既知である前提 ①各視点の画像から 2D Poseを生成 ③反対の視点の2D Poseを生成→誤差を最小化 ④表現の一貫性が担保されるよう潜在表現の誤差を最小化 14

15.

Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation • 2 2 学習した潜在表現を既存のSoTAモデルに組み込む（特徴ベクトルを足す）ことで、精度が改善 15

16.

Self-Supervised Learning of 3D Human Pose using Multi-view Geometry • Multi-viewの画像からエピポーラ幾何を用いて3D Poseを学習するEpipolarPoseを提案 • 2つのPose Estimation Network（Branch）を用意 1 2 – Upper Branch：単一画像から3D Poseを推定 – Lower Branch：複数画像からそれぞれ2D Poseを出力した後、エピポーラ幾何を用いて3D Poseを生成 • Lower Branch+エピポーラ幾何で3D Poseの正解ラベルを作成してUpper Branchの教師ラベルとして学習させることで、3Dの正解ラベルなしに単一画像から3D Poseを推定できるモデルを学習可能エピポーラ幾何を用いる際に必要なカメラの位置関係などの外部パラメータがわからない場合でも、データから推定・キャリブレーションできるテクニックも提案 16

17.

Self-Supervised Learning of 3D Human Pose using Multi-view Geometry • 教師ありのSoTAには勝てないが、善戦（左） • 弱教師あり/半教師ありではSoTA（右） 2 2 17

18.

Agenda Input Target View [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation SingleView SinglePerson [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision Image [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation MultiView Multi-Person Video • 複数人（Multi-Person）の3D Poseを推定する際に課題となる [Kocabas+ 人物位置の絶対的な位置関係（深度）を推定するためのテクニックを提案 CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training 18

19.

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image • 複数人（Multi-Person）の3D Pose Estimationを行う手法の提案 • 一般的な3D Pose Estimationのモデルは、骨盤など人物の空間位置の基準点となる関節（root）を 1 6 決めておき、その基準点からの相対的な位置関係で各関節の座標を表現 • 複数人の姿勢を推定するには、各人が空間上のどこにいるのか=rootの絶対座標も推定する必要がある 19

20.

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image • 2 6 3つのネットワークからなるパイプラインを提案 1. 画像内から人物を検出してクロップする DetectNet 2. 人物画像からrootの絶対座標を推定する RootNet 3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet 20

21.

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image • 3 6 3つのネットワークからなるパイプラインを提案 1. 画像内から人物を検出してクロップする DetectNet → Mask R-CNN [He+ ICCV’18] 2. 人物画像からrootの絶対座標を推定する RootNet 3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet → [Sun+ ECCV’18] 21

22.

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 4 6 • RootNet：カメラ座標系における人物のroot 𝑅 = 𝑥𝑅 , 𝑦𝑅 , 𝑍𝑅 を推定する • 2D座標の 𝑥𝑅 , 𝑦𝑅 は簡単に推定できるが3Dの深さ( 𝑍𝑅 )は容易には求まらない • 画像上の面積（pixel2）と実空間上の面積（mm2）の比率とカメラパラメータから深さ 𝑑 を近似 • 人物領域のbboxが実空間において 2,000mm x 2,000mm（x アスペクト比）であると仮定 • この仮定に基づいて計算した距離尺度 𝑘 と実際の距離は相関する（右下） 𝐴𝑖𝑚𝑔 𝐴𝑟𝑒𝑎𝑙 w[pix] = 2,000[mm] x w/h 𝐴𝑖𝑚𝑔 h[pix] = 𝐴𝑟𝑒𝑎𝑙 2,000mm 𝛼：焦点距離 22

23.

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 5 6 • 課題：実際の画像では (a) 異なるbboxのサイズだが、同じ距離にいる (b) 同じbboxのサイズだが、異なる距離にいる場合などがあり、この仮定のみではうまくいかない • 画像の特徴も使い、補正係数γを算出して 𝑘 を補正、最終的な絶対深度を出力する 23

24.

Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 6 6 • root位置の正解を使わないアプローチでは大きく精度改善しSoTA（下） • root位置の正解を使うアプローチの中でも、SoTAではないものの遜色のない精度を発揮（上） 24

25.

Agenda Input Target View [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation SingleView SinglePerson [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision Image [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation MultiView [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry • Multi-Person Video 動画の時系列情報を効率的に活用することで、単一画像のみでは解決しきれない曖昧性を解消し、時間的に一貫性のある形で3D Poseを推定 [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training 25

26.

3D human pose estimation in video with temporal convolutions and semi-supervised training • 動画の時系列情報を活用して3D Pose Estimationを行う手法 • 2Dと3Dの姿勢は一意に対応するとは限らないという根本的な曖昧性（ambiguity）の問題がある 1 3 →動画で観測できる連続的な人物の動きを活用することで曖昧性を解消 • Dilated Convolutionを用いたFully-Convolutionalなモデル（not RNN）で計算効率や学習効率を改善 • Back-Projectionによってラベルなしデータを効果的に利用する半教師あり学習も提案 26

27.

3D human pose estimation in video with temporal convolutions and semi-supervised training • Human3.6MのデータセットにおいてSoTA • 複数フレームを用いることによって速度の誤差も大きく減少 2 3 27

28.

3D human pose estimation in video with temporal convolutions and semi-supervised training • 3 3 教師あり学習だけでも強力だが、半教師あり学習によって特に少データ時でも高い精度を発揮 – – – – 提案手法（教師あり） –––––– 提案手法（半教師あり）エラー率データ数 28

29.

Agenda Input Target View [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation SingleView SinglePerson [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision Image [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation MultiView Multi-Person Video [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training 29

30.

まとめ • CVPR’19/ICCV’19にAcceptされた3D Human Pose Estimationに関する7本の論文をまとめた • 最も多いトピックとしては、{Un/Self/Weakly/Semi}-Supervised Learningによるデータ効率の改善 • • – Multi-viewでの3D Poseの一貫性、2D↔3DのProjectionを活用した自己教師あり学習、敵対的誤差によるラベルなし表現の学習 – 3D Poseはアノテーションが大変という課題感に対応論文の目的・課題感やそもそもの実験設定が異なるものが多いため、単純な精度比較での優劣付けは難しい – 提案手法単独ではなく、過去のSoTAモデルと組み合わせて使う前提のもの – 部分的にGround Truthの情報を使うもの – 異なるデータ分割や評価プロトコルを使うもの今後の方向性としては、データ効率改善系は引き続き出てきそうだが、In-the-Wildなデータ・独自データでの学習のニーズを考えると、画像の枚数（視点数）やカメラパラメータに対する事前情報の制約が緩和された手法が好まれそう – • Human3.6Mのようなリッチなデータセットのみで学習できる手法は、他に転移できるくらいロバストであれば、価値がある深度推定問題[Moon+ ICCV’19]や動画情報の効率的な活用[Pavllo+ CVPR’19]も、基本的な要件・評価指標などとして引き続き出てきそう 30

31.

参考文献 • [Wandt+ CVPR'19] Wandt, Bastian, and Bodo Rosenhahn. "RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Habibie+ CVPR'19] Habibie, Ikhsanul, et al. "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Chen.C+ CVPR'19] Chen, Ching-Hang, et al. "Unsupervised 3D Pose Estimation with Geometric Self-Supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Chen.X+ CVPR'19] Chen, Xipeng, et al. "Weakly-supervised discovery of geometry-aware representation for 3d human pose estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Kocabas+ CVPR'19] Kocabas, Muhammed, Salih Karagoz, and Emre Akbas. "Self-supervised learning of 3d human pose using multi-view geometry." arXiv preprint arXiv:1903.02330 (2019). • [Pavllo+ CVPR'19] Pavllo, Dario, et al. "3D human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Moon+ ICCV'19] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image." arXiv preprint arXiv:1907.11346 (2019). • [Rhodin+ ECCV’18] Rhodin, Helge, Mathieu Salzmann, and Pascal Fua. "Unsupervised geometry-aware representation for 3d human pose estimation." Proceedings of the European Conference on Computer Vision (ECCV). 2018. • [He+ ICCV’17] He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017. • [Sun+ ECCV’18] Sun, Xiao, et al. "Integral human pose regression." Proceedings of the European Conference on Computer Vision (ECCV). 2018. 31

[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

【拡散モデル勉強会】Introduction to Diffusion Models

各ページのテキスト