[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation

263 Views

May 17, 19

スライド概要

2019/05/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Deep High-Resolution Representation Learning for Human Pose Estimation” Matsuo Lab, Ryo Okada/岡田 領 http://deeplearning.jp/ 1

2.

Outline 1. 2. 3. 4. 5. 6. 7. 書誌情報 論文の概要 姿勢推定問題とは 先行研究 提案手法 実験 まとめ 2

3.

書誌情報 • タイトル – Deep High-Resolution Representation Learning for Human Pose Estimation • 著者 – Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang – University of Science and Technology of China, Microsoft Research Asia • CVPR’19 3

4.

概要 4

5.

本論文の概要 • Deep High-Resolution Representation Learning for Human Pose Estimation – ネットワーク全体で高解像度を維持する一方で、複数スケールを繰り返し フィージョンする姿勢推定のためのhigh resolution network(HRNet)を 提案 – 異なるスケールのインタラクションを密にして高精度出した 5

6.

姿勢推定とは 6

7.

Human Pose Estimation - 姿勢推定 • • • 姿勢推定とは – 画像や動画から肩や手首といった人間の関節部分 (キーポイント)を推定する問題 種類 – 2D姿勢推定 • 画像から関節部分の2次元(x, y)の位置を推定す る – 3D姿勢推定 • 画像から関節部分の3次元(x, y, z)の位置を推定 する 利用例 – 行動認識、アニメーション、ゲーム – Homecourt(バスケのシュートの分析アプリ) 7

8.

Human Pose Estimation - 姿勢推定 • 姿勢推定モデルのアプローチ – トップダウンアプローチ • まず人物を検知する。その後、それぞれの人物について姿勢推定(Single Person Pose Estimation)を行う。 • 人数に比例して計算量が増加する – ボトムアップアプローチ • 画像中のキーポイントを全て洗い出したあと、人物ごとにマッチングさせて繋ぎ合わせて いく。 • トップダウンに比べ、計算量が少ないが、部位間のつなぎ合わせの精度が低い 8

9.

先行研究 9

10.

姿勢推定の先行研究 Hourglass • • 対照的な高->低、低->高解像度の ネットワーク(Hourglass)を直列に 8つつ繋ぐ。それぞれのhourglass ではIntermediate supervisionを用 いる。 Skip connection使ってフュージョ ンする。 Cascaded pyramid network • • トップダウンアプローチ(人物検 知->姿勢推定) 左側の GlobalNetで単純明瞭な キーポイントを見つける。右部分 のRefineNetが複数スケールの特 徴をアップサンプリング・統合す ることで、抽象度の高く、見つけ づらいキーポイントの推定を行う。 Simple Baseline • • • • ResNetで高->低解像度、Hourglass ではアップサンプリングであった が、deconv layerでスケールを戻 す。 シンプルなネットワークで高性能 を示した。 ECCV Posetrack challenge 2018で優 勝 著者らの前作 10

11.

既存研究のポイントと提案手法の着想 既存研究 提案手法 並列に高->低解像度ネットワーク ネットワーク 構成 直列に高->低解像度へ落とす 複数スケール の加算方 段階的に異なるスケールを加えていく ものが多い 複数スケールを一気に繰り返しフュー ジョン Intermediate supervision Intermediate supervisionを使用 (Hourglassなど) intermediate supervisionを使用しない ため、計算量小。 (分類やセグメンテーションのmulti scale network から着想. Ex. Convolutional neural fabric, interlinked CNN) (Deep fusionから着想) 11

12.

提案手法 12

13.

HRNetのアーキテクチャ 並列マルチ解像度サブネットワーク Exchange Unit s: stage, r: resolution index • サブネットワーク間で情報を繰り • 高解像度から始め徐々に低解像度 返しフュージョンする のサブネットワークを加えていく。 • 異なるスケールのfeature mapは • 後段のステージの並列ネットワー アップサンプリング (nearest クの解像度は前段のステージのも neighbor サンプリング + 1x1 convolution) またはダウンサンプ のに加え、より解像度の低いもの リング (strided 3x3 convolution) で構成される。 して加算。 13

14.

HRNetのアーキテクチャ HRNet全体イメージ • • 4ステージ、4並列サブネットワーク 実験では2サイズのネットワークを用意 • • HRNet-W32(チャンネル幅32,64,128,256) HRNet-W48(チャンネル幅48,96,192,384) 出力 • 最終層では1x, 2x, 4x, 8xの4スケールが 出力される。このうち最も精度の高い 1xの出力のみが用いられる。 • 損失関数はground truthのキーポイン トヒートマップに対するmean square error。 14

15.

実験 15

16.

実験 • 以下データセットで検証。それ ぞれSoTAを達成。 – MSCOCO • 物体検知・セグメンテーション・人物 姿勢を含むデータセット – MPII Human Pose Estimation, PoseTrack • 人物2D姿勢データセット • 評価指標(COCOでの検証の 際) – Object Keypoint Similarity – 物体認識におけるIoUと似た役割 – OKS閾値でのStandard Average precisionとrecall scoresで評価 http://imagenet.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypo int.pdf 16

17.

COCO test-devでの性能比較結果 • • • AP: OKSを10段階に 変えた時のAverage Precisionの平均値 AP50, AP75: OKSの閾 値0.5, 0.75 APM, APL: 中サイズ、 大サイズ人物に対す るAP 提案手法が高精度を示 している 17

18.

分解検証 18

19.

分解検証 • 以下3点について分解検証 1. 2. 3. 4. フュージョン回数による効果 ネットワーク内での解像度の扱いの影響 ヒートマップ推定に利用するfeature mapの解像度 入力サイズの影響 19

20.

分解検証 ①フュージョンの繰り返しによる効果 ②ネットワーク内での解像度の扱いの影響 最初から4つのサブネットワークを繋いだネット ワークと提案手法とを検証(variant of the HRNet)。 ネットワークの深さやフュージョンについては同じ。 - 結果 Variant of the HRNet: 72.5AP HRNet-W32:73.4 AP マルチスケールのフュージョンは効果的であり、回 数を増やすほど高い性能に 提案手法(HRNet-W32)のほうが高性能となった。 徐々にスケール/サブネットワークを増やしていく のが性能向上につながると言える。 20

21.

分解検証 ③ヒートマップ推定に利用する feature mapの解像度 ④入力サイズの影響 ネットワーク最後で利用するfeature mapの解像度 の精度への影響を検証。 解像度は予測精度に大きく影響することがわかる。 小さいサイズにおける変化の方が性能の改善幅が大 きい。 ある程度の解像度を利用すれば精度の高い結果につ ながる。 21

22.

まとめ • 姿勢推定のためのhigh resolution network(HRNet)を提案した – プロセス全体で高解像度を維持し、解像度を復元する必要がない、 – 複数の解像度を繰り返しフュージョンし、高い精度を得た • Future work – HRNetの他のタスクでの効果検証(すでにいくつか検証している) • 物体検知 – High-Resolution Representation Learning for Object Detection • セグメンテーション – High-Resolution Representations for Labeling Pixels and Regions • 画像分類 – High-Resolution Representation Learning for ImageNet Classification • 顔認識 – 未 22

23.

THANK YOU. 23