[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking

193 Views

January 24, 20

スライド概要

2020/01/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Seminar] LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking Koichiro Tamura ACES, Inc. https://deeplearning.jp

2.

Overview • • Guanghan Ning, Heng Huang – Submitted to arXiv on 2019/7 – https://arxiv.org/abs/1905.02822 – Accepted as a CVPR 2019 paper GitHub – • https://github.com/Guanghan/lighttrack Human Pose Tracking – 動画内の複数の人物における同定を行うタスク • 特にオンライン(各フレームで過去の予測結果を元に逐次マッチングを行う)で精度・速度ともにSOTA – mAP 63.8~66.5, MOTA 52.3~55.1 – fps: 47~48 2

3.

今回のサーベイの目的 1. Object Trackingを含めたTrackingの研究の潮流を理解する – 【問】Object trackingはPose Trackingのタスクを内包するか – 【問】Pose TrackingとObject Trackingは共存するか 2. Top-Down/Bottom-Up アプローチの研究と実活用の潮流を理解する – 【問】実運用において今後どちらが進展するか 3. Trackingにおける現状課題を理解する – 【問】pose trackingが実活用できない条件/サーベイするべき課題はなにか 3

4.

Tracking Survey

5.

Object Trackingについて • 動画像において初期フレームの物体の位置が与えられ、次フレーム以降の同一物体の位置を検出するタスク • サーベイ論文 • – [Ciaparrone+ 19.11]DEEP LEARNING IN VIDEO MULTI-OBJECT TRACKING: A SURVEY – https://arxiv.org/pdf/1907.12740.pdf Single vs Multiple – 一つの物体を追跡するSOTと、複数の物体を追跡するMOTは、似て非なるタスク – MOTは目標画像が既知ではなく、オクルージョンやインテラクションの問題が発生するタスクであり、単にSOTのモデルを適用すると、 目標を見失ったり、IDがごちゃごちゃになる • Online vs offline (batch) – 過去データのみを用いるonlineと、未来のデータも用いるoffline(batch)に大別 5

6.

Object TrackingとDeep Learning 1. Detection Stage – Faster R-CNN/SSD/YOLOなど – Detectionとtrackingを一気通貫してend-to-endで学習するモデルも 2. Feature Extraction /Motion Prediction Stage – CNNやSiamese CNNで特徴量を抽出する手法が主流 3. Affinity Stage – 抽出した特徴量に対して、距離を算出 4. Association Stage – IDを割り振る 6

7.

Introduction

8.

Introduction • 既存のPose Trackingのアルゴリズムの多くははオフライン – 計算速度(FPS)よりも、追跡精度(MOTA)がより重要視されている – オフラインのアルゴリズムは、未来のフレームのposeを推定・計算する必要がある(少なくとも、ある程度の範囲の framesで計算される必要がある) • 既存のPose Trackingでオンラインのアルゴリズムは(全て)Bottom-Up型 – Bottom-up型アプローチは、互換性にかける(end-to-endのネットワークのため) • LightTrackは、初のTop-Down型かつオンライン型のPose Trackingアルゴリズム – 精度・速度ともにSOTA 8

9.

Introduction • LightTrackは、人の姿勢という明示的な特徴を用いたTrackingのアルゴリズムである – Visual Object Tracking(VOT)は、特徴量空間における暗黙的な処理 1. 解釈可能性が高い 2. 先にKeypointsを推定しているので、ROI(画像における対象領域)を集中・効率的に処理できる 3. 候補者のIDが計算過程で自然に付与・保持されるため、関連付けの負担が軽減される • 本研究では、以下の貢献 1. Top-Down型かつオンライン型のPose Trackingにおける一般的なフレームワークを提案した 2. 人の関節点をもとにしたPose TrackingにおけるRe-ID(見失った時の再特定)を提案 3. 様々な設定で検証実験を行った 9

10.

Related Works

11.

Pose Estimation and Tracking • Pose Estimationには、2つのアプローチがある 1. 2. • Bottom-Up • 画像内における関節点を推定した後、人を再構成する • 複数人の推定において、計算時間が人数に比例しない(つまり早い) • OpenPoseなど Top-Down • 人をObject Detectionアルゴリズムで検知した後に、single person Pose Estimation(SPPE)を行う • タスクが分解できて、シンプル • RMPE、AlphaPoseなど Pose Trackingの研究は、以下のデータセットが構築されたことによって進展 – Pose Track Dataset • – ([Andriluka+ 17.10] PoseTrack: A Benchmark for Human Pose Estimation and Tracking), https://arxiv.org/abs/1612.01465 MPII Video Pose Dataset • [Insafutdinov+ CVPR'17] ArtTrack: Articulated Multi-person Tracking in the Wild, https://arxiv.org/abs/1612.01465 11

12.

Single Pose Tracking vs Multi Pose Tracking • Multi (Pose/Object) TrackingをSingle (Pose/Object) Trackingの延長として捉えることはできない – 特定のフレームにおいて、2つの異なるIDが同一人物に割り振られたり、異なる人間が1つのIDを共有することはでき ないという制約条件は、想像以上に難しい – 単にSOTモデルを当てはめると、目標を見失ったり、IDがごちゃごちゃになったりしてしまう 1. 画角から消えたり、隠れたりする 2. 新しい候補者や、一度消えた人物が再出現する 3. 交差する 4. カメラ自体が移動・ズームする – 複数のPose/Objectを同時に追跡し、別モジュールとしてRe-IDモジュールを実装しIDを保持管理することが必須 12

13.

Proposed Method

14.

Proposal method 1. Object Detection(Human Detection) 2. Single Person Pose Estimation(SPPE) 3. 人物のTracking状態の判定 (Lost or tracked) 4. Lost の場合、 Object Detectionを再度用いて、候補者を検出し、Pose の類似性からターゲットを関連づける 14

15.

ターゲットの状態判定 • Tracked or Lost – Jointsのconfidence scoreの平均が𝜏𝑠 未満である場合、lost と判定する • Lostと判定された場合、以下の2つのアプローチがある 1. Fixed Keyframe Interval(KFI): 次の特定フレームまで、ターゲットを無視する=>安定 2. Adaptive Keyframe Interval(AKI): 候補の再検出と関連付けですぐさまtrackingする=>高フレームレート対応 – 本研究では、ターゲットが失われた瞬間にObject Detectionを呼び出しつつ、固定間隔のキーフレームで補正 15

16.

IDの関連付け • 本研究では、以下の2つの一貫性を利用して、時系列に おけるIdentificationを行う 1. 空間的な一貫性: BboxのIoUで閾値判定 -> これだけだと、カメラ シフトやズームに弱い 2. Poseの一貫性: 視覚的な一貫性を、Pose Estimationから確認する -> New Points: – 視覚的な一貫性を確認するシステムは、特にオンラインの Trackingにおいては、計算時間を要するため、難しい – そこで本研究は、関節点のグラフィカルな情報を利用することに よって次元を削減(Pose Matchingと呼ぶ) – visual featureを使うことで視覚的に似た人物を同一人物と判定し てしまわないようにする(例:スポーツにおけるユニフォーム) カメラシフトやズームでは、 空間的な一貫性だけでは対応できない 16

17.

Siamese Graph Convolution Networksを用いた類似判定 • • Siamese CNN – 2つの画像において、類似性を表す距離を学習するCNNを利用したニューラルネットワーク – 2つのCNNの重みは共有される Siamese Graph Convolution Networks – Siamese CNNのGCN版 17

18.

Siamese Graph Convolution Networksを用いた類似判定 • Siamese NetworksのLoss関数 2 – 𝐷 = 𝑓 𝑝𝑗 − 𝑓(𝑝𝑘 ) – 𝑦𝑗𝑘 ∈ {0,1}, 𝑝𝑗と𝑝𝑘が同じposeかどうかを表すBoolean値 – 𝜖: poseが異なる場合において、満たすべき最小マージン , GCNで畳み込まれた特徴量空間における距離 18

19.

Siamese Graph Convolution Networksを用いた類似判定 • Graph Convolution – [Yan+ AAAI’18]Spatial temporal graph convolutional networks for skeleton-based action recognitionに基づいて畳込み – 各nodeにおいて、poseにおける隣接noteのみサンプリングされる – 𝐵(𝑣𝑖 ) : node 𝑣𝑖 の隣接nodeの集合 – 𝒑: sampling function. ここでは結局node 𝑣𝑗 – 𝒘: 重心からの距離に応じた重み 19

20.

Experiments

21.

Dataset • Pose Track – [Andriluka+ 17.10] PoseTrack: A Benchmark for Human Pose Estimation and Tracking • – データセット • – https://arxiv.org/abs/1710.10000 https://posetrack.net/ ICCV’17, ECCV’18 workshopのベンチマークを利用 • 68,000 frames for ICCV’17, 68,000*2 frames ECCV’18 • 593 training videos, 74 validation videos, and 375 testing videos 21

22.

Evaluation Metrics • Pose Estimation: mAP • Pose Tracking: MOTA(multiple object tracking accuracy) – [Bernardin+ 08.01] Evaluating multiple object tracking performance: the clear mot metrics. • http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.367.6279&rep=rep1&type=pdf 𝑀𝑂𝑇𝐴 = 1 − • • • • 𝐹𝑁 + 𝐹𝑃 + 𝐼𝐷𝑆𝑊 ∈ (−𝑖𝑛𝑓, 1] 𝐺𝑇 FN: ground truth BBがどの予測BBにも当てはまらないとき FP: 予測BBがどのground truth BBとも当てはまらないとき IDSW: id switch, ground truth BBのIDが誤ったものに切り替わったとき GT: 全フレームでのground truth BBの数 22

23.

Implementation Details • Object Detection – • • Single Person Pose Estimation – CPN101: [Chen+ CVPR’18] Cascaded Pyramid Network for Multi-Person Pose Estimation – MSRA152: [Xiao+ ECCV’18] Simple baselines for human pose estimation and tracking Siamese Graph Convolution Networks – • ImageNetとCOCOでpre-trainedされたResnet101をbackboneにしたDeformable FPN 2つのGraph convolution networksでoutputの次元が128 それぞれのアーキテクチャにおいて、異なるモデルに代替可能 – コメント*: top-downのアルゴリズムであれば、すぐに利用可能 – HRNetなど • [Sum+ CVPR’19] Deep High-Resolution Representation Learning for Human Pose Estimation • https://arxiv.org/abs/1902.09212 23

24.

Offline vs Online 精度はOfflineの方が高い 24

25.

GCN vs Spatial Consistency(or Euclidean Distance) (*ユーグリット距離はGCNの85~92%) 25

26.

Performance Comparison Offlineであれば、HRNetがやはり強い Fpsが圧倒的*(pose estimationの時間を除く) 26

27.

Conclusion

28.

まとめ • 初のTop-Down型かつオンライン型のPose Trackingアルゴリズム 1. それぞれの機能において代替性・拡張性を持つ • より優れたObject Detection • より優れたsingle person pose estimation • より優れたSiamese Graph Convolution Networks 2. ユーザーの状態を定義し、必要な場合に応じてRe-Identificationをすることによって、速度を担保 3. GCNを用いてencodeすることで、人の位置や角度に対してロバスト 28

29.

サーベイの結論 1. Object Trackingを含めたTrackingの研究の潮流を理解する – 【問】Object trackingはPose Trackingのタスクを内包するか – 【答】 pose trackingは動作の一貫性というよりは、Object Trackingと同様にidentificationの一貫性を目的にしている。 top-downのアプローチであ れば、似たようなフレームワークであるが、人の関節情報を用いることができるという観点から、 Pose Trackingの方がタスク的に容易。 – 【問】Pose TrackingとObject Trackingは共存するか – 【答】 top-downのアプローチでかつ、online/offlineのアーキテクチャが同じであれば、同一のアーキテクチャで、実装可能。つまり、物体と人 の両方をトラッキングする必要があるタスクでは、top-downのpose estimationのアルゴリズム選定が重要 2. Top-Down/Bottom-Up アプローチの研究と実活用の潮流を理解する – 【問】実運用において今後どちらが進展するか – 【答】 bottom-upのアルゴリズムの推論速度は魅力だが、代替性と拡張性にかける。個々に強力なアルゴリズムを組み合わせて実現するtopdownのアーキテクチャの方が優勢か 3. Trackingにおける現状課題を理解する – 【問】pose trackingが実活用できない条件/サーベイするべき課題はなにか – 【答】 GCNを用いることで、センサについてロバスト(カメラの移動とズームにはある程度対応)できるが、複数視点でのtrackingは難しい。ま た、死角に入って一定時間が経ってから出てくる場合などは、服装や顔などといった視覚的特徴量をベースに同定を行う必要がある 29