[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey

>100 Views

April 14, 20

スライド概要

2020/04/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] CNN-based Density Estimation and CrowdCounting A Survey Present Square Co.,Ltd. 小林 範久 http://deeplearning.jp/ 1

2.

書誌情報 タイトル: 著者: CNN-based Density Estimation and CrowdCounting :A Survey (https://arxiv.org/abs/2003.12783) Guangshuai Gao, Junyu Gao, Qingjie Liu, Qi Wang, Yunhong Wang 概要: • 群集カウントのサーベイ論文。 • CNNベースの密度推定と群集計数モデルについて、ネットワークアーキテクチャ、学習パラダイムな どの観点から調査を実施。 • 性能向上のために大きな助けとなる属性や技術をまとめた。 ※スライドの構成上、詳細の説明を省いているが、論文内では各手法等を一つ一つ取り上げて 細かく紹介されている。 その他: GitHub:https://github.com/gaoguangshuai/survey-for-crowd-counting Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

3.

アジェンダ 1. 2. 3. 4. 5. 6. 7. 導入 群集カウントの分類 データセット 評価指標 ベンチーマークと分析 ディスカッション まとめ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3

4.

1. 導入 群集カウント 何人いますか? Copyright (C) Present Square Co., Ltd. All Rights Reserved. 何台いますか? 4

5.

1. 導入 群集カウント 何人いますか?? 何匹いますか?? 同じカウントタスクでも、密度や対象、背景、距離等で変わる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

6.

1. 導入 • ひとつの画像に含まれる物体の数を正確に推定することは、困難なタスクである。 • しかしながら都市計画や公共安全などあらゆる面で社会的に有用なタスクでもある。 • 特に群衆カウントの技術開発は社会保障に重要な意味をもち、そのうえ技術転用も可能なため、無数の研究がなされ 多くの優れた論文や著作が存在している。 • 本論文は220以上の論文を調査し、主にCNNベースの密度マップ推定法を中心に、群衆カウントモデルを総合的かつ 体系的に検討・分析している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6

7.

2. 群集カウントの分類 群集カウントの年表 【変遷】 1:Detection-based 2:Regression-based 3:Density estimation ⇒ CNN-based density estimation basic Copyright (C) Present Square Co., Ltd. All Rights Reserved. multi-column single-column 7

8.

2. 群集カウントの分類 Summary of state-of-the-art methods Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

9.

2. 群集カウントの分類 ①Detection based(検出ベース) • 画像のスライディングウィンドウを介して人もしくは頭部を検出する。 • 近年では、R-CNN/YOLO/SSDなどが劇的に精度改善に貢献する可能性はある。 • ただし、非常に密集した群衆に関しては期待できない。 ②Regression-based(回帰ベース) • Detection-basedで解決できなかった問題を軽減するために、イメージパッチからカウントへのマッピングを直接学習 する回帰を導入。(全体特徴global features もしくは部分特徴local featuresを抽出。 線形回帰linear regressionとガウス混合回帰Gaussian mixture regressionを用いる。) ③Density estimation(密度推定) • 回帰ベースでは空間情報(spatial information)を無視してしまう問題があった。 • そのため、局所特徴と対応する密度マップとの間の線形マッピングを学習する密度推定法を採用。線形マッピングの難 しさを軽減するために、非線形マッピング、ランダムフォレストが推奨される。 ⇒CNN-based density estimation 初期には基本的なCNNを用いて作成され、近年ではFCNに基づくより効果的で効率的なモデルが作られ、 主流となっている。FCNはモデルごとに監視レベルと学習パラダイムが異なる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

2. 群集カウントの分類 全体的なアーキテクチャ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

2. 群集カウントの分類 分類軸 A) ネットワークアーキテクチャ B) 学習パラダイム C) 推論方法 D) ネットワークの監視形式 E) ドメイン適応 F) インスタンスレベル/イメージレベル Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

2. 群集カウントの分類 A)ネットワークアーキテクチャ ①Basic Networks Copyright (C) Present Square Co., Ltd. All Rights Reserved. ②Multi-Column Networks ③Single-Column Networks 12

13.

2. 群集カウントの分類 A)ネットワークアーキテクチャ ①Basic Networks • 基本的なCNN • CNNを用いた密度推定や群集測定の初期に使われた。 メリット: シンプルで実装が簡単。 デメリット: 通常は精度が低くなる。 ②Multi-Column Networks 異なる受容野に対応するマルチスケール情報を捕捉するために、 異なるカラムを採用している。 メリット: 群集測定のための優れた性能がもたらされる。 デメリット: ① 学習に時間が必要で、困難。 ② 異なる分岐を利用しているもののほぼ同じネットワークを利用するため、冗長。 ③ 画像をネットワークに送信する前に密度レベルの分類器が必要だが、群衆の数が大幅に変化する ために密度レベルの細かい定義は困難。また、きめの細かい分類はより多くのカラムと構造を必要と するため、より冗長性が高まる。更に、密度レベルの分類器のために大量のパラメータが必要。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

2. 群集カウントの分類 A)ネットワークアーキテクチャ ③Single-Column Networks マルチカラム・ネットワーク・アーキテクチャのような肥大化した構造ではな く、単一で深みのあるCNNを展開しており、ネットワークの複雑さを増や さないことが前提となっている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

2. 群集カウントの分類 B)学習パラダイム シングルタスクベース • 古典的な方法、及びほとんどのCNNベースの群集カウント法はこのパラダイムに属する。 • 一般的に密度マップを生成し、すべてのピクセルを合計して総カウント数を得るか、もしくは直接カウント 数を得る。 マルチタスクベース • 近年では様々なコンピュータビジョンタスクにおけるマルチタスク学習の成功に触発されて、密度推定と 分類、検出、セグメンテーションなどの他のタスクを組み合わせて、より良い性能を示している。 • マルチタスクベースの手法は一般的に複数のサブネットを用いて設計されており、純粋な単一カラムアー キテクチャとは対照的に、異なるタスクに対応する他のブランチが存在する場合もある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

2. 群集カウントの分類 C)推論方法 Patch-based methods • 画像からランダムに切り取られたパッチを用いて学習するために必要とされる。 • テスト段階では、テスト画像全体に広がるスライディングウィンドウを用い、各ウィンドウの推定値を取得し、 それらを組み立てることで画像の最終的な合計カウントを得る。 Whole image-based methods • パッチベースの手法は常に大域的な情報を無視している。また、スライディングウィンドウ演算のために計算 コストの負担が大きい。 • 全画像ベースの手法では、画像全体を入力とし、それに対応する密度マップや群集の総数を出力するの が一般的である。一方で、ローカル情報を失う場合がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

2. 群集カウントの分類 D)教師あり学習方法 Fully-supervised methods: • 大規模で正確に手でアノテーションをつけたデータに依存している。 • しかし、これらのデータの取得には時間がかかり、通常よりもラベル付けの負担が大きい。 • また、ラベル付けされたデータが少ないために、オーバーフィットの問題に悩まされることがあり、自然域や他の領 域に移植する際に性能が著しく低下することになる。 Un/semi/weakly/self-supervised methods: • 教師あり学習法と比べて同程度のパフォーマンスに到達するためのラベルなしデータを開発している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

2. 群集カウントの分類 E)ドメイン適応 • 既存の計数手法は、ほぼすべて特定のドメインで設計されている。そのため、どのようなオブジェクトドメインでも計数でき る測定モデルを設計することは、挑戦的でありながらも意味のある作業である。 • ドメイン適応技術は、この問題に取り組むための強力なツールとなりうる。 F)インスタンスレベル/イメージレベル Instance-level supervision • ほとんどの群集密度推定法は、インスタンスレベル(ポイントレベルまたはバウンディングボックス)の監視に 基づいており、インスタンスの位置ごとに手動でラベルを付けたアノテーションが必要となる。 Image-level supervision • 画像レベル教師に基づく手法では、位置情報を必要としないsubitizing範囲内またはそれを超えたインス タンスの数をカウントする必要がある。 • 一瞬もしくは一目で数を推定するとみなすことができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

3. データセット 群集カウントの発展に伴い、多数のデータセットが導入されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

3. データセット • データセット一覧 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

4. 評価指標 評価指標は、以下のように3つのカテゴリに分類する。 ①カウント性能を評価するためのイメージレベル ②密度マップクオリティーを測るためのピクセルレベル ③局在化の精度を評価するためのポイントレベル ①イメージレベル指標 平均絶対誤差(Mean Absolute Error:MAE) 平均二乗誤差(Mean Square Error:RMSE) グリッド平均 平均絶対誤差(Grid Average Mean Absolute Error:GAME) • MAEでは正確な評価を提供するために位置情報が失われる可能性がある。 • そのため、Grid Average Mean Absolute Error:GAME が提唱されている。 • 4Lは画像をいくつかの重複しない領域に分割することを示す。Lが高いほど、GAME指標の制限が厳しくなる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

4. 評価指標 ①イメージレベル指標 平均ピクセルレベル絶対誤差(Mean Pixel-level Absolute Error:MPAE) • 密度が誤って局所化されている度合いを測定する。 • MAEとRMSEの観点では、ローカルの領域を評価できないため、以下の2指標を利用する。 パッチ平均二乗誤差(Patch Mean Square Error:PMSE) パッチ平均絶対誤差(Patch Mean Absolute Error:PMAE) Copyright (C) Present Square Co., Ltd. All Rights Reserved. ※mは分割された重複しないパッチで、 m=1のとき、 PMAE⇒MAE、PMSE⇒RMSE 22

23.

4. 評価指標 ②ピクセルレベル指標 • ピーク信号対雑音比(Peak Signal to Noise Ratio: PSNR)及び構造類似性指数(Structual Similarity Index : SSIM)が生成された密度マップのクオリティーを作成するために使われる。 • PSNRは最も一般的かつ広範に使われる画像評価指数である。 • 対応するピクセル間のエラー(エラー感度)に基づいている。一般的に、高い値は小さなエラーを示すとされる。 • SSIMは、明るさ、コントラスト、構造の三要素の掛け算から画像類似性を測定する。0:1の範囲を取り、値が大 きいほど、画像の歪みは少なくなる。 ③ポイントレベル指標 • モデルのローカリゼーションパフォーマンスを評価するために、平均適合率(Average Precision : AP)と 平均再現率(Average Recall : AR)が使われる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

5. ベンチマークと分析 全体的なベンチマーク結果への評価 • 代表的な群集カウントの性能の比較。 • 赤、緑、青はそれぞれ第1、第2、第3のパ フォーマンスを示す。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24

25.

5. ベンチマークと分析 プロパティベースの評価 A) Single column network B) Visual attention mechanism C) Dilated convolution layers D) Spatial Transformer Network(STN) E) Conditional random files(CRF) /Markov Random Fields (MRF)) F)Perspective information(遠近情報) G)Pyramid pooling H)Pan-density/subregion Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25

26.

5. ベンチマークと分析 プロパティベースの評価 A)Single column network • SOTA手法の2/3がsingle column networkを採用している。 • そのうち、1/3以上がVisual attention mechanism及び、dilation convolution layer を組み込んでいる。 B)Visual attention mechanism • ニューラル応答を計算するために適切な情報を使用し、特徴マップの各ピクセルの重要度を重み付けするために 学習することができる。 • 関心領域を強調表示し、背景クラッタ状況でノイズをフィルタリングする群衆カウントの問題にも適している。 C)Dilated convolution layers • セグメンテーション作業の精度を大幅に向上させることが実証されている。 • より多くのマルチスケール特徴を捕捉し、より詳細な情報を維持するために、非圧縮畳み込み層を群集カウント フレームワークに統合することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26

27.

6. ベンチマークと分析 プロパティベースの評価 D)Spatial Transformer Network(STN) • 回転やスケーリング、反りの問題に対処することができる。 • 余分なアノテーションを必要とせず、異なるデータ間の空間変換を適応的に学習する能力を持っている。 • STNは入力画像上で空間変換を行うだけでなく、異なる特徴マップの空間変換を実現するために、畳み込み層 のどの層でも空間変換を行うことができる。 E)Conditional random files(CRF)/ Markov Random Fields (MRF) • 群集カウントタスクの異なるスケールの特徴を洗練するためにCRFが利用され、ベンチマークデータセット上でその 有効性を実証している。 • 群集カウントのためにCRFと非局所的操作 (self-attentionと同様)を統合したAttentional neural fields(ANF)フレームワークが提案されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 27

28.

5. ベンチマークと分析 プロパティベースの評価 F)Perspective information(遠近情報) • 遠近情報は2つの方法で提供されている。カメラの6自由度(DOF)に関連するものと、カメラからの距離におけ るスケールの変化を識別するもの。 • 多くの伝統的な群集カウント法 は、回帰特徴や検出特徴を正規化するためにスケール変化を利用している。 • 最近のCNNベースの手法の中には、遠近情報を利用してGround Truth密度 や身体部位マップ を推定する ものもある。 G)Pyramid pooling • 異なるサイズのプーリング層を特徴マップから抽出し、それらを固定長のベクトルに集約することで、ロバスト性と精 度を向上させることができ、収束速度を速めることができる。 • SCNet 、PaDNet 、CANでは、群集計数のためにマルチスケール特徴量の捕捉と融合に用いられている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 28

29.

5. ベンチマークと分析 プロパティベースの評価 H)Pan-density/subregion • 異なるシナリオでの密度や分布の変化と、同じシーン内での密度の不一致に対処することが目的。 • 現在の手法の多くは、特定の密度やシナリオに合わせて設計されている。 • MCNN 、Switch-CNN、CP-CNNなど、多くのマルチカラムアーキテクチャがこの問題に対処するように設計され ているが、それらは常に効率が低く、計算が複雑で、局所推定に偏りがあるという問題を抱えている。 • しかし、PaDNet は、Density-Aware Network(密度汎化ネットワーク(DAN))のサブネットワークから特 定の群衆を効果的に識別し、特徴強調層(Feature Enhancement Layer: FEL)によって各特徴マップ の強調率を学習する合理的な解決策を提供することを提案している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 29

30.

5. ベンチマークと分析 プロパティベースの評価 まとめ • ほとんどのネットワークはシングルカラムネットワークアーキテクチャに基づいており、複雑で肥大化した構造を持つマルチカ ラムアーキテクチャよりも、シンプルでありながら効果的である。 • Visual attention mechanism、拡張畳み込み、空間ピラミッドプーリング(SPP)の技術は、最終的な推定の性 能と密度マップの品質を大幅に向上させることができる。 • 遠近情報を組み込むことで、マルチスケール特徴の抽出のための追加のサポートとガイダンスを提供できる。 • 空間変換ネットワーク、変形畳み込みは、密集したノイズの多いシナリオでの群集理解問題により適している群集の回 転と均一分布に対処するのに役立つ。 • Pan-Density学習は大域的な特徴を最大限に活用できるだけでなく、偏った局所的な推定を補うことも可能。 • マルチパスウェイやマルチタスクのフレームワークを用いた場合には、共同損失関数を用いることで推定性能を向上させ、 学習を高速化することが可能である。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 30

31.

6. ディスカッション 群集カウントにおいて考慮すべき点 A) オクルージョン E)遠近の歪み B) 複雑な背景 F)回転 C) スケール変動 G)イルミネーションのバラエティ D) 不均等分布 H)天気の変化 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 31

32.

6. ディスカッション 群集カウントにおいて考慮すべき点 A)オクルージョン • 群集の密度が高くなると、群集は部分的にお互いを 覆い隠しているように見える。密度推定モデルが必 要となる。 B)複雑な背景 • 背景領域(人物インスタンスを持たない)には、紛 らわしいオブジェクトが含まれていたり、前景と類似し た外観や色をしていたりする。 • これはセマンティックセグメンテーションまたは、Visual attention mechanismにより抑制できる。 C)スケール変動 • カメラからの距離に応じて物体のスケールが変化するため、密度推定 モデルでは最も主要な問題。 • そのため、ほとんどすべての密度推定モデルは、第一段階でスケール 変動問題に対処するようにに設計される。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 32

33.

6. ディスカッション 群集カウントにおいて考慮すべき点 D)不均等分布 • 同じシーンでも局所領域の分布に一貫性がない状態。 • マルチレベル特徴によって生成された複数の密度マップを融合する マルチレベル畳み込みニューラルネットワーク(MLCNN)を提案する ことによって、この問題に取り組んでいる。 • この問題はPan-density crowd countingと見なすこともできる。 E)遠近の歪み • 遠近法の歪みは、カメラの6自由度(DOF)を推定するためのカ メラキャリブレーションに関連して、群集計数シーンでの人物スケー ルのばらつきに大きく影響する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 33

34.

6. ディスカッション 群集カウントにおいて考慮すべき点 F)回転 • 異なる姿勢や撮影角度のようなカメラ視点による回転 変動の問題が発生する。 • LSTMフレームワークへの空間変換ネットワーク(STN) の組込みを介して対処される。 G)イルミネーションのバリエーション。 • 明るさは1日の中でさまざまな時間帯に変化する。 H)天気の変化 • 晴天、雲、雨、霧、雷、曇り、晴れなど、さまざまな 気象条件が変化する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 34

35.

6. ディスカッション 課題 A) モデル設計 F)不変性、又は一般化 B) データセットの構築 G)軽量ネットワーク C) 密度マップの質 H)画像とビデオの組み合わせ D) ドメイン適応と転移学習 I)ワイドビューの群集の数 E) 背景に対するロバスト性 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 35

36.

6. ディスカッション A.モデル設計 グランドトゥルース密度マップの生成 • 高い信頼度のGround Truth 密度マップの生成は、訓練のためのデータ準備に不可欠。 損失関数 • ほとんどが回帰処理であり、通常、推定された密度マップとGround Truthとの差を測定するための損失関数として ユークリッド距離を採用している。 • しかし、外れ値や画像のぼやけに対する感度、局所的なコヒーレンスを無視した画素独立性の仮定、密度マップの 空間的な相関などの欠点がある。それに対して、SmoothL1損失やTukey損失が利用されている。 • また、密度マップの品質を向上させるために、敵対的損失が統合されている。 複数の手掛かりとの情報融合 • 複数の手掛かりの情報融合はアルゴリズムの性能を大幅に向上させることができる。 例:スケールアウェアとコンテキストアウェアの統合。疎なシナリオと密なシナリオのための異なる経路の組み合わせ。 ネットワークトポロジー • トレーニングの複雑さと必要なパラメータに影響を与える。 • 群集カウントタスクではエンコーダ-デコーダパイプラインが有望な性能を発揮する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 36

37.

6. ディスカッション B.データセットの構築 状況の多様性 マルチビュー • 公共の公園や駅での長蛇の列など、縦横状況が要件を満たすことができない状況がある。 例:単一視点では捕捉しきれないほどの広さのシーン、カメラから離れた場所(解像度が低い)、 群衆の大部分が大きな物体に遮られていたり、など。 • City street dataset は、交通量の多い交差点から収集されたもので、より複雑なオクルージョンパターンと大きな スケールの変化を持つ広い範囲の群衆を含んでいる。 アノテーションの精度 • 既存の密な群集カウントデータセットには欠点があり、UCF CC 50 や上海工大Part A のいくつかのサンプルでは、 アノテーションがあまり正確ではない。 • 異なる被験者によってアノテーションされたデータや、異なる基準に従ったデータにおいては避けられない問題である。 アノテーションツール • NWPU-Crowdを構築したアノテーションツールを紹介。 https://github.com/gjy3035/ NWPU-Crowd-Sample-Code Copyright (C) Present Square Co., Ltd. All Rights Reserved. 37

38.

6. ディスカッション C.密度マップの質 • 密度マップの品質は性能に影響を与える重要な要素。 (既存手法はカウント精度に注目。) • Sindagi は初めてこの問題に着目しより明確で高品 質な密度マップを得るために、ユークリッド損失と敵対 的損失(adversarial loss)を併用しながら大域 的なコンテキストを18の学習過程に組み込むことを提 案した。 • 密度マップの品質を、PSNRとSSIMの2軸で比較。 • 表から、SSIM Embedding CycleGANが最も悪い 性能を示していることがわかる。これは、合成データと 実世界のデータとの間の "ドメインギャップ "に起因す るものと思われる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 38

39.

6. ディスカッション D.ドメイン適応と転移学習 • 学習モデルを未見のシーン利用すると、予測不可能なド メインギャップのため、最適な結果が得られないことがある。 • NWPU-Crowdで学習させたモデルを上海パートA[1] で評価した結果が右表。 • 上海パートAで学習したモデルと比較して、平均MAEが 44.6%増加し、RMSEが47.0%増加するなど、明らか な性能低下が見られる。 • 性能低下の主な理由は、密度範囲や画像スタイルなど、多くのドメインギャップ/シフトが存在することにある。 • ドメインギャップを改善するためには、ドメイン適応の手法が有用。 • GANベースの手法がこの問題に重要な影響を与えている。 例:SSIM Embedding CycleGANは、従来のサイクルGANフレームワークに構造的類似度指数(SSIM) を組み込み、合成データと実世界のデータの間のドメインギャップを補うことで、ドメイン適応技術を利用。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 39

40.

6. ディスカッション E.背景に対するロバスト性 • ロバストなカウントモデルは、群集密度を正確に推定するだ けでなく、バックグラウンド領域のゼロ密度応答を生成する。 • モデルのロバスト性を評価するために、JHU-CROWD は 100個のDistractorを導入し、NWPU-Crowd は351個 のネガティブサンプルをそれぞれ独自のデータセットに導入。 • NWPU-CROWD では、カウントモデルを混乱させるために、 他のオブジェクトが密集しているシーンを意図的に収集。 • 右表は、 JHU-CROWDのDistractorとNWPUCrowd のNegative Sampleの推定誤差(MAE/RMSE)をリス トアップしたもの。 • 結果から、現在のモデルはこれらのサンプルの密度を誤って 推定していることがわかる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 40

41.

6. ディスカッション F.普遍性、又は一般化 • 既存の物体計数モデルのほぼ全ては特定のタスク用に設計されているが、どのようなクラスの物体にも適応できる普遍 的なモデルを作成することは有意義な課題であり、アルゴリズムのロバスト性や一般化能力を評価する上で最も効果的 な方法でもある。 • PPPD は、ドメイン固有のスケーリングと正規化レイヤのセットを利用することで、パッチベースのマルチドメインオブジェクト 計数ネットワークを提供しており、使用するパラメータは少数で済む。また、目に見えない観察されたドメインでも視覚的 なドメイン分類を実行するように拡張することができ、その汎用性とモジュール性が際立っている。この手法は、人間、ペ ンギン、細胞の計数などへの応用に成功している。 G.軽量ネットワーク • 現在のCNNベースのディープモデルは洗練された構造で設計されているが、それには 常に数百万のパラメータが必要であり、計算量(FLOPs)の大幅な増加というコス トがかかる。 • LCNN が最もパラメータ数が少ない。 (最もパラメータの多いモデルであるCPCNN よりも 1/2138) • 軽量化と精度のトレードオフが課題。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 41

42.

6. ディスカッション H.画像とビデオの組み合わせ • 時間的一貫性を利用して連続密度推定に弱い制約を課すアルゴリズムがいくつか提案されている。 • あるフレームから次のフレームまでの密度を推定するためにLSTMモデルが利用されている。 I.ワイドビューの群集の数 • 単視点画像での群集カウントは優れた性能が得られているものの、公園や地下鉄のホームなどの大きくて広いシー ンには単視点カメラでは十分な詳細情報を捉えることができないため適用できない。 • そのため,広域カウントの問題に対処するために,複数のカメラビューから情報を取得する試みが行われてきた. • カメラが固定されカメラパラメータが既知であることを前提としているが、カメラが移動しておりカメラパラメータが未知 である場合の横断シーンや多視点の計数モデルの設計は、今後の課題である。 J. 物体カウントを超えた局所化・分類・追跡 • 群集カウントのための密度推定CNNベースのモデルは正確なカウントは提供されるが、正確な位置や物体の正確 な大きさを示すものではないため、高レベルの理解、定位、分類、追跡などのさらなる研究や応用には、限界があ る可能性がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 42

43.

6. ディスカッション K. 小さな物体のカウント • 非常に混雑した群衆のシーンでは、人の頭のサイズは非常に小さい。 • リモートセンシング画像の中の連続した密集した建物、船、小型車両、その他数え切れないほどの物体の数をカウ ントすることも、他のアプリケーションの可能性として考えられる。 • リモートセンシングシーンでの物体計数と自然界のシーンでの物体カウント間での明らかな違いは、直立した視点で はなく俯瞰した視点のため、物体の向きが任意であることである。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 43

44.

7. まとめ まとめ • 本論文では、CNNベースの密度推定と群集計数モデルについて、ネットワークアーキテクチャ、学習パラダイムなどの観 点から調査を行った。 • 群集計数や他分野の代表的なデータを含む一般的なベンチマークデータセットと、様々な手法を評価するための評価 基準をまとめた。また、代表的なモデルの性能ベンチマーク評価も行った。 • これらの代表的な手法を包括的かつ徹底的に分析することで、上位3位までの論文を選出し、性能向上のために役立 つ属性や技術をまとめた。 また、群集計数の性能に影響を与えるいくつかの要因を調査した。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 44

45.

Appendix 参考文献 • • • • • • • • • • • • • [1] Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, “Single-image crowd counting via multi-column convolutional neural network,” in CVPR, 2016, pp. 589–597. [7] J. Liu, C. Gao, D. Meng, and A. G. Hauptmann, “Decidenet: Counting varying density crowds through attention guided detection and density estimation,” in CVPR, 2018, pp. 5197–5206. [12] Y. Li, X. Zhang, and D. Chen, “Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes,” in CVPR, 2018, pp. 1091–1100. [51] C. Zhang, H. Li, X. Wang, and X. Yang, “Cross-scene crowd counting via deep convolutional neural networks,” in CVPR, 2015, pp. 833–841. [71] L. Liu, H. Wang, G. L. andWanli Ouyang, and L. Lin, “Crowd counting using deep recurrent spatial-aware network,” in IJCAI, 2018, pp. 849–855. [79] Y. Tian, Y. Lei, J. Zhang, and J. Z. Wang, “Padnet: Pan-density crowd counting,” TIP, 2019. [80] X. Wu, Y. Zheng, H. Ye, W. Hu, J. Yang, and L. He, “Adaptive scenario discovery for crowd counting,” ICASSP, 2019. [83] N. Liu, Y. Long, C. Zou, Q. Niu, L. Pan, and H. Wu, “Adcrowdnet: An attention-injective deformable convolutional network for crowd understanding,” CVPR, 2019 [85] M. Shi, Z. Yang, C. Xu, and Q. Chen, “Revisiting perspective information for efficient crowd counting,” CVPR, 2019. [86] ] W. Liu, M. Salzmann, and P. Fua, “Context-aware crowd counting,” CVPR, 2019. [89] L. Zhu, Z. Zhao, C. Lu, Y. Lin, Y. Peng, and T. Yao, “Dual path multi-scale fusion networks with attention for crowd counting,” arXiv preprint arXiv:1902.01115, 2019. [105] M. Jaderberg, K. Simonyan, A. Zisserman et al., “Spatial transformer networks,” in NIPS, 2015, pp. 2017–2025. [172] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei, “Deformable convolutional networks,” in ICCV, 2017, pp. 764–773. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 45