【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model

>100 Views

April 27, 22

スライド概要

2022/04/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Trajectory Prediction with Latent Belief Energy-Based Model [DL Papers] (CVPR 2021) Takeru Oba, Ukita Lab http://deeplearning.jp/ 1

2.

書誌情報 タイトル:Trajectory Prediction with Latent Belief Energy-Based Model 著者:B Pang, T Zhao, X Xie, YN Wu Department of Statistics, University of California, Los Angeles (UCLA) 会議:CVPR 2021 関連技術:軌跡予測、エネルギーモデル 2

3.

概要 問題 入力:N人の位置の軌跡(𝑿) 出力:𝑡𝑝𝑟𝑒𝑑 先までの位置の予測(𝒀) 論文の新規性・重要な技術 • 周囲の人の位置や過去の軌跡や目的など 様々な要素からなる人の潜在意思を低次 元な潜在変数(𝒁)で表現し、その分布を エネルギーモデル(LB-EBM: Latent Belief Energy-Based Model)で学習する • 潜在変数からいきなりすべてのフレーム の位置を予測するのではなく、まずは粗 い軌跡を予測する(Plan) 周囲の人の位置などを 考慮して軌跡を予測 (注: 画像は使わない) 3

4.

関連技術(エネルギーベースモデル) VAEやGANと比較したときのエネルギーモデルの良さ VAE, GAN 事前に決めた分布から得た 潜在変数から対象データへの写像を モデルが学習 そのため真の分布に基づいた サンプリングが難しい 潜在変数 Z X ガウス分布 エネルギーベースモデル(EBM) モデルで分布を表現(学習)するため ニューラルネットワークを使えば 任意の分布を表現できる 生成器 そのデータの生成確率 のような値 X EBM score 0.33 4

5.

提案手法の全体像 提案手法は3つのモデルを利用して、未来の軌跡の尤度を計算する 自分と周りの人間の過去の軌跡(𝑿)から 人の潜在変数(𝒁)を予測 過去の軌跡(𝑿)と粗い軌跡(𝑷)から 𝑡𝑝𝑟𝑒𝑑 フレーム先までの位置の予測 過去の軌跡(𝑿)と潜在変数(𝒁)から 未来の粗い軌跡(𝑷)を予測 5

6.

提案手法 (LB-EBM) LB-EBMの目的: 過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法: 潜在変数(𝒁)のGTがあると仮定して以下の式を最大化する 自分を含む周囲の人の過去の軌跡から 抽出した特徴量 人のインデックス それぞれの人の低次元な潜在変数 6

7.

提案手法 (LB-EBM) LB-EBMの目的: 過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法: 潜在変数(𝒁)のGTがあると仮定して以下の式を最大化する スコアを出力するMLP 値が低いほど確率は高くなる 近傍の人間のみでself-Attention による特徴量の計算 確率の合計が1に なるような正規化項 ガウス分布などの制約項 7

8.

提案手法 (LB-EBM) LB-EBMの目的: 過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法: 正規化項は潜在変数(𝒁)の分布で積分する必要 しかし、積分は計算コストが高いため MCMCによりエネルギーモデルからサンプリングしたデータで計算する 実際にはLangevin Monte Carloという以下の方法でサンプリングする ステップサイズ (ハイパラ) 確率が高い方向に向かう勾配 ガウシアンノイズ 8

9.

提案手法 (LB-EBM) LB-EBMの目的: 過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法: 潜在変数(𝒁)はVAEのようにエンコーダーから得る 最終的にLB-EBMは以下の式を最大化する エンコーダーから得られた𝒁の分布と 事前分布を近づける ∇𝛼 log 𝑍𝛼 ≅ −E𝑧~𝑝𝛼(𝑋) [∇𝛼 𝐶𝛼 (𝒁, 𝑿)] エンコーダーから得られた𝒁の スコアを小さくする(確率を上げる) エネルギーモデルからサンプリングした𝒁の スコアを大きくする(確率を下げる) 9

10.

提案手法 (LB-EBM) LB-EBMの目的: 過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMとVAEの違い(考察): 1. EBMで潜在変数ではなく軌跡のスコアを直接学習できるが、EBMは 高次元になるほど学習が難しいため、VAEのように低次元化している (これは論文中に書かれている) 2. 潜在変数はEnd2Endで学習されるが、学習時に分布が変化し続けると 学習が安定しないため、VAEのように分布に制約をかけている 3. 学習の安定性と分布の表現力はトレードオフになっており、分布の制 約項に対するハイパーパラメータで管理する? 10

11.

提案手法の全体像 提案手法は3つのモデルを利用して、未来の軌跡の尤度を計算する 自分と周りの人間の過去の軌跡(𝑿)から 人の潜在変数(𝒁)を予測 過去の軌跡(𝑿)と粗い軌跡(𝑷)から 𝑡_𝑝𝑟𝑒𝑑フレーム先までの位置の予測 過去の軌跡(𝑿)と潜在変数(𝒁)から 未来の粗い軌跡(𝑷)を予測 11

12.

提案手法 (Plan) Planの目的: 潜在変数(𝒁)から粗い軌跡(𝑷)を予測する 粗い軌跡(𝑷)は未来の軌跡(𝒀)から一定間隔(3フレーム)ごとに値を取り 出して生成する 学習は以下の尤度を最大化 学習時にはエンコーダーから得られた𝒁 テスト時にはLB-EBMからサンプリングした𝒁 これはガウス分布であり MLPが平均と分散を出力する 12

13.

提案手法の全体像 提案手法は3つのモデルを利用して、未来の軌跡の尤度を計算する 自分と周りの人間の過去の軌跡(𝑿)から 人の潜在変数(𝒁)を予測 過去の軌跡(𝑿)と粗い軌跡(𝑷)から 𝑡𝑝𝑟𝑒𝑑 フレーム先までの位置の予測 過去の軌跡(𝑿)と潜在変数(𝒁)から 未来の粗い軌跡(𝑷)を予測 13

14.

提案手法 (Prediction) Predictionの目的: 粗い軌跡(𝑷)から𝑡𝑝𝑟𝑒𝑑 フレーム先までの位置を予測する 学習は以下の尤度を最大化 Planと同様ガウス分布であり MLPが平均と分散を出力する 14

15.

提案手法(全体像) 最終的な目的関数 以下の式を最大化する Plan Predict LB-EBM 15

16.

提案手法(全体像) 軌跡全体を 予測 粗い軌跡を予測 潜在変数の分布を EBMで学習 学習時に 潜在変数を生成 16

17.

評価指標 軌跡予測を二つの指標(ADE,FDE)で評価 Average Displacement Error (ADE)・・・全フレームでの予測誤差の平均 Final Displacement Error (FDE)・・・最終フレームでの予測誤差の平均 確率的なモデルなので出力が複数ある そのため20回サンプリングして一番結果が良いもので評価 17

18.

実験結果 (Stanford Drone Dataset) データの例 ADE,FDE共に高精度 18

19.

実験結果 (Stanford Drone Dataset) 白丸:過去の軌跡 青丸:GT 赤丸:予測結果 1段目: GTに近いサンプル 2段目: 20サンプルの描写 19

20.

実験結果 (Stanford Drone Dataset) 他の人との相互作用があるデータでの結果 ぶつからないような軌跡を予測 白丸:過去の軌跡 青丸:GT 赤丸:予測結果 20

21.

実験結果 (ETH-UCY) 表の見方: 平均誤差(ADE) / 最終誤差(FDE) データの例 GANやVAE, IRLなどの比較手法と比べて精度向上を確認 21

22.

実験結果 (Ablation) Coarse Coarse toto Fine Fine(Plan)なし なし EBMの代わりに ガウス分布を使用 (VAE?) 他の人の軌跡 なし 提案手法 結果 • 潜在変数の分布をEBMで表現したことで精度向上を確認 • Planがないと精度が大きく落ちる – Coarse to Fineや階層型の予測が大事 – これはモデルが自己回帰モデルでなかったことも影響してそう 22

23.

まとめ • 人の潜在変数をエネルギーモデルで表現することで精度の向上を確認 • エネルギーモデルで軌跡の確率を学習するのではなく、低次元な潜在 変数を学習することで、学習を簡単にしている • End to Endで潜在変数を学習するためにVAEのような学習方法を提案 • 粗い軌跡を先に予測することでより精度を向上させた 23