【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model

660 Views

April 27, 22

#@deep learning jp #Deep Learning #Trajectory Prediction #Latent Belief Energy-Based Model #Japanese Presentation #LB-EBM

スライド概要

2022/04/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP Trajectory Prediction with Latent Belief Energy-Based Model [DL Papers] (CVPR 2021) Takeru Oba, Ukita Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル：Trajectory Prediction with Latent Belief Energy-Based Model 著者：B Pang, T Zhao, X Xie, YN Wu Department of Statistics, University of California, Los Angeles (UCLA) 会議：CVPR 2021 関連技術：軌跡予測、エネルギーモデル 2

概要問題入力：N人の位置の軌跡(𝑿) 出力：𝑡𝑝𝑟𝑒𝑑 先までの位置の予測(𝒀) 論文の新規性・重要な技術 • 周囲の人の位置や過去の軌跡や目的など様々な要素からなる人の潜在意思を低次元な潜在変数(𝒁)で表現し、その分布をエネルギーモデル(LB-EBM: Latent Belief Energy-Based Model)で学習する • 潜在変数からいきなりすべてのフレームの位置を予測するのではなく、まずは粗い軌跡を予測する（Plan) 周囲の人の位置などを考慮して軌跡を予測（注: 画像は使わない） 3

関連技術（エネルギーベースモデル） VAEやGANと比較したときのエネルギーモデルの良さ VAE, GAN 事前に決めた分布から得た潜在変数から対象データへの写像をモデルが学習そのため真の分布に基づいたサンプリングが難しい潜在変数 Z X ガウス分布エネルギーベースモデル(EBM) モデルで分布を表現（学習）するためニューラルネットワークを使えば任意の分布を表現できる生成器そのデータの生成確率のような値 X EBM score 0.33 4

提案手法の全体像提案手法は3つのモデルを利用して、未来の軌跡の尤度を計算する自分と周りの人間の過去の軌跡(𝑿)から人の潜在変数(𝒁)を予測過去の軌跡(𝑿)と粗い軌跡(𝑷)から 𝑡𝑝𝑟𝑒𝑑 フレーム先までの位置の予測過去の軌跡(𝑿)と潜在変数(𝒁)から未来の粗い軌跡(𝑷)を予測 5

提案手法 (LB-EBM) LB-EBMの目的：過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法：潜在変数(𝒁)のGTがあると仮定して以下の式を最大化する自分を含む周囲の人の過去の軌跡から抽出した特徴量人のインデックスそれぞれの人の低次元な潜在変数 6

提案手法 (LB-EBM) LB-EBMの目的：過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法：潜在変数(𝒁)のGTがあると仮定して以下の式を最大化するスコアを出力するMLP 値が低いほど確率は高くなる近傍の人間のみでself-Attention による特徴量の計算確率の合計が1になるような正規化項ガウス分布などの制約項 7

提案手法 (LB-EBM) LB-EBMの目的：過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法：正規化項は潜在変数(𝒁)の分布で積分する必要しかし、積分は計算コストが高いため MCMCによりエネルギーモデルからサンプリングしたデータで計算する実際にはLangevin Monte Carloという以下の方法でサンプリングするステップサイズ（ハイパラ）確率が高い方向に向かう勾配ガウシアンノイズ 8

提案手法 (LB-EBM) LB-EBMの目的：過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMの学習方法：潜在変数(𝒁)はVAEのようにエンコーダーから得る最終的にLB-EBMは以下の式を最大化するエンコーダーから得られた𝒁の分布と事前分布を近づける ∇𝛼 log 𝑍𝛼 ≅ −E𝑧~𝑝𝛼(𝑋) [∇𝛼 𝐶𝛼 (𝒁, 𝑿)] エンコーダーから得られた𝒁のスコアを小さくする（確率を上げる）エネルギーモデルからサンプリングした𝒁のスコアを大きくする（確率を下げる） 9

10.

提案手法 (LB-EBM) LB-EBMの目的：過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習 LB-EBMとVAEの違い（考察）： 1. EBMで潜在変数ではなく軌跡のスコアを直接学習できるが、EBMは高次元になるほど学習が難しいため、VAEのように低次元化している（これは論文中に書かれている） 2. 潜在変数はEnd2Endで学習されるが、学習時に分布が変化し続けると学習が安定しないため、VAEのように分布に制約をかけている 3. 学習の安定性と分布の表現力はトレードオフになっており、分布の制約項に対するハイパーパラメータで管理する？ 10

11.

提案手法の全体像提案手法は3つのモデルを利用して、未来の軌跡の尤度を計算する自分と周りの人間の過去の軌跡(𝑿)から人の潜在変数(𝒁)を予測過去の軌跡(𝑿)と粗い軌跡(𝑷)から 𝑡_𝑝𝑟𝑒𝑑フレーム先までの位置の予測過去の軌跡(𝑿)と潜在変数(𝒁)から未来の粗い軌跡(𝑷)を予測 11

12.

提案手法 (Plan) Planの目的：潜在変数(𝒁)から粗い軌跡(𝑷)を予測する粗い軌跡(𝑷)は未来の軌跡(𝒀)から一定間隔(3フレーム）ごとに値を取り出して生成する学習は以下の尤度を最大化学習時にはエンコーダーから得られた𝒁 テスト時にはLB-EBMからサンプリングした𝒁 これはガウス分布であり MLPが平均と分散を出力する 12

13.

提案手法の全体像提案手法は3つのモデルを利用して、未来の軌跡の尤度を計算する自分と周りの人間の過去の軌跡(𝑿)から人の潜在変数(𝒁)を予測過去の軌跡(𝑿)と粗い軌跡(𝑷)から 𝑡𝑝𝑟𝑒𝑑 フレーム先までの位置の予測過去の軌跡(𝑿)と潜在変数(𝒁)から未来の粗い軌跡(𝑷)を予測 13

14.

提案手法 (Prediction) Predictionの目的：粗い軌跡(𝑷)から𝑡𝑝𝑟𝑒𝑑 フレーム先までの位置を予測する学習は以下の尤度を最大化 Planと同様ガウス分布であり MLPが平均と分散を出力する 14

15.

提案手法（全体像）最終的な目的関数以下の式を最大化する Plan Predict LB-EBM 15

16.

提案手法（全体像）軌跡全体を予測粗い軌跡を予測潜在変数の分布を EBMで学習学習時に潜在変数を生成 16

17.

評価指標軌跡予測を二つの指標(ADE,FDE)で評価 Average Displacement Error (ADE)・・・全フレームでの予測誤差の平均 Final Displacement Error (FDE)・・・最終フレームでの予測誤差の平均確率的なモデルなので出力が複数あるそのため20回サンプリングして一番結果が良いもので評価 17

18.

実験結果 (Stanford Drone Dataset) データの例 ADE,FDE共に高精度 18

19.

実験結果 (Stanford Drone Dataset) 白丸：過去の軌跡青丸：GT 赤丸：予測結果 1段目： GTに近いサンプル 2段目： 20サンプルの描写 19

20.

実験結果 (Stanford Drone Dataset) 他の人との相互作用があるデータでの結果ぶつからないような軌跡を予測白丸：過去の軌跡青丸：GT 赤丸：予測結果 20

21.

実験結果 (ETH-UCY) 表の見方: 平均誤差(ADE) / 最終誤差(FDE) データの例 GANやVAE, IRLなどの比較手法と比べて精度向上を確認 21

22.

実験結果 (Ablation) Coarse Coarse toto Fine Fine(Plan)なしなし EBMの代わりにガウス分布を使用 (VAE?) 他の人の軌跡なし提案手法結果 • 潜在変数の分布をEBMで表現したことで精度向上を確認 • Planがないと精度が大きく落ちる – Coarse to Fineや階層型の予測が大事 – これはモデルが自己回帰モデルでなかったことも影響してそう 22

23.

まとめ • 人の潜在変数をエネルギーモデルで表現することで精度の向上を確認 • エネルギーモデルで軌跡の確率を学習するのではなく、低次元な潜在変数を学習することで、学習を簡単にしている • End to Endで潜在変数を学習するためにVAEのような学習方法を提案 • 粗い軌跡を先に予測することでより精度を向上させた 23