[DL輪読会]Rules of the Road: Predicting Driving Behavior with a Convolutional Model of Semantic Interactions

136 Views

September 04, 20

#deep learning #Driving Behavior #Convolutional Model #Semantic Interactions #Predictive Coding #Machine Learning

スライド概要

2020/09/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

Rules of the Road: Predicting Driving Behavior with a Convolutional Model of Semantic Interactions Makoto Kawano (Matsuo Lab.)

書誌情報 Rules of the Road: Predicting Driving Behavior with a Convolutional Model of Semantic Interactions ● Joey Hong, Benjamin Sapp, James Philbin ● Zoox ● arXiv：2019/6/21 ● CVPR2019に採択 ● 被引用件数：35 2

デモ

Notation Entity Rep. Dynamic Context ● 時刻tにおける動的に変化する情報 ▸ ● 物体iの時刻tの位置x/速度v/加速度a ● 不確実性：共分散行列のL2ノルム ● 物体iとそれ以外(-i)が対象物体のbboxや信号機の点滅など Road network Rep. ● 道路の情報を各色で表現した画像 ▸ レーンや交差点など 4

タスクの定式化問題設定 ● ● 時刻tにおいて，前までの状態が得られている時：後までの位置を推定する：理想な物体の将来の状態予測1,2 ● 分布P(Y|X)で示す：不確実性を考慮（≠点推定） ● マルチモーダル：いろんなアクションを考慮 ● One-shot：効率性（≠再帰） 1 2 S. Casas, W. Luo, and R. Urtasun. Intentnet: Learning to predict intention from raw sensor data. In CoRL, 2018. N. Rhinehart, K. M. Kitani, and P. Vernaza. R2p2: A reparameterized pushforward policy for diverse, precise generative path forecasting. ECCV, 2018. 5

パラメトリックアプローチ最尤推定 ● x, yは(2変量)ガウス分布に従うと仮定 ▸ 平均μ，分散s，共分散ρ 複数の軌跡を考慮：K個の混合ガウス ● Exchangeability：i番目のガウス分布とwiが固定されてしまう ● Mode collapse：複数のガウス分布が単一になってしまう 6

潜在変数の導入と周辺化 Exchangeabilityの問題を解決 ● z：小さなK次元にすることでmode collapseを解消 ● p(z|x)：カテゴリカル分布→Gumbel-softmaxを利用 ▸ 再パラメータ化トリックで学習可能 7

ノンパラメトリックアプローチ Occupancy grid maps ● 各セルに状態確率が割り当てられた各時刻ごとのマップ ▸ SLAMとかでよく使われている ● 扱いにくいが，非楕円の不確実性と任意の数の峰を捉えられる ● 各セルに離散分布(=ベルヌーイ分布)と仮定 ▸ ● いる/いないの2種類の状態学習では，各セルの同時分布で計算 8

Occupancy Grid Map 多様な軌跡のサンプリング ● 時刻tにいる状態を ● ある軌跡ξにおけるpairwise-structured score ● ただし，φは連続した状態を引数にとる任意のスコア関数 ▸ とすると，軌跡はとなる v(ξt)：等速運動下でのtからt+1への遷移しうる状態：事前分布にガウスを設定したのと同じ 9

10.

Occupancy Grid Mapの最適化サンプリングする軌跡の数に依存 ● 単一の最適な軌跡を見つける場合1 ▸ ● k種類の軌跡を見つける場合2 ▸ 1 2 Max-Sum message passing dynamic programmingで解く s(ξ)を解いて，制約を遵守するように地図をマスクしていく P. F. Felzenszwalb and D. P. Huttenlocher. Pictorial structures for object recognition. IJCV, 61(1):55–79, 2005. D. Park and D. Ramanan. N-best maximal decoders for part models. ICCV, 2011. 10

11.

モデルアーキテクチャ Encoder ● 各時刻tのデータをVGG16で畳み込み ▸ ● Decoder ● One-shotで予測する Separable 2D畳み込み+BN ▸ FCx2：全ての分布パラメータを予測途中と終わりで3D畳み込み ▸ ConvTrans：チャンネル＝系列長 ▸ 3x3x3と4x3x3 11

12.

モデルアーキテクチャ Encoder ● 各時刻tのデータをVGG16で畳み込み ▸ ● Decoder Separable 2D畳み込み+BN 途中と終わりで3D畳み込み ▸ ● 再帰的に予測する ▸ ● GRU(512)で予測する CoordConv(赤色)も利用 3x3x3と4x3x3 12

13.

実験データについて ● 2018/6-7，サンフランシスコで撮影 ● SOTAのperception/localizationを利用して上からのBBoxを推定 ▸ ● ● 速度や加速度なども同様に計算 173時間(625万フレーム)以上 ▸ 1シークエンス：重複なし7.5秒 ▸ 72878/10473 交差点と曲がっている道路， ▸ 交差点数79/9 ▸ 各交差点につき5000シークエンス 13

14.

実験結果：定量評価とAblation Study 14

15.

実験結果：単峰ガウス分布とGMM-CVAEの比較単峰/多峰のどちらでも予測が可能 ● 楕円：不確実性を表現 ● シアン：予測(top1)，ピンク：正解不確実性：右折時＞直進時異なるレーン変更 15

16.

実験結果：単峰ガウス分布へのデータ追加改善 16

17.

実験結果：Occupancy Grid Mapの可視化

18.

実験結果：Occupancy Grid Mapの可視化失敗例 18

19.

実験結果：手法比較 19

20.

まとめ自車の環境を考慮した行動予測 ● ● 手に入る情報全てを画像に変換して入力 ▸ 自車/他車の移動に関する情報 ▸ 地図情報，信号などの情報 encoder-decoderのアーキテクチャ ▸ デコーダ側はRNN系の方が良い 20