[DL輪読会]Rules of the Road: Predicting Driving Behavior with a Convolutional Model of Semantic Interactions

>100 Views

September 04, 20

スライド概要

2020/09/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Rules of the Road: Predicting Driving Behavior with a Convolutional Model of Semantic Interactions Makoto Kawano (Matsuo Lab.)

2.

書誌情報 Rules of the Road: Predicting Driving Behavior with a Convolutional Model of Semantic Interactions ● Joey Hong, Benjamin Sapp, James Philbin ● Zoox ● arXiv:2019/6/21 ● CVPR2019に採択 ● 被引用件数:35 2

3.

デモ

4.

Notation Entity Rep. Dynamic Context ● 時刻tにおける動的に変化する情報 ▸ ● 物体iの時刻tの位置x/速度v/加速度a ● 不確実性:共分散行列のL2ノルム ● 物体iとそれ以外(-i)が対象 物体のbboxや信号機の点滅など Road network Rep. ● 道路の情報を各色で表現した画像 ▸ レーンや交差点など 4

5.

タスクの定式化 問題設定 ● ● 時刻tにおいて, 前までの状態 が得られている時: 後までの位置を推定する: 理想な物体の将来の状態予測1,2 ● 分布P(Y|X)で示す:不確実性を考慮(≠点推定) ● マルチモーダル:いろんなアクションを考慮 ● One-shot:効率性(≠再帰) 1 2 S. Casas, W. Luo, and R. Urtasun. Intentnet: Learning to predict intention from raw sensor data. In CoRL, 2018. N. Rhinehart, K. M. Kitani, and P. Vernaza. R2p2: A reparameterized pushforward policy for diverse, precise generative path forecasting. ECCV, 2018. 5

6.

パラメトリックアプローチ 最尤推定 ● x, yは(2変量)ガウス分布に従うと仮定 ▸ 平均μ,分散s,共分散ρ 複数の軌跡を考慮:K個の混合ガウス ● Exchangeability:i番目のガウス分布とwiが固定されてしまう ● Mode collapse:複数のガウス分布が単一になってしまう 6

7.

潜在変数の導入と周辺化 Exchangeabilityの問題を解決 ● z:小さなK次元にすることでmode collapseを解消 ● p(z|x):カテゴリカル分布→Gumbel-softmaxを利用 ▸ 再パラメータ化トリックで学習可能 7

8.

ノンパラメトリックアプローチ Occupancy grid maps ● 各セルに状態確率が割り当てられた各時刻ごとのマップ ▸ SLAMとかでよく使われている ● 扱いにくいが,非楕円の不確実性と任意の数の峰を捉えられる ● 各セルに離散分布(=ベルヌーイ分布)と仮定 ▸ ● いる/いないの2種類の状態 学習では,各セルの同時分布で計算 8

9.

Occupancy Grid Map 多様な軌跡のサンプリング ● 時刻tにいる状態を ● ある軌跡ξにおけるpairwise-structured score ● ただし,φは連続した状態を引数にとる任意のスコア関数 ▸ とすると,軌跡は となる v(ξt):等速運動下でのtからt+1への遷移しうる状態:事前分布にガウスを設定したのと同じ 9

10.

Occupancy Grid Mapの最適化 サンプリングする軌跡の数に依存 ● 単一の最適な軌跡を見つける場合1 ▸ ● k種類の軌跡を見つける場合2 ▸ 1 2 Max-Sum message passing dynamic programmingで解く s(ξ)を解いて,制約を遵守するように地図をマスクしていく P. F. Felzenszwalb and D. P. Huttenlocher. Pictorial structures for object recognition. IJCV, 61(1):55–79, 2005. D. Park and D. Ramanan. N-best maximal decoders for part models. ICCV, 2011. 10

11.

モデルアーキテクチャ Encoder ● 各時刻tのデータをVGG16で畳み込み ▸ ● Decoder ● One-shotで予測する Separable 2D畳み込み+BN ▸ FCx2:全ての分布パラメータを予測 途中と終わりで3D畳み込み ▸ ConvTrans:チャンネル=系列長 ▸ 3x3x3と4x3x3 11

12.

モデルアーキテクチャ Encoder ● 各時刻tのデータをVGG16で畳み込み ▸ ● Decoder Separable 2D畳み込み+BN 途中と終わりで3D畳み込み ▸ ● 再帰的に予測する ▸ ● GRU(512)で予測する CoordConv(赤色)も利用 3x3x3と4x3x3 12

13.

実験 データについて ● 2018/6-7,サンフランシスコで撮影 ● SOTAのperception/localizationを利用して上からのBBoxを推定 ▸ ● ● 速度や加速度なども同様に計算 173時間(625万フレーム)以上 ▸ 1シークエンス:重複なし7.5秒 ▸ 72878/10473 交差点と曲がっている道路, ▸ 交差点数79/9 ▸ 各交差点につき5000シークエンス 13

14.

実験結果:定量評価とAblation Study 14

15.

実験結果:単峰ガウス分布とGMM-CVAEの比較 単峰/多峰のどちらでも予測が可能 ● 楕円:不確実性を表現 ● シアン:予測(top1),ピンク:正解 不確実性:右折時>直進時 異なるレーン変更 15

16.

実験結果:単峰ガウス分布へのデータ追加 改善 16

17.

実験結果:Occupancy Grid Mapの可視化

18.

実験結果:Occupancy Grid Mapの可視化 失敗例 18

19.

実験結果:手法比較 19

20.

まとめ 自車の環境を考慮した行動予測 ● ● 手に入る情報全てを画像に変換して入力 ▸ 自車/他車の移動に関する情報 ▸ 地図情報,信号などの情報 encoder-decoderのアーキテクチャ ▸ デコーダ側はRNN系の方が良い 20