Stein変分勾配降下法を用いた多峰性行動分布に対するモデル予測経路積分制御

21.7K Views

March 07, 24

#MPPI #経路積分制御 #Stein Variational Gradient Descent #多峰性最適化 #ロボット制御

スライド概要

第29回ロボティクスシンポジア発表スライド (2024/03/05)

kohonda

@9107484187

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

確率推論としての最適制御

kohonda 41.5K

Survey of Riemannian Motion Policies

kohonda 5.4K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

Stein変分勾配降下法を用いた多峰性行動分布に対するモデル予測経路積分制御本田康平*，赤井直樹，鈴木康介，青木瑞穂，細萱広高，奥田裕之，鈴木達也 (名古屋大学) F1Tenth: 1/10 Scale Autonomous Racing @ICRA’23 1

Robotics needs gradient-free motion planner 非線形なロボットのダイナミクス Off-road exploration Racing car Manipulator 勾配ベースMPC (局所) 最適性の確保 (≒解が良質) 最適化問題の微分情報が必要非線形性の扱いが難しい微分不可能な (コスト) マップ Navigation 2 サンプルベースMPC vs 最適性微分不可能・非線形でもOK 並列化計算が容易最適性を担保可能な (≒解の良質な) サンプルベースMPCが求められる 2

「古典的な」サンプルベースMPC Random shooting method 1. ランダムサンプリング 2. ベストスコアサンプルを採用 ▲ サンプル効率 Dynamic Window Approach (DWA) 1. 平滑化された候補解をサンプル 2. ベストスコアサンプルを採用 ▲最適性サンプルベースMPCの最適性・サンプル効率を向上するためには？ 3

Model Predictive Path Integral control [1] (MPPI) 経路積分制御&情報論的なアプローチのサンプルベースMPC  高いサンプル効率 & 滑らかな解 (最適性)  制御入力ノイズを確率的に考慮可能 Random Shooting MPPI DWA [1] G. Williams+, Information Theoretic Model Predictive Control: Theory and Applications to Autonomous Driving, 2018. 4

MPPI = 変分推論による最適行動分布近似 ➀ 制御入力系列を多変量ガウス分布によって近似予測ホライズン 𝑇𝑇 ③ 平均値系列を最適入力系列として印加 ➁ 最適制御問題から最適な行動分布を導出 𝑇𝑇 ∗ 𝑞𝑞 = 𝜂𝜂 𝑞𝑞 = � 𝒩𝒩(𝑈𝑈, Σ) −1 𝑐𝑐 𝑉𝑉 exp − 𝜆𝜆 𝑞𝑞 𝑈𝑈 ∗ KLダイバージェンス最小化特長 : KLダイバージェンスを閉経式で最小化する (≒解析解が反復計算無しに求まる) 最適解: 𝑈𝑈 ∗ = argmin 𝔻𝔻KL (𝑞𝑞∗ ‖ 𝑞𝑞) 𝑈𝑈 = 𝔼𝔼𝑉𝑉~𝑞𝑞 コスト関数 𝑐𝑐 𝑉𝑉 softmax − 𝜆𝜆 温度パラメータ 𝑉𝑉 ←重み付き平均を1回計算 (モンテカルロ法) 5

MPPIの課題 : 多峰性な最適分布への対応衝突軌道が最適解として求まる確率密度最適行動分布最適解推定ガウス分布ランダムサンプル共分散行列制御入力ベクトル Why? KLダイバージェンス最小 = 確率分布の重なり度を最大化 → 複数のモードに覆いかぶさるようなガウス分布が推定される 6

MPPIの課題 : 多峰性な最適分布への対応衝突軌道が最適解として求まる最適行動分布最適解確率密度推定ガウス分布ランダムサンプル共分散行列制御入力ベクトル Why? KLダイバージェンス最小 = 確率分布の重なり度を最大化 → 複数のモードに覆いかぶさるようなガウス分布が推定される研究目的: 推定ガウス分布が単一モードのみを覆うようにMPPIを改良する 7

関連研究 1. 非ガウス分布を提案分布に用いる (e.g. 混合ガウス分布 (GMM) [2-5]) 変分推論によって最適分布を近似 Mirror descent algorithm [2, 3] SVGD algorithm[4, 5] 多峰性を捉えることが可能閉形式解は求まらない (収束性悪化) 単一解をどのように絞り込む？ 2. KLダイバージェンスの非対称性を利用してモード探索解を推定 [5, 6] Reverse KLダイバージェンスを最小化単一モードを推定可能 (mode-seek) 閉形式解は求まらない 𝑞𝑞Forward = argmin 𝔻𝔻KL (𝒒𝒒∗ ‖ 𝒒𝒒) Forward (MPPI) 𝑞𝑞 𝑞𝑞 ∗ 𝑞𝑞Reverse = argmin 𝔻𝔻KL (𝒒𝒒‖ 𝒒𝒒∗ ) 𝑞𝑞 Reverse 課題: 閉形式性を維持しつつReverse KLダイバージェンスを最小化するには？ [2] M. Okada+, Variational inference MPC for Bayesian model-based reinforcement learning, 2020. [3] Z. Wang+, Variational inference MPC using tsallis divergence, 2021. [4] L. Barcelos+, Dual online Stein variational inference for control and dynamics, 2021. [5] A. Lambert+, Stein variational model predictive control, 2021. [6] T. Kobayashi+, Real-time Sampling-based Model Predictive Control based on Reverse Kullback-Leibler Divergence and Its Adaptive Acceleration, 2022. 8

Stein Variational Guided MPPI (SVG-MPPI): Reverse KL-Dを利用してMPPIの解を誘導ターゲットモード推定 Reverse KL-Dの最小化によってターゲットモードを探索ターゲットモード Forward KL-Dの最小化によって最適解を探索 Probability density 最適行動分布最適解推定ガウス分布ノミナル系列輸送 Gaussian fitting ガイド粒子 Control input Stein Variational Gradient Descent (SVGD) 適応的共分散行列  Reverse KLダイバージェンスによって解をmode-seekに誘導  Forward KLダイバージェンスによって最適解は高速に収束 MPPI アルゴリズム Reverse KL-Dの最小化には反復計算が必要 9

10.

(Step 1) SVGDによるRKL-Dの最小化少量のガイド粒子を散布し，SVGD法[7]により輸送する ※ サンプル全体を輸送しないため計算量が抑えられる SVGD method ガイド粒子輸送式: Probability density 最適行動分布 Reverse KLD 最小化 = 単一モードへ集まる輸送 Reverse KLダイバージェンス 𝑔𝑔 𝑔𝑔 𝑉𝑉�𝑘𝑘 ← 𝑉𝑉𝑘𝑘 − 𝜖𝜖 𝛁𝛁𝑽𝑽𝒈𝒈 𝔻𝔻𝐊𝐊𝐊𝐊 𝒒𝒒 ‖𝒒𝒒∗ 輸送軌跡 𝒌𝒌 イエンセンの不等式 & 方策勾配定理 ≈− ガイド粒子 Control input (iterative update) 𝔼𝔼𝑉𝑉~𝑞𝑞 Softmax −𝑐𝑐(𝑉𝑉)/𝜆𝜆 ∇𝑉𝑉 log 𝑞𝑞 𝔼𝔼𝑉𝑉~𝑞𝑞 Softmax −𝑐𝑐(𝑉𝑉)/𝜆𝜆 輸送軌跡はピークへと続く軌跡 = 輸送軌跡を用いて最適分布のモードの位置と形状の推定をするアイデア [7] Q. Liu+, Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm, 2016. 10

11.

(Step 2) ターゲットモードの位置・形状推定輸送軌跡を用いてターゲットモードの位置と形状を推定するターゲットモード頂点: ベストスコアのガイド粒子輸送軌跡 Gaussian fitting 共分散行列: Gaussian fitting [7]で高速&ラフに推定 𝜎𝜎𝜏𝜏𝑖𝑖 = by SVGD method −1/2𝑧𝑧2 where 共分散行列推定 [7] H. Guo, A simple algorithm for fitting a gaussian function, 2011. ∑𝐛𝐛2 ∑𝐚𝐚𝐛𝐛2 ∑𝐚𝐚2 𝐛𝐛2 ∑𝐚𝐚𝐛𝐛2 ∑𝐚𝐚2 𝐛𝐛2 ∑𝐚𝐚3 𝐛𝐛2 ∑𝐚𝐚2 𝐛𝐛2 ∑𝐚𝐚3 𝐛𝐛2 ∑𝐚𝐚4 𝐛𝐛2 ∑𝐛𝐛2 log𝐛𝐛 𝑧𝑧0 𝑧𝑧1 = ∑𝐚𝐚𝐛𝐛2 log𝐛𝐛 𝑧𝑧2 ∑𝐚𝐚2 𝐛𝐛2 log𝐛𝐛 𝐚𝐚: 輸送軌跡 𝐛𝐛: 𝑞𝑞 ∗ 値 11

12.

(Step 3) MPPIアルゴリズムへの推定モードの組み込み MPPIアルゴリズムモード推定ターゲットモード最適解推定ガウス分布頂点ノミナル系列 Gaussian fitting 分散 ∗ 最適解: 𝑈𝑈 = 𝔼𝔼𝑉𝑉~𝑞𝑞(𝑈𝑈, � Σ) 事前分布の分散 = 𝔼𝔼𝑉𝑉~𝑞𝑞(𝑈𝑈, � Σ) 𝑐𝑐 𝑉𝑉 softmax − 𝜆𝜆 State cost 𝑉𝑉 正則化項 𝑇𝑇−1 1 1 � 𝑡𝑡−1 − 𝒖𝒖 � 𝑡𝑡 exp − 𝑆𝑆 𝑉𝑉 + 𝜆𝜆 � 𝒖𝒖 𝜂𝜂 𝜆𝜆 事前分布の分散 𝑡𝑡=0 T Σ −1 𝒗𝒗𝑡𝑡 𝑉𝑉 ノミナル系列最適分布の単一のモードのみを正規分布が覆うようにMPPIの解を誘導 12

13.

実験設定 : 経路追従 & 障害物回避シミュレーション環境ノミナル系列最適制御問題 ※ 速度系列はオフライン最適化 Find: 1秒先 (約5 m先) までのタイヤ舵角系列コストマップより Min.: (状態コスト) = (参照経路追従項) + (障害物回避項) 共分散行列評価方法シナリオ PT (経路追従)  未知障害物無し  評価メトリック : 平均状態コストシナリオ OA (障害物回避)  各周ランダムに未知障害物を5個配置  評価メトリック: 平均状態コスト，衝突確率 S.t.: 車両ダイナミクス, 舵角入力上下限比較手法  MPPI[1] Forward KL-Dを閉形式で最小化  SV-MPC[5] SVGD法によってReverse KL-Dを最小化  Reverse MPPI[6] 鏡像勾配降下によってReverse KL-Dを最小化  SVG-MPPI (提案手法) Reverse / Forward KL-Dのハイブリッド最小化 13

14.

従来手法との比較：障害物回避&追従性能向上 14

15.

シミュレーションにおける定量評価各シナリオにおける平均状態コスト ↓ 経路追従シナリオ障害物回避シナリオ従来手法提案手法 15

16.

シミュレーションにおける定量評価 MPPI 各シナリオにおける平均状態コスト ↓ 共分散 : 大経路追従障害物回避共分散 : 小小共分散大通常のMPPI (Forward KLD最小化): 事前分布の共分散値に応じて得意なタスクが変化共分散 = 解の探索範囲 → 大きいほど大きな解の変化に対応可能 16

17.

シミュレーションにおける定量評価 MPPI 経路追従小各シナリオにおける平均状態コスト ↓ 障害物回避共分散大通常のMPPI (Forward KLD最小化): 事前分布の共分散値に応じて得意なタスクが変化共分散 = 解の探索範囲 → 大きいほど多峰性分布に覆いかぶさる 17

18.

シミュレーションにおける定量評価各シナリオにおける平均状態コスト ↓ MPPI Reverse SV-MPC SVG-MPPI サンプル数 10,000 200 500 8,000 計算時間[ms] 12.1 26.0 29.1 11.0 Reverse KLDの直接最小化:  PT・OA性能にトレードオフ有り  反復計算のため1サンプルごとの計算量が増加 → モンテカルロ法の推定精度低下 18

19.

シミュレーションにおける定量評価各シナリオにおける平均状態コスト ↓ シナリオ OAにおける衝突確率 ↓ Reverse & Forward KLDのハイブリッド最小化提案手法 (SVG-MPPI) が経路追従&衝突回避シナリオで共に最高性能 19

20.

実機実験 : 経路追従シナリオ平均状態コスト ↓: ※10 laps MPPI 5.83 SVG-MPPI (Ours) 2.03 20

21.

実機実験：障害物回避シナリオ平均状態コスト ↓ 衝突確率 [%] ↓ MPPI SVG-MPPI (Ours) 55.6 15.4 62.7 27.8 ※ 3 laps x 6 different layouts 21

22.

まとめ : Stein Variational Guided MPPI  課題 : MPPIは多峰性分布や急な分布の変化に弱い  手法 : KLダイバージェンスの非対称性を利用して解を単一モードに誘導  結果 : 経路追従・障害物回避性能が大きく向上 Take Home Message:  Forward & Reverse KLダイバージェンスの併用が変分推論MPCには有効  MPPIはSVGDのような (疑似) 勾配ベースの手法と組み合わせると効果的 22

23.

解決の鍵：KLダイバージェンスの非対称性最適行動分布 𝑞𝑞∗ ガウス分布 𝑞𝑞 確率密度 Forward KLダイバージェンス最小化 (MPPI) 𝐦𝐦𝐦𝐦𝐦𝐦 𝔻𝔻𝐊𝐊𝐊𝐊 𝒒𝒒∗ ‖ 𝒒𝒒 = min 𝔼𝔼𝑞𝑞∗ 𝑞𝑞 ∗ log 𝑞𝑞 Large penalty when 𝑞𝑞 ∗ > 0 and 𝑞𝑞 ≪ 0 全モードを覆う確率分布が推定例 : 拡散モデル，VAE Reverse KLダイバージェンス最小化 𝐦𝐦𝐦𝐦𝐦𝐦 𝔻𝔻𝐊𝐊𝐊𝐊 𝒒𝒒‖ 𝒒𝒒∗ = min 𝔼𝔼𝑞𝑞 log 𝑞𝑞 𝑞𝑞∗ Large penalty when 𝑞𝑞 > 0 and 𝑞𝑞∗ ≪ 0 単一モードを覆う確率分布が推定例 : GAN 23

24.

MPPI実装確率最適制御・情報論の観点から理論的にサンプルベース手法を改良できないか？ → Model Predictive Path Integral control (MPPI) [Williams+, 2018] から急速に発展中実装は簡単！: 初期解 (前回の解𝑼𝑼𝒕𝒕−𝟏𝟏 ) 最適解𝑼𝑼𝒕𝒕 1. 初期解を平均としてランダムサンプリングランダムサンプル 𝑽𝑽𝒌𝒌 = 𝑼𝑼𝒕𝒕−𝟏𝟏 + 𝝐𝝐𝒌𝒌 𝝐𝝐𝒌𝒌 ~ 𝓝𝓝(0, Σ) 2. コスト関数を用いて重みを計算重み初期解𝑼𝑼𝒕𝒕−𝟏𝟏 を平均とした 𝒩𝒩(0, Σ)のノイズを含むサンプル系列 𝑽𝑽 = 𝑽𝑽𝟏𝟏 , … , 𝑽𝑽𝑲𝑲 𝑤𝑤 𝑽𝑽𝒌𝒌 状態コスト 𝑇𝑇−1 𝑡𝑡=0 3. 重み付け和によって解を更新 𝐾𝐾 𝑼𝑼𝒕𝒕 = 𝑼𝑼𝒕𝒕−𝟏𝟏 + � 𝑤𝑤 𝑽𝑽𝑘𝑘 𝑽𝑽𝒌𝒌 更新解入力コスト 1 1 � 𝑡𝑡−1 − 𝒖𝒖 � 𝑡𝑡 T Σ𝒗𝒗𝑡𝑡 ) = exp(− 𝑆𝑆 𝑽𝑽𝒌𝒌 + 𝜆𝜆 � 𝒖𝒖 𝜂𝜂 𝜆𝜆 初期解ノミナル解 𝑘𝑘=1 • G. Williams+, Information Theoretic Model Predictive Control: Theory and Applications to Autonomous Driving, IEEE T-RO, 2018 (通常は0) Softmax関数 24

25.

(MPPI理論) 0. 準備定義: 観測状態 𝑥𝑥0 行動分布 ℚ 実制御入力系列 Σ 𝑈𝑈𝑡𝑡 = {𝑢𝑢0 , … , 𝑢𝑢 𝑇𝑇−1 } 共分散行列ガウスノイズ付与制御入力: 状態方程式: 行動分布ℚの確率密度関数: 𝑣𝑣𝜏𝜏 ~ 𝒩𝒩(𝑢𝑢𝜏𝜏 , Σ) 𝑥𝑥𝜏𝜏+1 = 𝐹𝐹 𝑥𝑥𝜏𝜏 , 𝑣𝑣𝜏𝜏 𝑇𝑇−1 1 𝑞𝑞 {𝑣𝑣𝜏𝜏 }0…𝑇𝑇−1 = 𝑍𝑍 −1 exp − � 𝑣𝑣𝜏𝜏 − 𝑢𝑢𝜏𝜏 T Σ 𝑣𝑣𝜏𝜏 − 𝑢𝑢𝜏𝜏 2 確率最適制御問題: 𝜏𝜏=0 状態コスト入力ペナルティ 𝑇𝑇−1 𝜆𝜆 𝑈𝑈𝑡𝑡∗ = argmin Εℚ 𝜙𝜙 𝑥𝑥𝑇𝑇 + � 𝑐𝑐 𝑥𝑥𝜏𝜏 + 𝑢𝑢𝜏𝜏 Σ 𝑢𝑢𝜏𝜏 + 𝛽𝛽𝑢𝑢𝜏𝜏 2 𝑈𝑈𝑡𝑡 ∈𝒰𝒰 入力制約条件を満たす集合 𝜏𝜏=0 𝑆𝑆 𝑥𝑥0 , {𝑣𝑣0 , … , 𝑣𝑣𝑇𝑇−1 } → 期待値最小化は直接は解けない！アプローチ：最適行動分布ℚ∗ を正規化行動分布ℚで近似行動分布 ℚ (正規分布) min D𝐾𝐾𝐾𝐾 (ℚ∗ ||ℚ) 分布間距離 KLD 行動分布 ℚ∗ (未知) (Kullback-Leibler divergence) を最小化手法の概要 1. 最適行動分布ℚ∗ を推定 (分布形状: 未知) 2. 重点サンプリングによってKLDを最小化する 𝑈𝑈𝑡𝑡∗ ≅ argmin D𝐾𝐾𝐾𝐾 (ℚ∗ ||ℚ) 𝑈𝑈𝑡𝑡 ∈𝒰𝒰 Kullback-Leibler divergence (KLD) の最小化 25

26.

(MPPI理論) 1. 最適行動分布ℚ の導出初期解 𝑻𝑻−𝟏𝟏 𝑺𝑺 𝑽𝑽𝒌𝒌 = 𝝓𝝓 𝒙𝒙𝑻𝑻 + � 𝒄𝒄 𝒙𝒙𝝉𝝉 + ランダムサンプリング: 𝑉𝑉1 , … , 𝑉𝑉𝐾𝐾 & 尤度 (コスト) 計算: 𝑆𝑆 𝑉𝑉1 , … , 𝑆𝑆 𝑉𝑉𝐾𝐾 ↓ 最適確率密度: 𝑞𝑞 ∗ 𝑉𝑉1 , … , 𝑞𝑞∗ (𝑉𝑉𝐾𝐾 )を推定 𝝉𝝉=𝟎𝟎 𝝀𝝀 𝒖𝒖 𝜮𝜮 𝒗𝒗𝝉𝝉 + 𝜷𝜷𝒖𝒖𝝉𝝉 𝟐𝟐 𝝉𝝉 ※ 最適行動分布ℚ∗ 形状自体は求まらない導出: ・経路積分/ベイズ理論で良く出る式 1. 自由エネルギーを定義: ℱ 𝑉𝑉𝑘𝑘 = log Eℙ exp − 𝑆𝑆 𝑉𝑉𝑘𝑘 1 𝜆𝜆 状態コストの期待値 𝑉𝑉2 𝑆𝑆(𝑉𝑉2 ) 𝑉𝑉𝐾𝐾 𝑆𝑆(𝑉𝑉𝐾𝐾 ) ℙ: ノミナル入力印加時の行動分布 + 𝜆𝜆D𝐾𝐾𝐾𝐾 (ℚ||ℙ) 3. 正規分布の確率密度関数を代入: −𝜆𝜆𝜆 𝑉𝑉𝑘𝑘 ≤ Eℚ 𝜙𝜙 𝑥𝑥𝑇𝑇 + ∑𝑇𝑇−1 𝜏𝜏=0 𝑐𝑐 𝑥𝑥𝜏𝜏 + 𝑢𝑢𝜏𝜏 Σ 𝑢𝑢𝜏𝜏 + 𝛽𝛽𝑢𝑢𝜏𝜏 𝟏𝟏 𝝀𝝀 𝑆𝑆(𝑉𝑉1 ) ・𝜆𝜆: 温度パラメータ 2. イエンセンの不等式で下界を計算 & 式展開: −𝜆𝜆𝜆 𝑉𝑉𝑘𝑘 ≤ Eℚ 𝑆𝑆 𝑉𝑉𝑘𝑘 4. 最適確率密度関数: 𝒒𝒒∗ 𝑽𝑽𝒌𝒌 = 𝜼𝜼−𝟏𝟏 𝐞𝐞𝐞𝐞𝐞𝐞 − 𝑺𝑺 𝑽𝑽𝒌𝒌 𝑉𝑉1 ・・・【未知】最適行動分布 ℚ∗ ∗ 𝒑𝒑(𝑽𝑽𝒌𝒌 ) 𝜆𝜆 2 ℙ, ℚは正規分布を仮定 = 解きたかった確率最適制御問題 → 下限値が自由エネルギーで抑えられている → 等号条件を満たす𝑞𝑞が最適確率密度関数 26

27.

(MPPI理論) 2. 重点サンプリングによるKLD最小化 (A) 最適行動分布ℚ∗ と行動分布ℚのKLDを最小化 𝑈𝑈𝑡𝑡∗ ≅ argmin D𝐾𝐾𝐾𝐾 (ℚ∗ ||ℚ) 𝑈𝑈𝑡𝑡 ∈𝒰𝒰 = argmax Eℚ∗ log 𝑞𝑞 − Eℚ∗ log 𝑞𝑞 ∗ 𝑈𝑈𝑡𝑡 ∈𝒰𝒰 = argmax Eℚ∗ log 𝑞𝑞(𝑉𝑉𝑘𝑘 , 𝑈𝑈𝑡𝑡 ) 𝑈𝑈𝑡𝑡 ∈𝒰𝒰 = argmin Eℚ∗ 𝑈𝑈𝑡𝑡 ∈𝒰𝒰 = Eℚ∗ 𝑉𝑉𝑘𝑘 (KLDの定義) (𝑞𝑞∗ は𝑈𝑈𝑡𝑡 に非依存) (B) 重点サンプリングによってℚ∗ からのサンプルを近似 𝑈𝑈𝑡𝑡∗ = Eℚ∗ 𝑉𝑉𝑘𝑘 最適確率密度関数: = � 𝑞𝑞 ∗ 𝑉𝑉𝑘𝑘 𝑉𝑉𝑘𝑘 d 𝑉𝑉 1 𝑞𝑞∗ 𝑉𝑉𝑘𝑘 = 𝜂𝜂 −1 exp − 𝑆𝑆 𝑉𝑉𝑘𝑘 𝜆𝜆 𝑇𝑇−1 𝑞𝑞 ∗ 𝑉𝑉𝑘𝑘 𝑞𝑞 𝑉𝑉𝑘𝑘 , 𝑈𝑈𝑡𝑡 𝑉𝑉𝑘𝑘 d 𝑉𝑉 =� 𝑞𝑞 𝑉𝑉𝑘𝑘 , 𝑈𝑈𝑡𝑡 𝜏𝜏=0 𝑤𝑤 𝑉𝑉𝑘𝑘 1 � 𝑣𝑣𝜏𝜏 − 𝑢𝑢𝜏𝜏 T Σ 𝑣𝑣𝜏𝜏 − 𝑢𝑢𝜏𝜏 2 (𝑞𝑞は正規分布密度関数) 行動分布ℚが正規分布であることを仮定する → KLD最小化問題は閉形式で求まる！ → ただし，最適行動分布ℚ∗ から直接サンプルはできない ※ 𝑄𝑄∗ を正規分布に近似し，サンプリングした期待値が平均となるのはもちろん自明重み: = Eℚ 𝑤𝑤(𝑉𝑉𝑘𝑘 )𝑉𝑉𝑘𝑘 𝑝𝑝(𝑉𝑉𝑘𝑘 ) (重点サンプリング) 𝑇𝑇−1 1 1 = exp(− 𝑆𝑆 𝑉𝑉𝑘𝑘 + 𝜆𝜆 � 𝑢𝑢� 𝑡𝑡 − 𝑢𝑢� 𝑡𝑡 𝜂𝜂 𝜆𝜆 𝑡𝑡=0 T Σ𝑣𝑣 ) 𝑡𝑡 初期解ノミナル解 𝒩𝒩(𝑈𝑈𝑡𝑡init , Σ) (制御入力分布ℚ) から𝑉𝑉𝑘𝑘 をサンプリング → 重み付け平均によってKLD最小化の大域最適解が求まる ※ 大数の法則より，十分なサンプル数で最適性が保証 ※ 𝑈𝑈𝑡𝑡init : 前回の最適解𝑈𝑈𝑡𝑡−1 を用いることが多い (継承サンプリング) 27

28.

ソフトウエア構成オフライン処理地図作成リアルタイム処理参照軌道計画低速自己位置推定計画・制御高速 28

29.

参照軌道 (経路・速度) 計画地図作成参照軌道計画自己位置推定計画・制御地図  経路・速度を同時に最適化: アウト・イン・アウト走法 • 最適化ソルバー : IPOPT [1] (主双対内点法) • 目的 : ラップタイムの最小化中央線  制約条件 • 車両速度, 前後方向加速度, 左右方向加速度の制限 (例) カーブで滑る場合 → 左右方向加速度を小さくする • 壁面から一定距離を空けて走行 [1] IPOPT : https://coin-or.github.io/Ipopt/ 最適経路 29

30.

高速化のための工夫 Online処理 Offline処理地図作成参照軌道計画自己位置推定計画・制御 ★ MPPIの用いる外部情報はすべてグリッドマップ化 → 近傍探索高速化 /参照軌道 /自己位置参照情報生成 Reference SDF Generator 参照速度マップ参照位置マップ参照角度マップ周辺認識 /スキャン Local Costmap Generator MPPI ★ CPU並列処理障害物コストマップ 30