機械学習モデルの評価方法について

5.5K Views

August 02, 23

スライド概要

2023/8/1 「自動運転の認識技術を改善するDomain AdaptationとMLOpsの仕組みについて」
発表者:上竹 幸太郎

profile-image

TIER IV(ティアフォー)は、「自動運転の民主化」をビジョンとし、Autowareを活用したソフトウェアプラットフォームと統合開発環境を提供しています。 #Autoware #opensource #AutonomousDriving #deeptech

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

TIER IV AUGUST TIER /IV2023 2023 / 08 / 01 TITLE 自動運転のための 認識結果の 評価の仕組みについて 1

2.

TIER IV Profile ~2022 : 東京大学大学院 知能機械情報学専攻修了 2022~ : TIER IV入社 2021~からPTとしても参画 Kotaro Uetake@Perception @ktro2828 Kotaro Uetake 2

3.

TIER IV 00 / Overview & Scope Todayʼs Agenda TIER IV 01 / Evaluation metrics for AD 02 / Our Evaluation Tools 03 / Summary & Future Works 3

4.

TIER IV Web.Auto Overview CI/CD PIPELINE SIMULATION 自動運転ソフトウェアのビルドとシミュレーションによる膨大なテストケースの 実行をサポートするクラウド基盤およびシナリオやマップの編集ツール 自動運転ログからのリアルなイベントの再生成やシナリオベースのシ ミュレーションおよび仮想センサーを利用したシミュレーション Build Test Dataset, ML Models Autonomous Driving Dev. Cycle Development Vehicle Data DATA MANAGEMENT 自動運転車両からの効率的なデータ収集と管理 および学習やテストのためのデータ検索 Maps, Scenarios Data Collection Deployment Firmware Images FLEET MANAGEMENT Operation 自動運転車両の管理およびスケジューリング、 データの事後分析、OTAアップデート REMOTE OPERATION 遠隔からの運転、車両状態のモニタリング 4

5.

TIER IV Web.Auto Overview CI/CD PIPELINE SIMULATION 自動運転ソフトウェアのビルドとシミュレーションによる膨大なテストケースの 実行をサポートするクラウド基盤およびシナリオやマップの編集ツール 自動運転ログからのリアルなイベントの再生成やシナリオベースのシ ミュレーションおよび仮想センサーを利用したシミュレーション Build Test Dataset, ML Models Autonomous Driving Dev. Cycle Development Vehicle Data DATA MANAGEMENT 自動運転車両からの効率的なデータ収集と管理 および学習やテストのためのデータ検索 Maps, Scenarios Data Collection Deployment Firmware Images FLEET MANAGEMENT Operation 自動運転車両の管理およびスケジューリング、 データの事後分析、OTAアップデート REMOTE OPERATION 遠隔からの運転、車両状態のモニタリング 5

6.

TIER IV Autoware testing scope Sensing Perception Planning Control Sensors Vehicle Localization Map data Real vehicle testing 6

7.

1. Driving Log Replayer TIER IV 2. Scenario Simulator v2 Autoware testing scope Perception Sensing Planning Control Sensors Vehicle Localization Map data 3. AWSIM Real vehicle testing 7

8.

TIER IV Simulator series 1. Driving Log Replayer 2. Scenario Simulator v2 3. AWSIM tier4/driving_log_replayer tier4/scenario_simulator_v2 tier4/AWSIM Simulator Github Goal Evaluate if each “localization”, “sensing”, “perception” and “diagnostics” run reliably and output as intended. Evaluate if “perception” to “path Evaluate if “path planning” runs ODD planning/motion control” runs as intended. use-case as intended. Method Reproduction of real-life events from driving logs Sensor simulation with realistic physics Scope ● ● ● ● sensing perception localization (diagnostics) ● ● ● planning perception (*partial) control (*partial) Driving and traffic simulation ● ● ● ● ● sensing perception localization planning control 8

9.

TIER IV Simulator series 1. Driving Log Replayer 2. Scenario Simulator v2 3. AWSIM tier4/driving_log_replayer tier4/scenario_simulator_v2 tier4/AWSIM Simulator Github Goal Evaluate if each “localization”, “sensing”, “perception” and “diagnostics” run reliably and output as intended. Evaluate if “perception” to “path Evaluate if “path planning” runs ODD planning/motion control” runs as intended. use-case as intended. Method Reproduction of real-life events from driving logs Sensor simulation with realistic physics Scope ● ● ● ● sensing perception localization (diagnostics) ● ● ● planning perception (*partial) control (*partial) Driving and traffic simulation ● ● ● ● ● sensing perception localization planning control 9

10.

Evaluation metrics for AD 01 10

11.

TIER IV Trends in ML Models/Evaluation Metrics ● ● 2015年付近を境に (物体検出に限らず )機械学習分野では新しい手法が次々に提案 一方で評価については、物体検出系に関しては mAPのみでの比較がほとんど Fast R-CNN, Faster R-CNN DETR CenterNet (*Transformer系) YOLO, SSD 2015 2016 ・・・ YOLOv2~ e.t.c … 2019 2020 LLM ~2023 ・・・ ・・・ 基本的にmAPのみ... 11

12.

TIER IV What is mAP? ● ● ● ● ● mean Average Precisionの略 ○ AP (Average Precision)のクラス平均をとったもの 検出予測に対して、以下を判定 ○ TP (True Positive) ○ FP (False Positive) ○ FN (False Negative) TP/FP判定に使われる指標 ○ 中心間距離、 IoU など… TP/FP/FNからPrecision/Recallを算出 正解ラベル(GT) 予測 各検出に対する Precision/RecallからPR曲線をプロット ○ PR曲線の下部面積 = AP ※出典 : rafaelpadilla/Object-Detection-Metrics 12

13.

TIER IV Evaluation Metrics for AD① 単純なmAPのみで「自動運転としていい物体検出」 を評価できるのか? ①ヨー角誤推定は危険 ②前方車両は、近傍面が検出できていることが重要 13

14.

TIER IV Evaluation Metrics for AD① 単純なmAPのみで「自動運転としていい物体検出」 を評価できるのか? ①ヨー角誤推定は危険 評価指標追加するべきでは ... ? ②前方車両は、近傍面が検出できていることが重要 14

15.

TIER IV Evaluation Metrics for AD② ②近傍面の評価 ①ヨー角誤推定評価 ❌IoU同じ ❌中心間距離 = 0 レーンチェンジする...? ● mAPH (mAP weighted by Heading) TPスコアをヨー角誤差で重み付けして、mAPを計算 車間距離は十分...? ● Plane Distance 自車両から見た近傍面の距離誤差を計算 d1 Det GT Ego → d2 15

16.

Our Evaluation Tools 02 16

17.

TIER IV Evaluation Types Usecase評価 Database評価 Usecase 評価 = 設計したテストケースで特定の対象に着目 ● 安全性能の担保をメインの目的 とした評価 例) レーンチェンジケースでの回避対象への検出性能を評価 Database 評価 = 実環境で収集したデータに対して、シーン全体 の物体を対象 ● アルゴリズム性能の相対評価に利用 、安全担保の基準 には基本的にならない ● DevOps で挙がった課題シーンを評価 例) 走行実験中に挙がった検出課題物体をアノテーションして評 価 例) MLモデル学習用データに対する各物体の検出性能の把握 ● ML モデル改善など、 Perception 開発時における指標 ※Usecase/Database で異なるのはアノテーションの付け方(対象のみ or すべて)、メトリクスのとり方 17

18.

TIER IV Driving Log Replayer Real world Perception Sensing Planning Control Sensors Vehicle Localization Map data testing scope Driving Log Replayer Simulation Perception Metrics Sensing Perception Annotation Data (Ground truth) Driving Log (ROSBAG) Localization Map data Evaluation results data annotation 18

19.

TIER IV Driving Log Replayer Evaluation Flow ROS 2ベースで Perception Output<-> Ground Truth を同期/比較しメトリクスを出力 Autoware DrivingLogReplayer detection bag play tracking Evaluator prediction Scenario(yml) Play rosbag Launch nodes Web.Auto bag(db3) Dataset cts nition/detection/obje ecog /perception/object_r bjects ecognition/tracking/o /perception/object_r Download from Cloud Evaluate each 1 frame recognition/objects /perception/object_ ・ ・ ・ DrivingLogReplayer Execute on Local or Cloud rosbag play/record s n/object recognition/detectio /perception/object_ /percep ion/tracking/objects tion/object_recognit recognition/objects /perception/object_ Analyze ROS 2 Result (json, pkl) Evaluation Node Autoware Output scene metrics score into result.json Terminate nodes 19

20.

TIER IV Scenario Settings ※シナリオファイルから一部抜粋 PerceptionEvaluationConfig: evaluation_config_dict: evaluation_task: detection target_labels: - car - pedestrian max_x_position: 100.0 max_y_position: 100.0 min_point_numbers: -0 -0 target_uuids: - “aaa” - “ddd” center_distance_thresholds: - 1.0 plane_distance_thresholds: - 1.0 iou_2d_thresholds: - 0.5 iou_3d_thresholds: - 0.5 非評価対象 ID: ccc 評価内容(対象データ/領域/オブジェクト...)をシナリオファイル(.yaml)で設定 max_y_position … 評価タスク (detection/tracking/prediction) … 評価対象クラス ID: eee max_x_position ID: bbb ID: ddd … 評価対象領域の x方向の最大値 … 評価対象領域の y方向の最大値 … GT BBox内に含まれるべき点群数の最小値 (この値以下なら評価対象外. detectionのみ必須) … 評価対象 GTのuuid ID: aaa … TP/FP閾値 評価対象 20

21.

TIER IV Analyze tools Score/Error Visualization DrivingLogReplayer ● ● ● result_bag scene_results.pkl result.json … Plot Time series plot per an object TP rate plot per distance 21

22.

TIER IV Cooperation with Web.Auto ● ● 登録したシナリオ・データに対して評価をブラウザ上で実行 評価結果の可視化 CI/CD Service Report Build Test Annotated Dataset 22

23.

TIER IV Cooperation with Web.Auto 評価実行までの具体的なワークフロー Dataset preparation 取得したrosbagからアノテーションデータ生成 Record Scenario registration Test execution 登録したデータに対するシナリオ生成 登録したシナリオを実行 rosbag2 Annotate Annotated Dataset 23

24.

Summary & Future Works 03 24

25.

Summary ● ● ● 自動運転における物体検知評価では mAPだけでは不十分 ○ 物体角度誤差、近傍面を考慮した指標の追加 DrivingLogReplayerでは、自動運転のための認識評価・解析が可能 ○ シナリオを設定することで細かく評価可能 Web.Autoと連携することで、 Cloud上でデータ・シナリオ・評価結果を管理 FYI 評価・データセットツール等は OSSとして公開中 (Contribution/Q&A大歓迎です!! ) ● tier4/driving_log_replayer ● tier4/autoware_perception_evaluation ● tier4/tier4_perception_dataset 25

26.

Future Works ● Planningを考慮した評価対象の動的指定 誤認識物体の再評価 ● 誤検知 ID: ccc ● ID: aaa ID: eee ID: bbb :Autowareの認識結果 Planningに影響がある物体のみを 評価対象として動的に決定 ○ 例 : 進行方向レーン上 Scene config(=シナリオ) ● ● 誤検出結果をアノテーション 改善後、検出されなければOK(=True Negative) ID: ddd 誤検知発生 Frame config(動的) 実車 / Simulation テストケース生成 Deploy 再評価 対策改善 26

27.

Perception R&D Engineer ● ● Perceptionモジュール・評価ツール開発 機械学習モデル・データセット構築 Sensing R&D Engineer We are Hiring !! ● ● センサーシステム・ドライバ設計/開発 キャリブレーション・同期システムの設計/開発 Verification Engineer ● ● テストシナリオ設計/定義 車両・センサー性能ベンチマーク評価 27

28.

TIER IV CONTACT US https://tier4.jp/ Thanks Again ! 28