[DL輪読会]自動運転技術の課題に役立つかもしれない論文3本

DEEP LEARNING JP [DL Papers] 自動運転技術の課題に役立つかもしれない論文3本 Makoto Kawano (Matsuo Lab.) http://deeplearning.jp/

http://deeplearning.jp/

自動運転技術パイプライン処理が基本 ‣ 各モジュールごとに機能が実装されている状態 Sensing • カメラ • LiDAR • 加速度センサ • GPS Perception Planning Control • 物体検出 • Semantic • 経路予測 • 自車 • 他車 • 移動物体 • 車体の制御 • アクセル • ブレーキ • ハンドル Segmentation Localization • 走行位置の特定 2

3.

自動運転技術における課題実世界で深層学習ベース手法の限界 ‣ 分布シフト ✓ 天気・多差路など ‣ Q1. 分布シフトが起きた時にうまく対処したいデータを増やせば良い？ ‣ アノテーションのきつさ ✓ 動画 x 対象の数の多さ ‣ Q2. ラベルなしデータをうまく使えないか？ 3

4.

アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers (arXiv 2021/4/29) ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples (arXiv 2021/4/28) ✓ FAIRチーム 4

5.

アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples ✓ FAIRチーム 5

https://sites.google.com/view/av-detect-recover-adapt

6.

この論文では何をするのか？ 6

7.

𝒟 𝒟 問題設定仮定1：expertによるデモンストレーション時間に沿ったシーンx(画像や点群などの高次元データ表現)におけるexpertの経路(i.e. プラン) y のペアで構成されたデータセット = i i N {x , y }i=1にアクセス可能．経路は，expert policy πexpert( ⋅ | x)からサンプリングされる：y ∼ πexpert( ⋅ | x) タスク目的：未知のexpert policyπexpertの近似 ‣ デモンストレーションにのみもとづく模倣学習 ‣ 単純化のため，仮定をさらに追加 7

8.

問題設定仮定2：Inverse Dynamics 現在の状態と次の状態(走行位置)を与えれば，それに従う制御(アクセルやハンドル)を行う逆動力学モデル(Bellman 2015, PID Controller, Ⅱ)にアクセス可能．つまり，状態のみの経路 y = (s1, …, sT )を操作することで，local plannerにより行動がきまる: at = (st, st+1), ∀t = 1,…, T − 1 仮定3：Global Planner 目的地の位置と制御 (交差点での左右折•2番目の出口から出る)の[両方/どちらか]を特定することができるglobalなナビゲーションシステムにアクセス可能仮定4：Perfect Localization 利用できる位置情報(目的地や自車の走行位置)の精度は完璧である 𝕀 𝒢𝒞 8

9.

提案手法：Robust Imitative Planning 3種類の性質を持つ模倣学習モデル ‣ エキスパートの経路における分布を提供 ‣ 分布外検出のためにepistemic uncertaintyを計量 ‣ 分布シフトに対してロバスト性を持つ 9

10.

Bayesian Imitative Model エキスパートの経路における分布密度の推定 ‣ 確率的”模倣”モデルq(y | x; θ)の尤度最大化 θMLE = arg max (x,y)∼ [log q(y | x; θ)] ‣ モデルパラメータθに事前分布p(θ)を設定=>モデル全体に分布が設けられる 𝔼 𝒟 𝒟 𝒟 ‣ データが観測された時，事後分布p(θ | )を持つ 10

11.

Practical Implementation Autoregressive Density Estimator [Rhinehart et al., 2018] ‣ 自己回帰における正規分布の積：多峰分布をモデリングできる[Uria et al., 2016] 事後分布の推定 ‣ K個の模倣モデルのアンサンブルによる事後分布p(θ | )の近似 𝒟 ✓ k番目のモデルqkのパラメータをθkとする 11

12.

不確実性の種類偶然的不確実性／aleatoric uncertainty ‣ データが持つ真の確率性データに含まれているノイズ ‣ どんなにデータ量があっても，ノイズがあればエントロピーは高い ‣ コインの裏表予測では，p(裏)=p(表)=0.5が学習されてしまう認識論的不確実性／epistemic uncertainty ‣ 知識不足によって生じる ‣ データ不足によってモデルのパラメータが決まらない ‣ パラメータの事後確率も末広がりになってしまう 12

13.

分布シフトの検出事後分布p(θ | )における対数尤度log q(y | x; θ)のdisagreementを利用 ‣ 対数尤度：モデルθにおける状況xにおける経路yの質を表現 ‣ 事後分布に関する模倣モデルの分散を利用 u(y) ≜ Varp(θ| )[log q(y | x; θ)] ✓ 分布内シーンにおける経路：低分散 ✓ 分布外シーンにおける経路：高分散 𝒟 𝒟 ‣ 検出としては十分だが，分布外の状況下での対応としては不十分 13

14.

不確実性の下でのplanning 事後分布p(θ | )における目的地へのplanningをRobust Imitative Planning(RIP)として定式化 ✓ ⊕：事後分布への演算子(後述) ✓ 目的地尤度：例）目的地の位置sT を中心とした正規分布p( | y) = (yT | yT , ϵ 2I) ‣ 直感的には次の経路yRIPを選択 ✓ エキスパートによる経路っぽい(尤度最大化する)経路 𝒩 14 𝒢 𝒢 𝒢 𝒢 𝒢 𝒟 𝒢 ✓ 目的地に”近い”経路

15.

⊕：事後分布における集約演算子深層模倣モデル[Rhinehart et al., 2020] ‣ 事後分布から一つのθkを選択(=点推定) ‣ epistemic uncertaintyが使えない&見慣れないシーンで失敗しがち 2種類の集約演算子を提案 ‣ Worst Case Model: 不確実性を悲観的に見るロバスト制御[Wald, 1939] ‣ Model Average: Epistemic uncertaintyを周辺化するベイズ決定理論 15

16.

提案集約演算子 Worst Case Model (RIP-WCM) ‣ 最悪ケースを想定して，そこで最適化する[Wald, 1939] ‣ 一般にarg max minはtractableではないがアンサンブルなら簡単 y θ ✓ K個のモデルで最小値を見つければ良い Model Averaging (RIP-MA) ‣ 事後予測分布を利用 ‣ 本来ならintractableであるが，アンサンブルによって解決 ✓ (結局は単にモデルの平均？) 16

17.

実験1：分布外シーンにおけるロバスト性 4種類の問いに応えるための実験設計 ‣ Q1. 自動運転/模倣学習/不確実性を扱わない手法で分布シフトを検出可能か？ ‣ Q2. これらの手法が分布シフト下でロバストかどうか？ ‣ Q3. RIPによる不確実性計量は，新しいシーンを特定できるか？ ‣ Q4. RIPによる明示的な分布シフト対応は，性能を改善するか？ 2種類のデータセットを利用 ‣ nuScenes(実オープンデータ)：データ分割ができないため，分布シフトの制御不可 ✓ 基本Q4.のみ(部分的にQ2)を解決 ‣ CARNOVEL(CARLA, シミュレータ) ✓ 分布外シフトを制御して，Q1とQ3を解決 17

18.

[beta]

nuScenes
評価指標：Displacement error

‣ ICRA2020 nuScenes prediction challengeで利用
<latexit sha1_base64="qDYVH+52/OSLbXD4gxQ0Eicfa5M=">AAADSnicfVHLbhMxFHXSAmV4pbBkY4iQ0lCiTBaAhCoVKBIbRJGStFKcRh7nzsSKxx5sDySy5jNY8kf8AL/BDnWDJw+gKeJKozk+5/hx74kywY1tt79XqlvbV65e27ke3Lh56/ad2u7dvlG5ZtBjSih9GlEDgkvoWW4FnGYaaBoJOImmr0v95BNow5Xs2nkGw5QmksecUeupUe0LiSDh0lHBE9ksAoyJhZl1L4/eFA0Szff8WnMqEwEfMYk1ZS4sXLfAxOTpyNmDsDhbLPugLTaeKfCT5f/MNdf8PiYvMEmpnUSxmxf4ADfMKPTsWFmz7+3dvYCAHK+fMarV2632ovBlEK5AHa3qeLRb+erPYnkK0jJBjRmE7cwOHdWWMwFFQHIDGWVTmsDAQ0lTMEO3mF+BH3lmjGOl/SctXrB/73A0NWaeRt5Z9mA2tZL8lzbIbfx86LjMcguSLS+Kc4GtwmUYeMw1MCvmHlCmuX8rZhPqh2x9ZAE5At+Lhnf+3PcZaGqVbjpCdZLSWeF7S8h+if5n5HJt9CggEj4zlabUj5pEdgKWFh4oMS7bU8KRJbfpnHvX7/Q2xdkfcVZcmLSLlJpaGpky0HAzvsug32mFT1udD5364atVtDvoPnqIGihEz9AheouOUQ8xdF55UGlWHle/VX9Uf1bPl9ZqZbXnHrpQW9u/AADEE4g=</latexit>

T
X
1
ADE(y) ,
kst
T t=1

s⇤t k, y = (s1 , . . . , sT )

‣ 確率的モデルの場合，k個のサンプリングを利用可能
<latexit sha1_base64="0bwCpyr8jBJmwfLnwM6sg5bDL/g=">AAADPHicfVFNbxMxEPUuXyV8pfQISBYRUlpVUTYH4IJUoEhcEEUibaU4jWzH2Vjxx8b2QlbWnvkV/BX+B3duqFfOeJOtoAliJEtP772Z8cyQTHDrut3vUXzl6rXrN7ZuNm7dvnP3XnP7/rHVuaGsT7XQ5pRgywRXrO+4E+w0MwxLItgJmb2u9JNPzFiu1UdXZGwocar4hFPsAjVqfkGEpVx5LHiq9soGhMixhfOSq5eHb8qRn5Xt+W4gDccqFWwOUZBGHnlEijPPSxQ8/EVSngUnRJZLOG8HCaLQ1UFEFrtlXbKq166zQsX9DmJqfNF41Gx1O91lwE2Q1KAF6jgabUdf0VjTXDLlqMDWDpJu5oYeG8epYGUD5ZZlmM5wygYBKiyZHfrlxkr4JDBjONEmPOXgkv07w2NpbSFJcErspnZdq8h/aYPcTZ4PPVdZ7piiq0aTXECnYbV+OOaGUSeKADA1PPwV0ik2mLpwpAY6ZGEWw96Fuu8zZrDTZs8jbFKJF2WYLUX7FfqfkasLY0ANpNhnqqXEYdWIuClzuAxAi3E1nhYerbh1ZxFc1XRk4osNcfFHXJSXNu2J1jOHia0OmqyfbxMc9zrJ007vQ6918Ko+7RZ4AB6DNkjAM3AA3oIj0AcUnEc70cPoUfwt/hH/jM9X1jiqc3bApYh//QaVmhFj</latexit>

minADEk (q) ,

min

i

{yi }k
i=1 ⇠q(y|x)

ADE(y ) .

‣ 最終結果のみの比較
minFDE1 (y) , ksT
<latexit sha1_base64="KGKyk8sTaQk/ABWqfr9s+R3ZxXc=">AAADFnicfVHLbhMxFHWGVxkeTWHJxiJCKlGJMlkAywoKYoMoUpNWqkPkcW4mVvwYbA9kZM1/sOFX2KFu2fIRbGGLJ0kFTRBXsnx0zvHjnpvmglvX7X5vRJcuX7l6bet6fOPmrdvbzZ07A6sLw6DPtNDmJKUWBFfQd9wJOMkNUJkKOE5nz2v9+AMYy7U6cmUOQ0kzxSecUReoUZOSFDKuPBU8U+0qxpg4mDsvuXp58KIa+aTaJWn5MNCGU5UJeI/JAIzDduSPKvxoub/z7WrFk71OTECNz68cNVvdTndReBMkK9BCqzoc7TQ+k7FmhQTlmKDWnibd3A09NY4zAVVMCgs5ZTOawWmAikqwQ7/IosIPAjPGE23CUg4v2L9PeCqtLWUanJK6qV3XavJf2mnhJk+Hnqu8cKDY8qFJIbDTuA4Wj7kB5kQZAGWGh79iNqWGMhfij8kBhF4MvA73vsnBUKdN2xNqMknnVegtI3s1+p+Rq3NjQDFR8JFpKWmImqRuCo5WAWgxrtvTwpMlt+4sg6vuLp34ckOc/xHn1YWkfar1zNHU1gNN1se3CQa9TvK403vba+0/W412C91D99EuStATtI9eoUPURwydoR/oJ/oVfYq+RF+js6U1aqzO3EUXKvr2G2ZmA5s=</latexit>

⇤
sT k .
18

19.

[beta]

実験1の結果(nuScenes)
<latexit sha1_base64="m6nHM9yQYv0+hkWWZPrerqVTZCY=">AAAJ8XicvVZLb9tGEKbThyL3FTfHXIiaLdwgJvgQRQm9JLZbNAe1ahvHAUzVWFIrmfByl9hd1hYY/pAeChS59o/02t76bzorkbIoyal06QIEZuabmf1mhtxlmJJYSMv6Z+feO+++937jfnP3gw8/+viTB3ufvhQs4xE+jRhh/FWIBCYxxacylgS/SjlGSUjwWXh1rPCzXzAXMaMv5CTFgwSNaTyKIyTBdLHX+CoI8TimuUQQ8rg4l4NdXQ8iTCXmMR0rZe6QEcSLnMB6DU8BGKCSpTwjeKpsur6YhSYZkTHUkCU0d4s8KvJA4hspZX7EhGS0KDbz/gmIopRxrAKCYOYeqZbkzmGrqGTv0C8qeDOGSUyfnXxtXOR2YehGMGTXFHHOro31Xt5/eH2zRa7/YceqU6qL4SjvYXnJhqLYcFivi/zAcCzfNXQBrwsWT3TDs0BBSUqUxlJMDwljqZ4SRCnM6Mvi7lkeGLbd6W6Va15AEg/nr2DvRd/4OQ+GMUoYHYoslvACx2Mh4dU1yu113WiZtruguqbTWlC7puNu6Vxy6anC+khebkLCNVXFC6pbz2t3t3QuSRwz+OS/w3JDDv6C6pgtu15be0vndUM5ed5TXCKShYpIff92K0gTy7S8eubOzOosWDum40ytS+PozKxWq5ah682sdi1D155ZO3OmPz7vHx4dv4Wg565L7/qr6X2zW1Kpj8rzV4txTN9aR9Dtzqzu+lYqtr1nd5NdCF8k664j2y7J+rUMVeftWoZ2d9087FvrQjfPlrs5jwjgnIHPp1tAmL7EUmGO6XQqzFrCfLPlVZi3hAFrt8LslZzt9l1YByZVYa3bhodMSpaUPQ8wHc5vv91KU5flxYN9xVMtfVWwS2FfK1f/Ym/nNziGoyyB6zUiSIhz20rlIEccTkOCIXsmcIqiKzTG5yBSlGAxyKfXfKF/DpahPmIcHir1qXUxIkeJEJMkBM8ETiCxjCnjOuw8k6POII9pmklMo9lGo4zokunqn0EfxhxHkkxAQBGPgaseXSKOIvhHgEwnGGrhuAd5v08xR5Lxx3mA+DhBNwXUNg6eKOltjjGtHEHaDSi+jliSIGh1EMpLLBFc9iEjQ1UeI3DxT23LnhPwUtXBYCcr4M0teFPUOp2HjF3BSIUaqL08vlXhpWPabdP5wdl/elSO9r72SPtMO9Bszdeeat9qfe1UixpvGn82/mr83RTNX5u/N9/MXO/tlDEPtdpq/vEvohamkQ==</latexit>

Methods
}F

MTP
MultiPath}F
CoverNet}F
|

DIM
|
RIP-BCM
RIP-MA|
|
RIP-WCM

Boston

Singapore

minADE1 # minADE5 # minFDE1 #
(2073 scenes, 50 samples, open-loop planning)

minADE1 # minADE5 # minFDE1 #
(1189 scenes, 50 samples, open-loop planning)

4.13
3.89
3.87

3.24
3.34
2.41

9.23
9.19
9.26

4.13
3.89
3.87

3.24
3.34
2.41

9.23
9.19
9.26

3.64 ± 0.05
3.53 ± 0.04

2.48 ± 0.02
2.37 ± 0.01

8.22 ± 0.13
7.92 ± 0.09

3.82 ± 0.04
3.57 ± 0.02

2.95 ± 0.01
2.70 ± 0.01

8.91 ± 0.08
8.39 ± 0.03

3.39 ± 0.03
3.29 ± 0.03

2.33 ± 0.01
2.28 ± 0.00

7.62 ± 0.07
7.45 ± 0.05

3.48 ± 0.01
3.43 ± 0.01

2.69 ± 0.02
2.66 ± 0.01

8.19 ± 0.02
8.09 ± 0.04

Q4.への答え：全てで勝ってるからyes.
Q2.への部分的な答え：ベースラインはRIPに勝ててない

‣ 不確実性を扱わないとロバストにならないっぽい
19

20.

CARLAを利用したCARNOVEL 普通に走行させた訓練データと訓練データにない特殊なケースの評価データ ‣ 環状交差点や斜面，角度のきつい右折など 20

21.

CARNOVELの評価指標 Infractions per kilometer = ナビゲーションが安全かどうか ‣ 1キロメートルあたりの道交法違反と交通事故の回数 Success rate ‣ 違反なしに目的地にたどり着けた割合 Detection Score = 悲惨なイベントを起こす分布外シーンを予測できるか ‣ 違反行為と不確実性の相関係数 Recovery Score = 分布シフトから復活できるか ‣ 新しいシーンでの成功率 21

22.

実験2の結果 Q4.とQ2.の答えが確定 ‣ RIPによるepistemic uncertaintyは分布シフト下で性能を改善する 22

23.

[beta]

Adaptive Robust Imitative Planning
RIPだけでは，分布外シーンで対応しきれない

<latexit sha1_base64="HRbj9GcJ98lUTAfBVHvOgopzWk0=">AAAOsHicnVfrchM3FDbQC7htCu1M//SPpjitA46xnTuUDoQEmgEaKASYyaYZ7a52vUQrbSRtYo9GfaU+T9+gj9Ej7foaO52pf+zKOhfpfPrOOVo/o4lUrdbfV65e++TTzz6/fqP6xZdfLXx989Y37yTPRUAOAk65+OBjSWjCyIFKFCUfMkFw6lPy3j95YuXvz4iQCWdvVT8jRymOWRIlAVYwdXzrxl+eT+KEaUxjLhLVTc1h96iKkPeGqF0WPulisR89BuELWEGbUvL8/AlPU8KULt9G37uHzJh8j+3nSu+xLAdZ8bIyN9Ke53VlhgOil1ea6yQ1nkwxpVah2I3Cfk6xMIfqSFP0SA/Um5010DaImkVQrnkpVt0AU71jauhHtENSzqQSLjaJPM/qPLeS3/LUJwLxCKU8JLSUac8BqMELxf6yT3NiRj63Tc2A6SylHaww8vMoIsJc5krhfK6Pd1gkmAUEqa4gsstpWLryCAuHAAxxajVt5DbqxUmNxf9W+X+4+r7eM3V8rJAHDFJIHmtlGvZ5t22WLKovOOCEMooZA3ALuE/rnt8vLTy/9wAeqksUdgZ7aaLgcM5IcQyFySKqZfVSa2A4Oldn99JpZ1wqIhI+WAqsBnrPzHDJvrN4xmFnNDmBxOhyHo4sxnZTeh15nMQVJhxy2xDfiWW//TOg/eMsE7yXwPqDWEa7SxjwgsDRNhBpxs0GCgnJEGGS2LR0Pp9aMjizhIWkh2onD9vIoyFXEj2vGQ06CG1z+AtszpDEaUYJCoF2kqgJ3h/rE4id2xwnkFiK9JT2wdAY7ckkNWgiR7wHzvObwl+5cSxwSmDvEkWCpwUgDVikgKpYAFyhcfRKR28FTtgwtJ8kBFJbDniacQYoobMEoxQDTHk6fhhEKoscJCmqv3yxu4TctpWyNWT3lDX/rHuCRJqc3k8BryUztRdKIoWF4OfIwyIG/8e6lJfRAnN3ARjYbq/hGFHsfwo14xwdgj8eoynaohFvkSeSuKuOapfyYZ/ZClzkQsJi47LILT9O0bGdlxETdtaE9CeqvjQ4Hu99N6FEM66GWiHAaUpWPAMCCO7nUqFkmE523fkoxgTyMwmWuf+RBFa/xLT/h74zD88+CHLgZkGrEl7t8Yzm0szEbAyyu4XC3AR1gUwAObuCFnpTGOMQZ8qxp5DvFmyyhRSAECRMXIzobFBgoepb0SDgmkMLuHqaY5qoPnJhOpXpTJ6LKPh2GOb10ukSelhoa6jrQK/LKtpF4hXnMAPIAffQIOG8vUiPr/oLKppMwQ0061Rr6HVORB+RXmYXwMoxc5jC4210e5IN49NBnqFhQrm1xzwcZOGsQgj5PdFOR0d5DjcNhFkfReR8GZqfGjtVBMWoy8PicMefU4SpYduQLmy4aFteEHI1otzkhi9kZmMy0+YlKsSV1Y1bdjANWTuoCwEEANvXs4j82EZnEw/9XqTuqBO+GisZHhgQ6u5i9wEQkWSm6prS6HZ2fPN2q9lyP3Rx0C4Htyvl79XxrWv/eCEPcot7QLGUh+1WBu0fC5UEth15uSRwCTjBMTmEIYNmII+0i8GgRZgJUQSHGXEo6G523ELjVMp+6oOmhVNOy+zkLNlhrqLNI53Y6yC0ymKhKKdIcWTvqShMBNQq2ocBDiD0JEAB3EVxYBtV1dshEIsgL8HvPtAaKy7u6LJ8GYgt9hp2dJliwgaKMKp6jJxD40oxoD0qdz5cy2x4nEJrdXPTmn3QcrSLdP+CsDcS9swE0rZHn8BVQ07ibwucZO6ySsKGyCk8GQcGHI0o0Jk8s/KkJqZ6bq7hnsqnIAxJBK4vElOL2De61Wg1V1c37Gtjtd2arc8FZvHQorm51rL6K501+2ptbc4x6xNK+fnQbKuzZfXXt1btqw3Ws81iQQgbWq2urzurjcJqc95igNrQZn2l2NnGZmGzOscmywVchkZLbbXaTr+1Aq+1tc7WbDNqK/MEiM3O1maBYMPFOWUHn2xlZdOxwH0HxgroQIOlhMWqqz24itn7oP2cghw11Sk6QU2CdTybiRIqLJHahy8nQiFR7JytDe3pSnBx8K7TbK83O687tx9tl1XieuX7yg+VeqVd2ag8qvxaeVU5qATV76o/V3erTxc6Cx8WjhdwoXr1SmnzbWXit/DxX8s4EnU=</latexit>

Algorithm 1: Adaptive Robust Imitative Planning
Input:
D
K
B
⌧

‣ 人間の運転手に制御を返せばいいのでは？
‣ →その時の正解データを手に入れられる！

1
2

オンライン学習を用いて不確実性を下げることが可能

‣ 不確実性が閾値を超えたら，運転手に制御を譲渡

3
4

5
6
7

‣ 閾値：false-negativeのレベルに一致

Demonstrations
Number of models
Data bu↵er
Variance threshold

I(at |st , st+1 ) Local planner
q(y|x; ✓)
Imitative model
p(G|y)
Goal likelihood
p(✓)
Model prior

// Approximate model posterior inference, e.g., deep
ensemble
for model index k = 1 . . . K do
boot

Bootstrap sample dataset Dk ⇠ D
Sample model parameters from prior, ✓ k ⇠ p(✓)
Train ensemble’s k-component via maximum likelihood estimation
(MLE) // Eqn. (??) ✓ k
arg max✓ E(x,y)⇠Dk [log q(y|x; ✓)]
// Online planning
x, G
env.reset()
while not done do
Get robust imitative plan // Eqn. (??)
y⇤
arg maxy log q(y|x; ✓) + log p(G|y)
✓

8
9
10
11
12

13
14

// Online adaptation
Estimate the predictive variance of the y⇤ plan’s quality under the
model posterior // Eqn. (??) u(y⇤ ) = Varp(✓|D) [log q(y⇤ |x; ✓)]
if u(y⇤ ) > ⌧ then
y⇤
Query expert at x
B
B [ (x, y⇤ )
Update model posterior on B // with any few-shot
adaptation method
at
I(·|y⇤ )
x, G, done
env.step(at )

23

24.

Adaptationの実験 Q5. RIPによる不確実性推定はエキスパートへの問い合わせに使えるか？ Q6. AdaRIPはsuccess rateを改善するか？評価指標：Adaptation Score ‣ success rateの改善度合い：オンラインデモの数における関数 24

25.

小まとめ分布シフトに対して，検出・復旧・適応は可能か？ ‣ Epistemic uncertaintyの計量を可能にした模倣学習RIPを提案 ‣ オンラインフィードバックを受けるAdaRIPを提案コードとベンチマークを提供 ‣ OpenAI Gymのような使い方が可能今後の課題 ‣ リアルタイム実行が要求されている時，アンサンブルモデルは厳しい ‣ オンライン最適化をすると，破滅的忘却が起きてしまう 25

26.

アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples ✓ FAIRチーム 26

https://sites.google.com/view/av-detect-recover-adapt

27.

TL;DR 教師なし(自己教師あり)学習でViTを訓練させてみた 27

28.

背景 Vision Transfomer(ViT)の性能がかなり良い ‣ 詳しくは岩澤さんの資料を見てください ‣ CNNといい勝負 ‣ 計算量大，大量のデータが必要で微妙 ‣ ViTならではの性質もわかってない自己教師あり学習をしたらどうなるのか？ ‣ BERTやGPT(NLP)ではかなりうまく行ってる ‣ →クラスラベルの推定だと教師信号を減らしてしまってる ‣ 画像も同様のことが言える 28

https://www.slideshare.net/DeepLearningJP2016/dltransformer-vit-perceiver-frozen-pretrained-transformer-etc

29.

DINO: knowledge DIstillation with NO labels DINO = 自己教師あり学習+知識蒸留 29

30.

知識蒸留による自己教師あり学習生徒モデルgθsの出力を教師モデルgθtに近づける ‣ 温度つきソフトマックスを利用して，カテゴリカル分布をモデル ‣ 二つの分布の距離をクロスエントロピーでとる異なる変換をした画像を各モデルに入力する ‣ global views g g x1 , x2 ：元画像の50％以上の大きさ min θs ∑ g g ∑ x∈{x1 ,x2 } x′∈V,x′≠x H(Pt(x), Ps(x′)) ‣ local views：元画像の50%以下の大きさ ‣ 教師モデル：global viewsのみ ‣ 生徒モデル：local viewsのみ localの特徴量をglobalの特徴量に近づかせる 30

31.

学習生徒モデル：SGD，教師モデル：学習なし ‣ 生徒モデルの重みを指数的移動平均したものを利用(i.e. momentum encoder) θt ← λθt + (1 − λ)θs ✓ λ：0.966から1へcosineスケジュール ‣ お気持ち：mean teacherに近い役割 ✓ 最後の重みではなく，学習途中の重みを平均とったほうが性能が良い ✓ ->モデルアンサンブルのようなもの 31

32.

ネットワークアーキテクチャネットワークgはバックボーンfと写像ヘッドhの合成: g = h ∘ f ‣ ダウンストリームタスクではfの特徴量を利用 ‣ h：3層のMLP + ℓ2正規化 + weight normalized 32

33.

Model collapseの回避自己教師あり学習：model collapseが起きやすい ‣ Collapse：全ての入力に対して同じ表現になってしまう現象教師モデルの出力のcenteringとsharpeningによるcollapse回避 ‣ sharpening: 特定の次元に集中させる ✓ 温度つきソフトマックス ‣ centering: 特定の次元に集中させずに一様分布になるようにする B 1 c ← mc + (1 − m) gθt(xi) B∑ i=1 33

34.

実装や実験まわり DeiT(Data-e cient Image Transformers)の実装に準拠 ‣ ImageNetで学習 ‣ adamwオプティマイザ x 1024BS ✓ ウォームアップ+cosineスケジュール ‣ 16GPU(多分V100) ‣ 温度τs = 0.1，τtは最初の30エポック0.04-0.07 ‣ データ拡張：color jitter/gaussian blur/solarization multi-crop ffi 34

35.

分類精度 ResNetの時よりDeiTにした時の性能がとても良い ‣ k-NNがlinearを乗せた時と同じ 35

36.

semantic segmentation Semantic Segmentation用に学習してなくてもいい感じ ‣ 近傍法ベースのsemantic segmentation[Jabri et al.] 36

37.

Supervisedと比較 Supervisedよりself-attention mapもいい感じ 37

38.

小まとめ ViTを知識蒸留＋自己教師あり学習してみた ‣ 教師なしでも物体に着目しているself-attention mapが得られた ‣ 特徴量を使ったk-NNでかなりいい精度(ImageNetで78.3%) 色々な実験をしているので詳細は論文を見てください ‣ さまざまなダウンストリームタスクやablation studyをやっている ‣ アーキテクチャの模索も色々画像におけるBERTを目指しているらしいので，今後に期待？ 38

39.

アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples ✓ FAIRチーム 39

https://sites.google.com/view/av-detect-recover-adapt

40.

TL;DR 自己教師あり学習にラベルつきデータを利用するといい性能が出る 40

41.

Predicting view Assignments With Support Samples 大きなラベルなし画像 = N (xi)i=1とラベルあり画像 = (x M i, yi)i=1(M ≪ N)を仮定 ‣ 目標：とを使って事前学習で表現を獲得すること ✓ ‣ は ne-tuningに利用 + ̂ ̂ Multi-cropを利用してデータxを2種類のデータxとx にして双方の表現を近づける ✓ 双方の表現とラベルありデータの表現の類似度計算をして，疑似ラベルを出力 𝒮 ✓ 疑似ラベル同士で比較をする 𝒮 fi 𝒮𝒮 𝒟 𝒟 41

42.

PAWSアルゴリズム各クラスのデータとの類似度でラベルを生成 x̂i xi fθ zi データ拡張 (multi-crop) xs, ys ∼ + x̂i fθ + zi πd(zi, z ) = ∑ (zsj,yj )∈z d(zi, zsj) ∑z sk∈z d(zi, zsk) yj pi fθ + H(ρ(pi), pi ) + + H(pi, ρ(pi )) ρ(pi) + ρ(pi+) −H 2 ( ) zs 勾配カットエントロピー温度を下げる 𝒮 𝒮 𝒮 𝒮 =尖らせる + ρ(pi ) =一様にする 42

43.

実験結果 10分の1くらいのエポック数で精度も高い 43

44.

小まとめラベルありデータも自己教師あり学習に使う ‣ PAWSという学習アルゴリズムを提案 ‣ Simularity Classi erπdを用いることで，ラベルありデータにover ttingしない ✓ ラベルありデータが外部記憶のような役割で，πdは注意機構の役割っぽい • ピアジェの同化と調節と関係している？(興味があれば論文を) ‣ 既存手法よりも約10倍効率良く，かつ高精度で学習が可能であることを示した fi fi 44

45.

発表まとめ自動運転技術に役立ちそうな論文を独断と偏見で選択 ‣ 実世界を網羅したデータセットの作成(アノテーション含)は厳しい ✓ 1)現時点でデータが足りているのか判断したい ✓ 2)使ってないデータは（おそらく）大量にあるから使えないか感想としては： ‣ 実応用に耐えうるため，ベイズ的な考え方は重要？ ‣ 自己教師あり学習では，出力分布の尖り具合(一様具合)を制御すると良いっぽい？ ‣ BERTのような万能？モデルが今後出てくるのか？ 45

[DL輪読会]自動運転技術の課題に役立つかもしれない論文3本

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト