【DL輪読会】Accuracy on the Curve: On the Nonlinear Correlation of ML Performance Between Data Subpopulations

3.7K Views

January 12, 24

#AI #機械学習 #OOD汎化 #分布シフト #モデルロバスト性

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Accuracy on the Curve: On the Nonlinear Correlation of ML Performance Between Data Subpopulations Makoto Kawano (@mkt_kwn), Matsuo Lab. http://deeplearning.jp/

書誌情報 1. Accuracy on the Line: On the Strong Correlation Between Out-of-Distribution and In-Distribution Generalization § John Miller, Rohan Taori, Aditi Raghunathan, Shiori Sagawa, Pang Wei Koh, Vaishaal Shankar, Percy Liang, Yair Carmon, Ludwig Schmidt § University of California, Berkeley, Stanford University, Tel Aviv University, Toyota Research Institute § ICML2021 2. Agreement-on-the-Line: Predicting the Performance of Neural Networks under Distribution Shift § Christina Baek1 Yiding Jiang1 Aditi Raghunathan1 Zico Kolter § Carnegie Mellon University, 2Bosch Center for AI § NeurIPS2022 3. Accuracy on the Curve: On the Nonlinear Correlation of ML Performance Between Data Subpopulations § Weixin Liang, Yining Mao, Yongchan Kwon, Xinyu Yang, James Zou § Stanford University, Zhejiang University, Cornell University § ICML2023 2

はじめに • AIモデルを実運⽤すると，OODばかり直⾯する § 学習に使うデータ：実世界データをできるだけ再現するべき →多くのタスクの動的・⾼次元・組み合わせの複雑さを捉えきれない 1. OODデータでのAIモデルの性能は信⽤できるか？ 2. AIモデルのIDにおける性能とOODにおける性能の関係性は？ 3

OODにおける性能解析 • 古典的な転移学習/ドメイン適応の⽂脈では解析されてる 𝓗𝚫𝓗ダイバージェンスを⽤いた汎化誤差の上界[Ben David+, 2010] 仮説空間Hが与えられ，転移元分布(ID)𝒮と転移先分布(OOD)𝒯があるとき，転移先分布における仮説hの汎化誤差は，となる．ただし，𝑑ℋ"ℋ はℋΔℋダイバージェンスを表し，Cは真に最適なh*を使っても⽣じる誤差(hに対しては定数)を表す． →⼆つの分布の差が⼤きければ⼤きいほど，OODでの性能は劣化する 4

Accuracy on the line[Miller+, 2021] • CIFAR-10やImageNet(再構築ver.)でIDとOODに正の相関が確認 § 従来のデータセットでは確かにIDとOODの性能は⼀致してなかったこの論⽂の⽬的：正の相関関係がどこまで通⽤するのか検証 5

正の相関関係現象の例１ • 再構築されたデータセット(CIFAR-10/ImageNet) § 同じ⼯程でデータを収集してるが，分布シフトが起きている • ノイズを追加したデータセット § テストセットにFogなどを追加 • ⾃然世界のデータセット § 収集した時期が違う 6

正の相関関係現象の例２ • ハイパラ/学習時間/訓練データの量を変えても確認できる 7

正の相関関係の現象が現れない例 • 乳がんの識別データセットでは，全く相関がなかった § テストセット内の画像同⼠の類似性が⾼いせいではないかという仮説 • ガウスノイズを乗せた場合も相関が弱かった § 訓練データと同じ共分散のノイズだと相関が出現 8

Accuracy on the lineの影響 • もし正の相関関係があるなら，MLシステムで応⽤が可能 § 特定の分布ペアだけでなく，様々な分布シフトで相関関係が発⾒されてる ü CIFAR-10 vs CIFAR-10.1/CIFAR-10.2/CINIC-10/STL-10/FMoW-WILDS ->もし，実⽤時に⼀つでも相関ペアを発⾒したら似た分布でも⽣じるはず • 具体的な影響： 1. ID/OODで性能が良いモデルの選択 ü 線形性があれば，IDで性能が良いモデルを選べば良い 2. 「OODにおけるロバスト性」=「OODでの性能」+「IDとOODでの性能差」 ü ID性能以外のところでロバスト性向上の学習⼿法を提案するなら，性能差の検証も必要 ü 様々なモデルでのID/OOD性能を可視化など 3. ロバスト性を上げる⽅針決め ü アーキテクチャなどはOOD性能に寄与しない→事前学習に注⼒，など 9

10.

Accuracy on the lineに対するQA • あらゆる分布シフトは線形傾向にあるのか？ § No. すでに線形傾向にない例もあるし，敵対的分布シフトにも傾向がないことは既知．⼀⽅で⾃然な分布シフトには多岐にわたるモデルで線形の傾向があるのも事実 • IDの性能向上を頑張れば良いのか？ § No. 全ての分布シフトに傾向はないため，探索が必要 • 線形傾向にないモデルを作ることは可能か？ § Yes. Cクラス分類問題で，確率pで分類器fの出⼒，1-pでランダムなクラスを出⼒するモデルは，pを0-1で変えて⾏った時，線形にならない 10

11.

OODでの性能予測 • IDとOODの間に線形性があれば，OODの精度を予測ができる § ただし「OODにラベルが付与されていれば」可能性があるという話 § データセットによっては線形性がないことはわかってる • ラベルが付与されていないOODでの性能推定研究も多い § ただし，いずれもIDとOOD間に⼀定の分布シフトの仮定をおく必要あり § 仮定なしに推定は不可能だから良いとしても，⼿法選択の指針がない様々なシフトが起きているラベルなしOODの精度推定は可能か？ 11

12.

数式記法 [定義] 精度とAgreementについて 𝒟!" からサンプリングされた 𝑋#$%&' , 𝑦#$%&' = 𝑥& , 𝑦& *!"#$% で学習された複数のNN集合をℋとする． &() 任意の2つのモデルℎ, ℎ+ ∈ ℋの分布𝒟における精度及びAgreementは，と定義される * !" ℎ ：IDの検証データにはラベルが付与されているため，算出可能 • 𝐴𝑐𝑐 * ,,- ℎ ：ODDにはラベルが付与されていないため，算出不能 • 𝐴𝑐𝑐 • Agreementはラベルが必要ないため，ID/OODともに算出可能： 12

13.

Agreement on the line[Baek+, 2022] • ８種類のデータセットx150種類以上のDNNで検証 →ID vs OODのAgreementに線形性あり 13

14.

Agreement on the lineの特徴 • 特徴１：ID vs OODの精度に強い相関がある時，Agreementにも強い相関がある • 特徴２：精度とAgreement双⽅に強い相関がある時，ほぼ同じ傾きと切⽚を持つ • 特徴３：ID vs OODの精度が弱い相関である時，Agreementも弱い相関がある 14

15.

Agreement on the lineは何が⾯⽩い？ • ラベルなしで計算することができる § Accuracy on the lineの検証の有無/ラベルなしOODの精度を予測可能(後述) • Accuracy on the lineから直接推定ができない § 異なる構造/同じ学習中の異なる段階でもAgreement on the lineは確認できる 5 5 R FF R Agreementの傾向が⼀致する F R • DNNだけが精度の傾向と FF F →この場合ID vs OODの精度とは⼀致しない R § 特徴１は満たすけど，特徴２がない 5 1 5 1 R 7 V R N V FF F 5 5 R 11 R V 90 L 0R 7 V FF RRV F 15

16.

モデル選択やOODの性能推定 16

17.

実験｜OODの推定精度 17

18.

Accuracy (Agreement) on the “line”は本当なのか？ Accuracy on the lineの実⽤性の解像度を上げたい実世界で頻繁に起こる2種類のsubpopulationシフトで分析 • Subpopulation シフト[Eyuboglu+. 2022, Oakden-Rayner+, 2020] • 擬似相関がある集団 § ⽝：屋外 § 猫：屋内分類したい • 希少集団 § 擬似相関はないが，テストセットに類似したデータが訓練側に屋内外の分類でも正解になってしまうほぼ含まれていない 18

19.

Accuracy on the “Curve” • 全く“線形”ではない=>⽉の形をとっている • 擬似相関がある集団 § 完全に⽉形 • 希少集団 § 少し緩い⽉形 19

20.

記法周り [定義] 機械学習におけるSubpopulations 全てのデータ分布を𝒟 = 1, … , 𝐷とし，各部分集団𝑑 ∈ 𝒟はデータ分布𝑃. に対応するとき， IDもしくは訓練データ分布を OODをと定義する．ただし，𝑟.#$ および𝑟.#/ はそれぞれの分布の混合確率を⽰し，𝑟.#$ ≠ 𝑟.#/ である．単純化のためD = 2とし，majority/minority subpopulationの割合を変えてデータセットを作成実験⼿順： ID OOD Major : Minor = 90 : 10 Major : Minor = 50 : 50 1. 500個のMLモデルをIDデータ𝑃!" で学習 2. 交差検証で IDデータ𝑃!" での性能を算出し，OODデータ𝑃!# からサンプリング，OOD性能を算出 3. ⼆つの性能を散布図で可視化 20

21.

ID vs OOD => Majority vs Minorityに分解擬似相関がある=⽉形が強い擬似相関がない=⽉形が弱い 21

22.

条件を変更しても⽉形になることが確認できる 22

23.

𝑫 = 𝟑だとしても同様に⽉形になる 23

24.

ドメイン汎化⼿法でも⽉形が存在する擬似相関があるデータセットでは，⽉形の相関が存在するということなのか？ 24

25.

擬似相関を制御した実験 • 分類ラベル(空/陸)と擬似特徴(乗り物/動物)を制御 § 訓練データ：計10000個 § 各クラス5000個ずつ，特徴は6000/4000個ずつ § 合計は変えずに混合⽐を変えていく 25

26.

Agreement on the lineへの影響 • 3次平滑化スプライン補間で同じことをやってみる擬似相関がなければうまくいきそう擬似相関があると全くうまくいかない →実際の精度よりAgreementが⾼くなる Agreement on the lineもoverestimateしてる可能性あり 26

27.

XXX on the YYY発表まとめ • IDとOODの性能差に⼀定の法則を発⾒した研究を紹介 § 膨⼤な試⾏回数で検証 ü 何種類ものデータセットx複数のDNNモデル ü 再構築系/ノイズ追加系/実世界データ系 § IDとOODの間には”基本的には”線形の関係がある ü IDでの性能が上がる => OODでの性能も上がる ü データセット内に擬似相関がある場合は，⽉形になってしまう § 性能と”DNN”の出⼒⼀致(Agreement)にも相関がある ü ODDの性能予測に利⽤可能 ü ただし，線形の相関があるときに限った⽅が良い • 感想など § この辺は，実応⽤上かなり重要な現象であり，研究分野の印象 § まだ実験的なところが多く，理論的なものは(おそらく)今の所ない § 興味ある⽅いたら，⼀緒に研究したいので声かけてください！ 27