[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

>100 Views

April 05, 22

deep learning

スライド概要

2022/04/01
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 26.4K

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 25.8K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13.4K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 12.6K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.5K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 10.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time 小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time https://arxiv.org/abs/2203.05482 著者： Mitchell Wortsmany, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt 概要： • • • • 異なるハイパーパラメータの構成で学習した複数のファインチューニングモデルの「重み」を平均化することで、「精度」と「ロバスト性」が向上させる手法「Model soups」を提案。従来のアンサンブルとは異なり、推論コストやメモリコストをかけることなく、多くのモデルを平均化することができる。 CLIP、ALIGN、JFTで事前学習したViT-Gを利用することで、ImageNetで最良のモデルよりも大幅に改善し、90.94%のトップ1精度を達成。さらにこのアプローチが、複数の画像分類や自然言語処理タスクに拡張され、分布外性能を向上させ、新しい下流タスクのゼロショット性能を向上させることを示す。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://arxiv.org/abs/2203.05482

１. 導入背景 • 従来、モデルの精度を最大化するためには、（1）様々なハイパーパラメータ構成でモデルをファインチューニングする。（2）最も良い性能を示すモデルを選択する。（残りのモデルは破棄する。）という方法があるこのとき、捨ててしまう他のモデル（の重み）を有効利用できないか、ということが本モデルの着眼点。 1つのモデルを選び、それ以外を捨てることには、いくつかのデメリットがある。（１）選択されたモデルが最高の性能を発揮するとは限らない。特に、多くのモデルの出力を集めたアンサンブルは、推論時に高い計算コストになるものの、最良の単一モデルを上回る性能を発揮することがある。（２）下流タスクでモデルをファインチューニングすると、性能が低下することがある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

２. 先行研究モデルの重みの平均 • モデルの重みの平均化は、凸最適化および深層学習においてよく使われるアプローチである。 • ほとんどのアプリケーションは、同じ最適化軌道に沿ってモデルを研究している。 • Frankleらは、同じハイパーパラメータ構成でデータ順序が異なるモデルのペアをゼロから学習する場合、重みを補間するとランダムな精度より良くならないことを発見した。しかし、2つのモデルが最適化の軌跡の一部を共有している場合、それらを重みを補間（平均化）しても精度は落ちない。 • Frankleらは、2つのモデルが同じ事前学習されたモデルでファインチューニングするとき、補間されたモデルは少なくとも終点において高い精度を達成することを実証している。 Model soupの違い • 初期化を共有するが独立して最適化したモデルの重み平均を利用する。 • FrankleらやNeyshaburらとは異なり、様々なハイパーパラメータ構成を持つ多くのモデルの平均化を考慮する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

２. 先行研究 Averaging Weights Leads to Wider Optima and Better Generalization • 「ニューラルネットワークは非線形であり、さまざまな損失盆地に多くの解が存在する可能性があるため、個別にファインチューニングしたモデルの重みを平均化することで高いパフォーマンスが得られる」 • Loss randscapeの同じ盆地のなかで同じように初期化している。 • 単一の訓練軌道に沿った重みの平均化は、ランダムな初期化から訓練されたモデルのパフォーマンスを改善することが示されている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/1803.05407.pdf 6

https://arxiv.org/pdf/1803.05407.pdf

２. 先行研究事前学習とファインチューニング • コンピュータビジョンや自然言語処理では，最適なモデルを大規模なデータセットで事前学習した後、目的のタスクのデータでファインチューニングすることが多い。転移学習とも呼ばれる。 • 近年、コンピュータビジョンにおいて、画像-テキスト事前学習は事前学習タスクとしてますます普及している。 Model soupの違い • 初期化時にモデルを正則化する、調整する層を選択する、学習過程で層を再初期化する、あるいはデータ依存のゲーティングで複数の事前学習済みモデルを使うことにより、転移学習を改善することが試みられているが、model soup では、標準的なエンドツーエンドのファインチューニングモデルを探求している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7

２. 先行研究アンサンブルモデル • 多くのモデルの出力を組み合わせることは、精度を向上させるための基礎的な技法である。機械学習モデルの頑健性がある。 • Ovadiaらは、分布シフトのもとでアンサンブルは高い精度を示すことを示している。 • Mustafaらは、事前学習したモデルのサブセットを識別してファインチューニングを行い、その後アンサンブルを行う方法を提案し、強い分布内精度と分布シフトに対する頑健性を見出した。 • Gontijo-Lopes らは、アンサンブルの大規模な研究を行い、学習方法における高いダイバージェンスは、相関のないエラーと、より良いアンサンブル精度につながることを発見した。 • これまでの研究では、ハイパーパラメータ探索によって生成されたモデルのアンサンブルを構築している。そのため、各モデルを個別に推論する必要があり、計算コストが増加することが問題である。 Model soupの違い • アンサンブルとは異なり、model soupは推論時に余分な計算を必要としない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

３. 手法本研究の手法：Model soup • 大規模な事前学習済みモデルのファインチューニングにおいて、より正確でロバストな代替案を提案する。 • 事前学習されたモデルのうち、最も精度の高いモデルを選択するのではなく、個別に調整したモデルの重みを平均化し、その結果をModel soupと呼ぶ。 • 最初のステップの結果、ファインチューニングしたモデルに対してハイパーパラメータスイープを行い、これらのモデルのいくつかを平均化してモデルスープを形成すると、追加の学習は必要なく、推論時のコストもかからない。 • 単一の学習軌道に沿った重みの平均化は、モデルの性能を向上させることが以前に示されている。本手法は、重み平均をファインチューニングの文脈に拡張し、多くのデータ、モデル、タスクにわたっても有効であることを発見。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9

10.

３. 手法 model Soup の式とアルゴリズム（入力 𝑥 , パラメータ 𝜃）ニューラルネットワークのモデル関数 𝑓(𝑥, θ) ファインチューニングしたパラーメータ θ = 𝐹𝑖𝑛𝑒𝑇𝑢𝑛𝑒(θ0 , ℎ) （初期値 θ0 , ハイパーパラメータ ℎ）ファインチューニングしたパラーメータ（ハイパーパラメータ構成を考慮） θ𝑖 = 𝐹𝑖𝑛𝑒𝑇𝑢𝑛𝑒(θ0 , ℎ𝑖 ) （ハイパーパラメータ構成 ℎ1 ,・・・, ℎ𝑘 ） model soups 𝑓(𝑥, θ𝑠 ) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

３. 手法具体的な方法ファインチューニングの前提 • 事前学習モデルの重みは同じハイパーパラメータの構成 1. 2. 3. 4. 最適化関数（optimizer）データ拡張（data augmentation）学習回数（training iterations）データ順を決めるランダムシード（a random seed which will determine data order） Model Soupの種類 1. uniform soup：全てのモデルを一律組み込んで平均する。 2. greedy soup：検証データに対して精度が良かったもののみを平均する。 3. learned soup：勾配ベースのミニバッチ最適化によって重みを補完する。（全てのモデルを同時にローディングする必要が有り、巨大なモデルを利用しているようになる。） Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

4. 実験セットアップ • Fine-tuning：最終層だけでなく、すべての層も含め再学習させる。 • 利用するモデル：CLIP、ALIGN、ViT-G/14（特に明記しない限りCLIP ViT-B/32）。 • 分類器の初期化：LP初期化。 ※Fine-tuning前の分類器の初期化については、LP初期化とゼロショット初期化があるが、両者は似たような傾向を示したので、前者を採用している。 • LP初期化：linear probe からモデルを初期化する方法。 • ゼロショット初期化：初期化としてCLIPもしくはALIGNのテクストタワーを利用しているもの。 • アンサブルのベースライン：正規化されていない出力をアンサンブル。 • 損失関数：クロスエントロピーロス。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

４. 実験結果 • JFT-3Bで事前学習したViTG／14モデルをImageNet 上でファインチューニングした場合、個々の最適なモデルよりも精度を向上。 • 分布シフト下でのモデル性能を評価するために、 ImageNet-V2, ImageNet-R, ImageNet-Sketch, ObjectNet, ImageNet-Aの平均精度を比較し、 Greedy soupの精度が上回ることを確認。 • Uniform soup（青丸）は、学習率、重み減衰、反復、データ増大、混合、ラベル平滑化に関するランダムハイパーパラメータ探索において、すべてのファインチューニングモデル（緑の菱形）を平均化したものである。 • ImageNet上のCLIP ViT-B／32モデルを大規模かつランダムにハイパーパラメータ探索し、ファインチューニングを行った場合、model soupは個々の最適なモデルよりも精度を向上させる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

４. 実験 Error landscape • CLIPをImageNetでファインチューニングしたときの結果。 • ランダムシードや学習率が異なるときの学習時の損失とテストの不正解率、平均不正解率を示した図。最も高い正解率がファインチューニングモデルよりもそれらの間にあることがわかる。 ※3つのモデルがまたがる平面の正規直交基底u1、u2を取得し、 x軸とy軸はそれぞれこれらの方向のパラメーター空間での動きを示している。 • これらの結果は、（1）2つのファインチューニングされたソリューションの重みを内挿すると、個々のモデルと比較して精度が向上する可能性があり、（2）より相関のないソリューション（90度に近い角度を形成するモデル）が線形補間の精度を高める可能性があることを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

４. 実験精度と角度 • 精度と角度(θ1 − θ0 と θ2 − θ0 ) の相関を調べるために、異なるシード、学習率、データ補強で学習させた一連のモデルを考える。 • θ1、θ2について、以下の値を比較する（補間メリットと呼ぶ） • 右図より、内挿メリットと角度Φには相関があり、学習率、シード、データ補強を変化させると、より直交性の高い解が得られることがわかる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

4. 結果 Fine-tuning CLIP and ALIGN • x軸はモデルの数、y軸は精度。 • Uniform soupとGreedy soupの性能、および、これまでの最良の単一モデルとアンサンブルの精度とモデル数の関数として示している。 • Greedy soupはImageNetでは、 Uniform soupより良く、分布外では Uniform soupと同程度である。 • アンサンブルはImageNetではGreedy soupより優れているが、分布外では劣っている。 • すべての方法は、同じ量の学習と推論時の計算コストを必要とするが、アンサンブルは例外で、各モデルを個別に通過させる必要がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

4. 結果 Fine-tuning CLIP and ALIGN Ablation on multiple methods • • • CLIP ViT-B/32をランダムハイパーパラメータ探索でファインチューニングしたときのアブレーション。 Greedy soup (random order)では、3つのランダムオーダーのレポート平均と標準偏差を試している。アンサンブルがモデルのキャリブレーションを向上させたのに対して、model soup は向上させることはできなかった。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

４. 実験 Fine-tuning CLIP and ALIGN • Model soupの一般性を確認するために、分類タスクWILDS-FMoW と WILDS-iWildCam においても検証。 • 同様にmodel soupが精度を向上させる。これらの結果から、以下のことが確認できた。（1）Greedy Soup は、最良の個別モデルよりも優れている。追加のトレーニングや推論中の追加の計算がなくても、より優れたモデルを作成することができる。（2）Uniform Soup は最高の個々のモデルよりも優れている可能性はあるが、すべての個々のモデルが高精度を達成した場合にのみ、その可能性がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

４. 実験 Fine-tuning a ViT-G model pre-trained on JFT-3B • ImageNet検証セット、5つの分布シフトデータセット、および、ReaL と multilabel という2つの再ラベル化ImageNet 検証セットでの結果を検証。 • このSoupは、ObjectNetを除く全てのデータセットにおいて、ファインチューニングした58のモデルのうち14を選択している。 • ReaL と ObjectNetにおいてのみ、Soupよりも統計的に有意に良い性能を示す個別モデルが存在し、この2つのデータセットでは最適なモデルが異なっている。 • Greedy ensembleは、ImageNet top-1およびマルチラベル精度において、Greedy soupと同様の性能を示し、 ReaLではわずかに優れているが、Greedy soupの方が、ImageNet-V2を除くすべての分布シフトデータセットで有意に優っている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

４. 実験 Fine-tuning on text classification tasks • • • • 画像分類以外の領域にも及ぶかどうかを検証するために、自然言語処理にて実験。 BERT-base とT5-base で検証。改善は画像分類ほど顕著ではないが、自然言語処理においても効果がある。 Greedy soupは多くの場合、最良の個別モデルよりも性能を向上させることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

４. 実験 Robust fine-tuning • ロバストファインチューニングのベースラインと比較したModel soup。 • WiSE-FTは、初期値θ0 からファインチューニングしたモデルθ1 を θ1 と θ0 の間で補間することにより、ロバスト性を向上させる。 • 下図は、通常のファインチューニングモデルとModel soupの両方について、これらの補間曲線に沿ったモデルの精度を表示している（左：LP初期化によるランダムハイパーパラメータ探索。右：ゼロショット初期化による格子探索）。 • modelは個々のモデルが生成するWiSE-FT曲線の先にあり、model soupにWiSE-FTを適用することで、分布シフトの精度を向上させることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

４. 実験 Cross-dataset soups • これまでの実験では、同じデータセットで異なるハイパラメータでファインチューニングされたmodel soupを検証してきた。 • 本節では、異なるデータセットでファインチューニングされたmodel soupを用意する。得られたsoupを、ラベル付き学習データを用いないホールドアウトデータセットで評価する（すなわち、ゼロショット評価）。内容 • CIFAR-10 、Describable Textures 、Food-101 、SUN397 、Stanford Cars と ImageNet で個別にファインチューニングした6モデルとともにCLIPゼロショット初期化に基づいてsoupを考察する。 • CIFAR-10とクラスを共有していないCIFAR-100 で評価する。 • 各タスクは異なるクラス集合を持つため、最後の層はスープの一部にはなり得ない。そこで、ファインチューニングの際に、 CLIPのテキストタワーが生成する線形headを凍結し、タスク固有の学習がバックボーン重みにのみ取り込まれるようにする。 • テスト時には、CLIPのテキストタワーとCIFAR-100のクラス名から構築したゼロショットheadを持つ「バックボーンスープ」を、 RadfordらがImageNetで用いたプロンプトアンサンブルを使用する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

４. 実験 Soups とアンサンブルの比較 • ゼロショットCLIPから、ImageNet、CIFAR-10、Food101、 SUN397、DTD、Carsでファインチューニングしたモデルを追加して soupを作成し、CIFAR-100で評価している。 • モデルを追加する順番が異なる場合は、薄く線を引いて示している。 • これらの各データセットで学習したモデルとゼロショットモデルを含む model soupにより、CIFAR-100のゼロショット性能がCLIPベースラインより6.4%ポイント向上していることを示してる。 • Y軸に示したデータセットでファインチューニングしたモデルを Model soupに追加した場合のCIFAR-100の精度の平均変化量を示す。 • どのファインチューニングされたモデルを含めるかの選択が、結果として得られるsoupの精度に大きな影響を与えることを示している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23

24.

４. 実験 2-model soupとアンサンブルの性能差に関する解析的近似値の検証 • パラメータθ0 とθ1 の2つのモデルのみからなるスープを考える。重みパラメータ 𝛼 ∈ [0, 1] θα = 1 − α θ0 + αθ1 とするとが、両エンドポイントである min{𝑒𝑟𝑟0 , 𝑒𝑟𝑟1 }の最小値より低くなるのはいつなのか？アンサンブルモデルの式 𝑒𝑛𝑠 アンサンブルモデルの 𝑒𝑟𝑟α は、通常 min{𝑒𝑟𝑟0 , 𝑒𝑟𝑟1} より小さい。交差エントロピー誤差 • 以上から、損失差の近似値を以下のように導出する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24

25.

４. 実験 2-model soupとアンサンブルの性能差に関する解析的近似値の検証 • 近似をテストするために、異なる学習率、データ拡張、ランダムシード、𝛼値を持つファインチューニングしたモデルのセットで評価した。soup modelを較正するためにβを設定し、soup／アンサンブル誤差の差を予測する近似の能力を向上させることがわかった。全学習率(loss) 学習率𝟏𝟎−𝟒 未満（loss）学習率𝟏𝟎−𝟒 未満(error) • 散布図上の各マーカーは、 (θ0 , θ1 )と補間重み 𝛼 の異なる選択を表す。 • 縦軸はsoupとアンサンブルの真の性能差（左と中央はloss、右はerror）を示し、正の値はアンサンブルが優れていることを示す。横軸は、損失差に対する近似値を示す。 • 上段は、較正パラメータ β を調整。下段はβを 1に固定した場合の結果。 • 10−4 という高い学習率を除いた場合、近似値はerrorの差だけでなく、真のlossの差にも強い相関があり、近似値と真のlossの差は概ね符号が一致していることが分かる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25

26.

５. まとめ結論 • 異なるハイパーパラメータで学習された複数のファインチューニングモデルの「重み」を平均化することで、「精度」と「ロバスト性」が向上させる手法「Model soups」を提案。 • アンサンブルとは異なり、モデルスープは推論時に余分な計算を必要としない。 • 「CLIP、ALIGN、ViT-G」などで単一モデルよりも高い精度を達成。 • ゼロショット転移の性能が向上することを確認。 • 画像のみでなく、自然言語などのタスクにも利用できることを確認。 • 重み平均「weight-averaging」とアンサンブル「logit-ensemble」の類似性について分析し、実験的に明らかにしている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26

27.

Appendix 参考文献 • [32] Jonathan Frankle, Gintare Karolina Dziugaite, Daniel Roy, and Michael Carbin. Linear mode connectivity and the lottery ticket hypothesis. In International Conference on Machine Learning (ICML), 2020. https://arxiv.org/abs/1912.05671. • [46] Pavel Izmailov, Dmitrii Podoprikhin, Timur Garipov, Dmitry Vetrov, and Andrew Gordon Wilson. Averaging weights leads to wider optima and better generalization. In Conference on Uncertainty in Articial Intelligence(UAI), 2018. https://arxiv.org/abs/1803.05407. • [47] Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V Le, Yunhsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning (ICML), 2021. https://arxiv.org/abs/2102.05918. • [72] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (ICML), 2021. https://arxiv.org/abs/2103.00020. • [102] Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, and Lucas Beyer. Scaling vision transformers, 2021. https://arxiv.org/abs/2106.04560. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 27