【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

28.4K Views

March 29, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Evolutionary Optimization of Model Merging Recipes [DL Papers] モデルマージの進化的最適化 Takayuki Yamamoto(LY Corporation, Waseda Univ. Kawahara Lab. D1) http://deeplearning.jp/ 1

2.

書誌情報 タイトル Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化 著者 発表⽇ 2024/3/19 (arxiv) 概要 既存のオープンな基盤モデルを複数マージし⾼性能なモデルを⽣成する⼿法で、進化的アルゴ リズムで⾃動最適化している 選定理由 基盤モデルの新たなパラダイムの可能性が⾼い為 実装 https://github.com/SakanaAI/evolutionary-model-merge/ ※提案⼿法で構築した基盤モデルと評価スクリプト ※出典記載の無い図表は本論⽂からの引⽤ 2

3.

全体概要 3

4.

複数の基盤モデルの強みをマージする事で⾼性能なひとつのモデルを作る ⼿法概要 強み の部分 多様な能⼒の 3つの 基盤モデル 強み の部分 強み の部分 強みを マージ ⾼い能⼒の 基盤モデル 完成 https://sakana.ai/evolutionary-model-merge-jp/ 4

5.

バックプロバゲーション不要でコスト効率が⾮常に⾼い ⼿法概要 マージプロセス⾃体は GPU不要 https://sakana.ai/evolutionary-model-merge-jp/ 5

6.

⼈類の進化や組織の仕組みを模倣していると感じる 概念 Sakana ai プロジェクトページより抜粋 はじめに ⼈類の知性は、個ではなく、集合として実現されています。我々⼈類は、 個⼈としては、実のところそれほど知的でも有能でもありません。私たち の社会や経済は、異なる専⾨分野や専⾨知識を持つ多様な個⼈で構成され る様々な機関の存在を前提としています。この膨⼤な集合知が、私たち⼀ ⼈⼀⼈の個性を形作っています。そして、私たちは各々異なる⼈⽣を歩み、 唯⼀無⼆の存在となり、今度は⾃らが種となることで、絶え間なく拡⼤す る集合知に貢献していくのです。 https://sakana.ai/evolutionary-model-merge-jp/ 6

7.

あるベンチマークで70BモデルやGPT-3.5を上回る性能 評価(LLM) ⽇本語数学能⼒ マージ元 LLM 提案⼿法 競合モデル 7

8.

VLMや(次回公開予定の)⽇本語画像⽣成モデルにも本件⼿法を活⽤ Vision Laguage Model 英語のVLM (LLaVa-1.6-Mistral-7B) ⽇本語のLLM (Shisa Gamma 7B v1) https://sakana.ai/evolutionary-model-merge-jp/ 8

9.

具体的内容 9

10.

モデルマージングは、LLMコミュニティーにおける最近の実験的⼿法 背景 モデルマージライブラリ “mergekit” https://github.com/arcee-ai/mergekit ←パラメータマージ ←フランケンマージに使われる 10

11.

既存⼿法の課題 n 既存のモデルマージングのアプローチは、直感やドメイン知識に依存 n “フランケンマージング”(複数LLM内のレイヤー単位のルーティング 最適化)の探求は不⼗分 11

12.

解決した課題 n オープンソースLLMを組み合わせることで、ユーザーが指定した能⼒ を持つ新しい基盤モデルを⾃動的に作成する⼀般的な⽅法を提案 n 進化的アプローチを提案することで、モデルマージングに関わる複雑 さを⾃動化し、新しいモデル組み合わせの発⾒を可能に n 進化的モデルマージングの⼿法が、勾配ベースの学習を必要としない 為、GPU不要 12

13.

貢献 1. ⾃動モデル合成: 新しい基盤モデルを創出するために、ユーザー指定の機能を持つ多様なオープンソー スモデルの最適な組み合わせを⾃動的に発⾒する進化的モデルマージ⽅法を導⼊ 2. クロスドメインマージング: 異なるドメイン(例えば、⾮英語⾔語と数学、⾮英語⾔語とビジョン)か らのモデルを統合する新しい⽅法を発⾒できることを実証 3. 最先端のパフォーマンス: 数学的推論能⼒を持つ⽇本語LLMと⽇本語のビジョン・⾔語モデル (VLM)を⾃動⽣成することで、明⽰的な最適化なしに様々なベンチマークで最先端のパフォーマン スを達成 4. ⾼効率と驚くべき汎⽤性: 7BパラメータのLLMが、ベンチマークデータセットで以前の70Bパラメー タの⽇本語LLMのパフォーマンスを上回った 5. ⽂化を意識したVLM: ⽇本特有の⽂化コンテンツを扱う能⼒を⽰し以前の⽇本語VLMを上回る結果 6. オープンLLM化:2つの最先端の⽇本語基盤モデル(EvoLLM-JPとEvoVLM-JP)を公開 13

14.

PSとDFSの2つの⼿法を組み合わせ、進化的最適化でモデルの強みをマージする 提案⼿法 全体像 Q1: ミシカは短パンを3枚、⻑ズボンを3枚、靴を3⾜買った。… 全部でいくらかかった? Q2: シンシアは毎晩アイスクリームを1⼈前⾷べる … 60⽇後、彼⼥はアイスクリームにいくら使っただろうか? パラメータ マージ PS ü タスクベクトルマージ TIES-MergingをDARE ⼿法で強化 ü CMA-ESで最適化 データフロー 最適化 DFS 基盤モデル B 基盤モデル A ü レイヤーON/OFF ü レイヤー間ウェイト ü CMA-ESで最適化 両⼿法の 最適組み合わせ ü 2モデルに制限 ü 多⽬的遺伝的アルゴリ ズムNSGA-II等でDFS最 適化する 14

15.

探索空間を絞るため各層を重ね、どの層をON/OFFするかで最適化 提案⼿法 経路 or NOT 1の場合経路 =1 DFS(データフロー最適化) 推論パスステップ t t=1 =0 i:モデル番号 j:レイヤー(層)番号 i=1, j=1 i=1, j=2 =1 t=2 =1 t=3 n 32層 レイヤー総数:M i=2, j=1 レイヤー間接続ウエイト 32層 Mはレイヤー番号(from,to) n 上記を r 回繰り返し積む としてニューラルネットで やる。θがパラメータ ※当図は輪読者が論⽂の図を再構成して作成したもの ⼿法 ü 基盤モデルA,Bの2つ ü A:32層→B:32層と積み重ねる(r回) ü 各層経路に含めるorNOTをℐ で指定 ü 各層の接続にはウェイトWを挟む 実験設定 ü M=64, r=3 よって T=192 ü Trainデータ末尾200をdevにし最適化 ü EvoJAXフレームワークでCMA-ES ü ℐ と𝒲を⼈⼝128で100世代で進化的最適化 15

16.

全体構造関係図 ⼿法理論 パラメータの 進化的最適化 処理フロー ⽇本語 LLM 英-数学 LLM(1) 英-数学 LLM(2) PS:パラメータマージ PS:パラメータマージ Task演算 DARE “DARE”+”TIES-Merging”⼿法を”CMA-ES”で最適化 TIES-Merging マージ CMA-ES ⼿法 実装Optuna DFS:データフロー最適化 NSGA-II等 マージ後 LLM 元の⽇本語 LLM Optuna実装有 提案⼿法 ロジック (*2) DFS:データフロー最適化 “提案⼿法ロジック”で”マージ後LLM”ベースで最適化(*1) ※当図は輪読者が理解促進の為作成 *1:DFSの最適化がNSGA-II等なのかCMA-ESなのか論⽂に明記なし *2:NSGA-IIの実装がOptunaにあるが、どの実装かの記載は論⽂になし 完成したLLM 16

17.

PSとDFSはCMA-ES⼿法で進化的最適化を⾏う 関連研究 CMA-ES n n https://www.youtube.com/watch?v=DR73g66sdUc 「Kibo-chan channel動く⼈形キボウちゃんチャンネル」より引⽤。該当箇所のみ抜粋編集 ⼿法 ü PS : CMA-ES ü DFS : CMA-ES ü PS+DFS: NSGA-II等 実装 ü PS : Optune ü DFS : EvoJAV ü PS+DFS: OptunaはNSGA-II対応 ※論⽂に明記無し 17

18.

“タスク演算”⼿法をモデルマージに活⽤ 関連研究 タスク演算:パラメータマージ概念の基礎 ”Editing Models with Task Arithmetic”, ICLR2023, University of Washington, Microsoft Research, Allen Institute for AI SFT後 パラメータ Taskベクトル τ プレトレーニング パラメータ 忘却 Taskベクトルを減算 マルチタスク学習 Word2vec的 ベクトル加減算 18

19.

各モデルのタスクベクトルの⼤半をDropoutしスケールしてからマージしパラメータ⼲渉を抑⽌ 関連研究 DARE “Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch”, 2023, Alibaba n n DARE⼿法のポイント ü SFTのタスクベクトルをDropout ü Dropoutで残った部分をスケールUP ü 疎な更新差分でも性能変わらず モデルマージへのDAREの活⽤ ü DARE後の更新差分でマージ ü 疎な状態でマージ→⼲渉が少ない 19

20.

90〜99%Dropoutしても精度は維持(特にモデルサイズが⼤きい場合) 関連研究 DARE “Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch”, 2023, Alibaba 90〜99% Dropout可能 特にモデルが ⼤きい程 ⾼い率可能 DAREを使いパラメータマージ した結果⾼い精度を実現 20

21.

Dropout率の補数の逆数でスケールUPさせる事で精度が維持できる 関連研究 DARE “Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch”, 2023, Alibaba DARE 数式 具体的理解イメージ ※輪読者作成 Dropout率 ベクトル SFT更新差分 Dropout後の SFT更新差分 タスクベクトル アダマール積(要素ごとの積) スケールUP 21

22.

主要なベクトル信号にフィルタし⼲渉を減らしている 関連研究 TIES-Merging “TIES-MERGING: Resolving Interference When Merging Models”, 2023 異なるタスク でSFTされた 各モデル 逆符号は削除 各モデルの タスクベクトル 値のTop-k%を 残して他を削除 符号は最も値が ⼤きいものに その符号の値 全てを平均する 22

23.

進化的最適化と評価に利⽤ データセット ⽤途 データセット 備考 進化的検索 GSM8k(test)の内MGSMに含まれていない残り1069 サンプルを⽇本語に翻訳して利⽤ GSM8k(train)は数学モデルが既に学習に使っている為、これを使 うと適切に最適化できなかった テスト MGSM(多⾔語⼩学算数) https://paperswithcode.com/dataset/mgsm GSM8kデータセットのサブセットの多⾔語翻訳 ⽇本語のテストセットは250サンプル 23

24.

進化的最適化⼿法が3つのモデルの能⼒を引き出している 分析 PS⼿法 n n n ⽇本語 LLM 数学特化 英語LLM 数学特化 英語LLM PS(モデルマージ)元モデル ü ⽇本語LLMと、数学特化の英語LLM2種 ü 全モデルMistral-7Bベース(アーキテクチャが同じ) 指標 ü Density:DAREアルゴリズムの、各ソースモデルから取り⼊れるパラ メータの割合。Dropout率の補数 ü Weight:TIES-Merging アルゴリズムの、Trim top-k% で残った率 分析 ü Weightの⼀様性が3つのモデル全ての重要性を⽰している ü ⽇本語LLMの⾼いDensityが重要な貢献を⽰している ü DAREは広範囲にSFTされた元の性能が低下する場合があるが、進化的最 Mistral-7B-v0.1 適化で⽇本語LLMのDensityを⾼めこの問題に対処している ※指標の定義は論⽂に明記されておらず輪読者の推測が含まれています 24

25.

2つのモデルの層毎のデータフローと接続ウェイトを最適化し60層強のデータフローとなった y軸:レイヤーIndex 分析 DFS⼿法 PSマージ モデル ⼤きさ =𝑊!" x軸:推論ステップ n DFS元モデル:PS後モデルと⽇本語LLMモデルの2モデル [ただしOurs(DFS)は⽇本語LLM+Abel] n DFS後モデル:推論パスの開始と終了はPS後モデルの最初と最後のトランスフォーマー層によって定義 n 分析・DFS進化的最適化が進む程、PSの中間層全層の後のデータフローが切り替わっていくのが分かる 25

26.

VLMモデル 画像×⾔語 26

27.

VLMのLLM部のみに着⽬し⽇本語LLMとVLMを本研究の⼿法PSでマージ ⼿法 VLM 【LLaVA-1.5】”Improved Baselines with Visual Instruction Tuning”, 2023 のモデルアーキテクチャ図より 画像⼊⼒ ⾔語 インストラクション ⾔語 ⽣成出⼒ n n VLMモデルマージのアーキテクチャ ü LLM部のみに着⽬ ü VLコネクターや画像エンコードはfixed ü PS(パラメータマージ)のみ ソースモデル ü ⽇本語LLM(shisa-gamma-7b-v1) ü VLM(LLaVA-1.6-Mistral-7B) 両モデル共Mistral-7Bベース 27

28.

⽇本の⽂化的な理解が必要なタスクにおいて競合モデルを凌駕している 結果 VLM ⽇本語LLM(shisa-gamma-7b-v1) + VLM(LLaVA-1.6-Mistral-7B) 28

29.

まとめ 29

30.

まとめ ( Discussion and Future Work ) n 進化的最適化によるコスト効率の良いマージ⼿法の⼀般化の提案 n ⾮英語⾔語と英語数学、⾮英語⾔語と英語VLM、異ドメインのマージが成功 n 今後リーダーボードタスクに過剰適合したモデルを⽣み出すと予測 n 特定のベンチマーク最適化から⼀歩離れる事が⾼い汎化性能を⽣むと考えている n このような新たな⼀般化がAIの次の⼤きな進歩を解き放つ n カスタムモデルを⼀から開発することが本当に必要なのか?という問いかけ 30

31.

感想 n プレトレーニングは⾼コストな為、パラダイムシフトが起こる可能性 n ⽣物の誕⽣と、⽣存中の学習になぞらえられそう n 即ち、モデルマージで”誕⽣”させ、SFTやLHFで⽤途向け”学習”の繰り返し n 各モーダルの特定データ学習が⼩型モデルで学習できて、 それらをマージして出来上がりが⼤型マルチモーダルモデルだとなお⾯⽩そう 31

32.

Thank you. 32