【DL輪読会】Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

2.7K Views

April 18, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 51.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DL輪読会： Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision Ryoichi Takase http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報採録：arXiv（2024/3/14公開）概要： ➢ LLMの学習データより難しいタスクを解く能力（Easy-to-hard generalization）を検証 ➢ 評価モデルを用いたLLMを最適化によりEasy-to-hard generalizationが改善することを示した ※注釈無しの図は本論文から抜粋 2

背景人の嗜好に沿った大規模言語モデル（LLM）の学習手法： 1. Supervised fine-tuning (SFT) 人がラベル付けしたデータを用いてLLMを学習 2. Reinforcement learning from human feedback (RLHF) 人の嗜好を反映した報酬モデルを準備し、報酬を最大化するようにLLMを学習問題点：人が作成した正解ラベルを学習データとしてLLMを学習させるため、正解ラベルの準備が難しいタスクではLLMの性能改善が限定的例）科学的な推論タスクでは既知情報から新しい法則を発見するため、正解ラベルを簡単には準備できない人が作成した正解データが性能の上限となってしまう → 学習データよりも難易度の高いタスクを解決できるLLMの学習手法が必要 3

研究目的研究目的：学習データよりも難しいタスクに対するLLMの推論能力の検証検証方法：データを難易度で分類し、学習データよりもレベルの高い問題の解決能力を評価 LLMの論理的な推論能力を評価するためにEasy-to-hard generalizationの考えを導入学習データよりも難しいタスクを解く能力例）数学の推論タスク1) 学習データ（レベル1）検証データ（レベル5）本論文では、先行研究の学習手法におけるEasy-to-hard generalizationを調査 1) Lightman, Hunter, et al. "Let's Verify Step by Step." arXiv preprint arXiv:2305.20050 (2023). 4

検証対象の学習手法以下の手法を対象にEasy-to-hard generalizationを検証 ① 生成モデルの学習 1) Supervised fine-tuning (SFT) 2) In-context learning (ICL) ② 評価モデルを用いた解答の決定方法 1) Best-of-n (BoN) 2) Weighted voting ③ 評価モデルを用いた生成モデルの最適化 1) Proximal policy optimization (PPO) 2) Direct policy optimization (DPO) 3) Reinforced self-training (ReST) 5

①生成モデルの学習正解ラベルを学習データに用いてLLMの正答率を改善 1) Supervised fine-tuning (SFT) ：人が作成した正解ラベルとの尤度を最大化するようにLLMのパラメータを更新 2) In-context learning (ICL)：少数のデモをプロンプトとして与え、LLMのパラメータを更新することなくタスクを学習プロンプト例 2) 2) Zhou, Denny, et al. "Least-to-most prompting enables complex reasoning in large language models." arXiv preprint arXiv:2205.10625 (2022). 6

②評価モデルを用いた解答の決定方法生成モデルから解答をサンプリングし、評価スコアの高い解答を選択することで正答率を改善 1) Best-of-n (BoN)：生成モデルから複数の解答をサンプリングし、評価スコアが最も高い解答を選択 2) Weighted voting 3)： Majority voting (またはself-consistency)4) から派生した手法評価スコアの重みづけを考慮して解答を選択 Majority voting (またはself-consistency)4) 3) Uesato, Jonathan, et al. "Solving math word problems with process-and outcome-based feedback." arXiv preprint arXiv:2211.14275 (2022). 4) Wang, Xuezhi, et al. "Self-consistency improves chain of thought reasoning in language models." arXiv preprint arXiv:2203.11171 (2022). Weighted voting3) 7

③評価モデルを用いた生成モデルの最適化評価モデルのスコアが高くなるように生成モデルを学習させて正解率を改善 1) Proximal policy optimization (PPO) 5)：生成モデルの更新を一定範囲内に制限して強化学習を安定化 2) Direct policy optimization (DPO) 6)：評価モデルの種類を限定することで、強化学習を用いずに生成モデルを最適化次式の損失関数を最小化し、好ましい出力となるように生成モデルを更新 3) Reinforced self-training (ReST) 7)：生成モデルから解答をサンプリングし、評価スコアが高いものを学習データに追加追加データで生成モデルを学習させ、サンプリングとデータ追加を繰り返す 5) Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017). 6) Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." Advances in Neural Information Processing Systems 36 (2024). 7) Gulcehre, Caglar, et al. "Reinforced self-training (rest) for language modeling." arXiv preprint arXiv:2308.08998 (2023). 8

数値実験 3つの観点でEasy-to-hard generalizationへの影響を検証 ①生成モデルの学習手法 ②評価モデル（Reward model: RM）を用いた解答の決定方法 ③評価モデルを用いた生成モデルの最適化 ※報酬モデルの種類：Outcome reward model (ORM) 、Process reward model、(PRM)、 Outcome & process reward model (OPRM)の詳細は論文参照 9

10.

実験①の概要 ①生成モデルの学習手法の比較 a. 学習手法： Supervised fine tuning (SFT) In-context learning (ICL) b. 学習データ： PRM800K1) MetaMATH8) → a、bの観点でEasy-to-hard generalizationに与える影響を調査検証データ：MATH500 ベースモデル：Llemma7B、Llemma34B 解答の決定方法：Greedy、Majority voting 1) Lightman, Hunter, et al. "Let's Verify Step by Step." arXiv preprint arXiv:2305.20050 (2023). 8) Yu, Longhui, et al. "Metamath: Bootstrap your own mathematical questions for large language models." arXiv preprint arXiv:2309.12284 (2023). 10

11.

実験①の結果 a. SFTはICLよりも高性能 → 先行研究3) と同様の傾向を確認 b. MetaMATHで学習した方が高性能 Full SFTとEasy-to-hard SFTのギャップがPRM800Kと比較してMetaMATHは大きい → MetaMATHの方が高性能ではあるが、正解ラベルを用いて生成モデルを学習させると Easy-to-hardのギャップが存在してしまう b. PRM800K / MetaMATHの比較 ICL a. ICL / SFTの比較 SFT EASY ：難易度 Lv.1-3 HARD：難易度 Lv.4-5 FULL ：難易度 Lv.1-5 差：0.8 差：3.2 3) Uesato, Jonathan, et al. "Solving math word problems with process-and outcome-based feedback." arXiv preprint arXiv:2211.14275 (2022). 11

12.

実験②の概要 ②評価モデル（Reward model: RM）を用いた解答の決定方法の比較解答の決定方法：・Majority voting（RMなし）※比較対象・Weighted voting w/ RM（RMあり）・Best of n w/ RM（RMあり） → RMの有無がEasy-to-hard generalizationに与える影響を調査生成モデルと評価モデルの学習データ： EASY：難易度 Lv.1-3 検証データ： EASY：難易度 Lv.1-3 HARD：難易度 Lv.4-5 FULL ：難易度 Lv.1-5 12

13.

実験②の結果評価モデル（RM）を用いてweighted votingすると高性能学習データより難しいタスク（Level 4-5）では評価モデルの使用により性能が改善 → 評価モデルはEasy-to-hard generalizationの性能が高い（と述べられている…）評価モデル（RM）を用いることで、 Weighted voting w/RLとBest-of-N w/ RMの性能が改善 EASY：難易度 Lv.1-3 HARD：難易度 Lv. 4-5 FULL ：難易度 Lv.1-5 （生成モデルと評価モデルのサイズが7Bの場合の結果を抜粋） 13

14.

実験③の概要 ③評価モデルを用いた生成モデルの最適化手法の比較評価モデルの学習データ： EASY：難易度 Lv.1-3 FULL ：難易度 Lv.1-5 → 評価モデル学習時の難易度がEasy-to-hard generalizationに与える影響を調査 ※EASYデータの正解ラベルを用いてそのままSFTするのではなく、評価モデルを用いた生成モデルの最適化により、Easy-to-hard generalizationが改善するかを検証生成モデルの最適化手法： 1) Proximal policy optimization (PPO) 2) Direct policy optimization (DPO) 3) Reinforced self-training (ReST) 14

15.

実験③の結果 Easyデータで学習した評価モデルを用いて、生成モデルを最適化したものが高性能 → 評価モデルの学習を介して生成モデルを最適化することで、 Easy-to-hard generalizationが改善することを示した（MetaMath/Math-Shepherdで学習した場合の結果を抜粋） 15

16.

まとめ 3つの観点でEasy-to-hard generalizationへの影響を検証： ① 生成モデルの学習手法 ② 評価モデルを用いた解答の決定方法 ③ 評価モデルを用いた生成モデルの最適化実験結果： ① SFTやICLでは学習データよりも難しいタスク（HARDタスク）での正答率が低下 ② HARDタスクにおいて、評価モデルを用いると生成モデルの正答率が改善 ③ Easyデータで学習した評価モデルを用いて生成モデルを最適化したものが高性能 → 評価モデルの学習を介して生成モデルを最適化することで、 Easy-to-hard generalizationが改善することを示した 16