【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

2.2K Views

July 21, 23

#@deep learning jp #DeepLearning #PPO #ReinforcementLearning #LargeLanguageModels #TokyoUniversity

スライド概要

2023/7/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Secrets of RLHF in Large Language Models Part I: PPO 今井翔太（東京⼤学松尾研究室） Twitter：えるエル@ImAI_Eruel DL輪読会2023/07/21 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 2 nタイトル：Secrets of RLHF in Large Language Models Part I: PPO n出典：https://arxiv.org/abs/2307.04964 n著者：Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang n所属：ByteDance Inc Shota Imai | The University of Tokyo

https://arxiv.org/abs/2307.04964

今回の発表について n今井の最近の稼働が限界のためだいぶざっくりとしたまとめです n読んでいて気づいたのですが，論⽂の構成が微妙に雑な気がしており，適宜⾃分の解釈を加えています（⽤語が未定義，具体的になんのモデルが使われているのか不明等） Shota Imai | The University of Tokyo 3

論⽂概要 4 n⼤規模⾔語モデルの学習ではRLHFが使われる n本論⽂では⼀番よく使われるRL⼿法のPPOについて，アルゴリズムのどの部分が学習に影響を与えるのか調査 n上記の調査によって得られた知⾒を元に，新規アルゴリズムであるPPOmaxを提案 nアブストの最後に書かれたお気持ち「主要なLLMのRLHF実装が謎すぎて研究が進まんので実装を公開してくれ」 Shota Imai | The University of Tokyo

RLHF（Reinforcement Learning From Human Feedback） nChatGPTなどで，出⼒を⼈間のこのみに合わせるために⾏う強化学習 n⼈間の⼿でスコアづけしたデータから報酬モデルを作成し，LLMの出⼒を⽅策とみなして学習を⾏う Shota Imai | The University of Tokyo 5

RLFHの⼿順 6 InstructGPTにおけるRLHFは以下の⼿順で⾏われる１．報酬モデルの作成２．報酬モデルから出⼒される報酬をもとにLLMを⽅策とみなして学習 Shota Imai | The University of Tokyo

Reward Modelの学習 n⼈間のフィードバックをもとに，ある⽂章に対する「好ましさ」を報酬として採点するニューラルネットワーク nある⼀つのプロンプトに対する出⼒を複数⽤意し，それらに⼈間がランクづけをしたデータをもとに学習プロンプト:上司との関係を改善したいのですが，どうしたらいいでしょうか？⼀⾔で答えてください． - 出⼒1：「上司との関係を改善するには，上司とのコミュニケーションを取り，上司のことを理解していく必要があります。また，上司への謙虚な態度や協⼒的な態度を⾒せることも⼤切です。」→スコア：0.6 - 出⼒2：「原因を特定して対策を講じることが⼤切です．相⼿の働き⽅や性格を理解することも⼤切です．例えば，相⼿の働き⽅が気に⼊らない場合は，相⼿に対して意⾒を述べることで改善してもらうことができます．また，相⼿の性格を理解することで，相⼿に対してうるさくないように気をつけることもできます．ただし，原因を特定して対策を講じることは難しい」→スコア：0.1 - 出⼒3:「ご相談の⽅は、相⼿の⼈格を尊重し、相⼿の意⾒を聞くことを意識しましょう。また、⾃分の意⾒もしっかりと伝え、相⼿に対して感謝の気持ちを持つことも⼤切です。」→スコア:0.3 n このプロンプトとそれに対するGPT出⼒（回答）を⼊⼒すると，GPTの出⼒がどれくらい好ましいか，報酬という形で採点してくれるモデル（=Reward Model）が出来上がる Shota Imai | The University of Tokyo 7

報酬モデルの学習/理論 nLabelerがプロンプトの出⼒に対してランク付を⾏い，そのランク付きデータから学習 n学習に使⽤するモデルは，GPT-3のSFTで学習を⾏なったモデルのうち，パラメータ数6B（60億）のモデルの最終層のレイヤを除いて，報酬のスカラー値を⼀つ出⼒するようにしたもの - 175BのRMは不安定で機能しなかったとのこと - この6BのRMを，全てのInstructGPTの学習に使⽤ nlabelerは，あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て，それをK=4からK=9の間でランク付する nRMはプロンプト𝑥に対する出⼒yを⼊⼒として，報酬を出⼒するモデル𝑟! (𝑥, 𝑦)と書ける nRMは，出⼒の⽐較を利⽤して以下の損失関数で学習される - 𝑦! はより好ましいランクの出⼒，𝑦" は 𝑦! と⽐較してランクが低い出⼒ - ある１つのプロンプト𝑥に対し，ランク付けされた出⼒K個が存在するため，組み合わせの数は #𝐶$ 個存在する（ランク数が４個なら %𝐶$ =6個） - σはシグモイド間数 - この損失の最⼩化により， 𝑟& (𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出すようになる Shota Imai | The University of Tokyo 8

Reward Modelを使った強化学習 n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う n 強化学習のアルゴリズムとしてはPPO（Proximal Policy Optimization）を使⽤ n プロンプトxに対するモデルの出⼒𝜋 !"# （y | x）に対して，⼊⼒xと出⼒yに対するRMによる報酬の出⼒𝑟$ (𝑥, 𝑦)を使う - ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため，報酬を最⼤化する強化学習によって学習されたモデルは，良い報酬を得る=⼈間に取って好ましい出⼒をするように改善される⼊⼒のプロンプトx：上司との関係を改善したいのですが，どうしたらいいでしょうか？⼀⾔で答えてください．⼊⼒のプロンプトx + GPTの出⼒y GPT Reward Model GPTの出⼒y：上司との関係を改善するには，上司とのコミュニケーションを取り，上司のことを理解していく必要があります。また，上司への謙虚な態度や協⼒的な態度を⾒せることも⼤切です。報酬: 0.6 ⽅策勾配法（PPO）による強化学習 9

10.

PPO 10 n強化学習における⽅策勾配法の⼀つTRPOを，より実装を単純にし，強⼒にしたもの - TRPO（Trust Region Policy Optimization）：⽅策勾配において適切な勾配の更新幅を保証 n更新前の⽅策と新しい⽅策の確率密度⽐が，ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約をかけて学習 n価値モデルは，報酬和とのMSEで学習 Shota Imai | The University of Tokyo

11.

実際に使われているPPO n実際には，PPOのロスに加え，⼀般的なデータセットへの性能を失わないようにする項を加えて学習 Shota Imai | The University of Tokyo 11

12.

全体像 12 Shota Imai | The University of Tokyo

13.

本論⽂のLLM学習の設定 n主に7 Bのモデルを使⽤ nベースモデルはLLaMA-7B nHH-RLHFデータセットでRLHF nHH-RLH：無害なLLMを学習するためのデータセット Shota Imai | The University of Tokyo 13

14.

単純なPPO学習中のさまざまな指標変化 n報酬は上昇するが，RLする前の SFTモデルより出⼒が悪くなる n出⼒の⻑さが⼤きくなる→パープレキシティが⼩さくなる傾向 Shota Imai | The University of Tokyo 14

15.

PPOの改良で考慮すべき要素星は，PPO-Maxで実際に改良した要素 Shota Imai | The University of Tokyo 15

16.

報酬のクリッピング n従来の強化学習では，クリッピングはそこまで効果がないか逆に悪影響であることが多い nRLHFでは，学習の後半にいくにつれて報酬が⾼くなる効果 Shota Imai | The University of Tokyo 16

17.

トークンレベルのKLペナルティ n報酬モデルの報酬に対し，SFTモデルとの乖離を防ぐKL項を追加 Shota Imai | The University of Tokyo 17

18.

⽅策モデルと価値モデルの初期化 nそもそもRLHFの⽅策と価値モデルの初期化はかなり特殊 n事前学習+SFTを⾏ったLLMモデル(⽅策)，報酬モデル(価値)を使っている nこれがどう影響するのか？ - ⽅策モデル：単なる事前学習モデルを⽅策にすると性能悪化．SFTモデルを使うべき - 価値モデル：報酬モデルを使おうがそうでなかろうがそんなに変わらない n価値モデルの初期化についてさらに考察 - SFTモデルの出⼒層を変えて初期化 - 頑張って学習した報酬モデルのみを最適化 Shota Imai | The University of Tokyo 18

19.

19 Shota Imai | The University of Tokyo

20.

PPO-maxを使ったLLMの評価 / vs. SFTモデル n評価はharmless evaluationで，学習に使わなかったデータを⼊⼒とし，出⼒の無害性を評価 Shota Imai | The University of Tokyo 20

21.

ChatGPT（gpt-3.5）との⽐較 Shota Imai | The University of Tokyo 21