【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

532 Views

July 21, 23

スライド概要

2023/7/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Secrets of RLHF in Large Language Models Part I: PPO 今井 翔太(東京⼤学 松尾研究室) Twitter:えるエル@ImAI_Eruel DL輪読会2023/07/21 http://deeplearning.jp/ 1

2.

書誌情報 2 nタイトル:Secrets of RLHF in Large Language Models Part I: PPO n出典:https://arxiv.org/abs/2307.04964 n著者:Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang n所属:ByteDance Inc Shota Imai | The University of Tokyo

3.

今回の発表について n今井の最近の稼働が限界のためだいぶざっくりとしたまとめです n読んでいて気づいたのですが,論⽂の構成が微妙に雑な気がしており,適 宜⾃分の解釈を加えています(⽤語が未定義,具体的になんのモデルが使 われているのか不明等) Shota Imai | The University of Tokyo 3

4.

論⽂概要 4 n⼤規模⾔語モデルの学習ではRLHFが使われる n本論⽂では⼀番よく使われるRL⼿法のPPOについて,アルゴリズムのど の部分が学習に影響を与えるのか調査 n上記の調査によって得られた知⾒を元に,新規アルゴリズムであるPPOmaxを提案 nアブストの最後に書かれたお気持ち 「主要なLLMのRLHF実装が謎すぎて研究が進まんので実装を公開してく れ」 Shota Imai | The University of Tokyo

5.

RLHF(Reinforcement Learning From Human Feedback) nChatGPTなどで,出⼒を⼈間のこのみに合わせるために⾏う強化学習 n⼈間の⼿でスコアづけしたデータから報酬モデルを作成し,LLMの出⼒を ⽅策とみなして学習を⾏う Shota Imai | The University of Tokyo 5

6.

RLFHの⼿順 6 InstructGPTにおけるRLHFは以下の⼿順で⾏われる 1.報酬モデルの作成 2.報酬モデルから出⼒される報酬をもとにLLMを⽅策とみなして学習 Shota Imai | The University of Tokyo

7.

Reward Modelの学習 n⼈間のフィードバックをもとに,ある⽂章に対する「好ましさ」を報酬と して採点するニューラルネットワーク nある⼀つのプロンプトに対する出⼒を複数⽤意し,それらに⼈間がランク づけをしたデータをもとに学習 プロンプト:上司との関係を改善したいのですが,どうしたらいいでしょう か?⼀⾔で答えてください. - 出⼒1:「 上司との関係を改善するには,上司とのコミュニケーションを取り,上司のことを理解してい く必要があります。また,上司への謙虚な態度や協⼒的な態度を⾒せることも⼤切です。 」→スコア:0.6 - 出⼒2:「原因を特定して対策を講じることが⼤切です.相⼿の働き⽅や性格を理解することも⼤切です. 例えば,相⼿の働き⽅が気に⼊らない場合は,相⼿に対して意⾒を述べることで改善してもらうことがで きます.また,相⼿の性格を理解することで,相⼿に対してうるさくないように気をつけることもできま す. ただし,原因を特定して対策を講じることは難しい」→スコア:0.1 - 出⼒3:「ご相談の⽅は、相⼿の⼈格を尊重し、相⼿の意⾒を聞くことを意識しましょう。また、⾃分の意 ⾒もしっかりと伝え、相⼿に対して感謝の気持ちを持つことも⼤切です。 」→スコア:0.3 n このプロンプトとそれに対するGPT出⼒(回答)を⼊⼒すると,GPTの出⼒がどれくらい好ましい か,報酬という形で採点してくれるモデル(=Reward Model)が出来上がる Shota Imai | The University of Tokyo 7

8.

報酬モデルの学習/理論 nLabelerがプロンプトの出⼒に対してランク付を⾏い,そのランク付きデータか ら学習 n学習に使⽤するモデルは,GPT-3のSFTで学習を⾏なったモデルのうち,パラ メータ数6B(60億)のモデルの最終層のレイヤを除いて,報酬のスカラー値を ⼀つ出⼒するようにしたもの - 175BのRMは不安定で機能しなかったとのこと - この6BのRMを,全てのInstructGPTの学習に使⽤ nlabelerは,あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て, それをK=4からK=9の間でランク付する nRMはプロンプト𝑥に対する出⼒yを⼊⼒として,報酬を出⼒するモデル𝑟! (𝑥, 𝑦)と 書ける nRMは,出⼒の⽐較を利⽤して以下の損失関数で学習される - 𝑦! はより好ましいランクの出⼒,𝑦" は 𝑦! と⽐較してランクが低い出⼒ - ある1つのプロンプト𝑥に対し,ランク付けされた出⼒K個が存在するため,組み合わせの数は #𝐶$ 個存在する (ランク数が4個なら %𝐶$ =6個) - σはシグモイド間数 - この損失の最⼩化により, 𝑟& (𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出すようにな る Shota Imai | The University of Tokyo 8

9.

Reward Modelを使った強化学習 n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う n 強化学習のアルゴリズムとしてはPPO(Proximal Policy Optimization)を使⽤ n プロンプトxに対するモデルの出⼒𝜋 !"# (y | x)に対して,⼊⼒xと出⼒yに対するRMによる報酬の 出⼒𝑟$ (𝑥, 𝑦)を使う - ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため,報酬を最⼤ 化する強化学習によって学習されたモデルは,良い報酬を得る=⼈間に取って好ましい出⼒を するように改善される ⼊⼒のプロンプトx: 上司との関係を改善したいのですが,どうし たらいいでしょうか?⼀⾔で答えてください. ⼊⼒のプロンプトx + GPTの出⼒y GPT Reward Model GPTの出⼒y: 上司との関係を改善するには,上司とのコミュニケー ションを取り,上司のことを理解していく必要がありま す。また,上司への謙虚な態度や協⼒的な態度を⾒せる ことも⼤切です。 報酬: 0.6 ⽅策勾配法(PPO)による強化学習 9

10.

PPO 10 n強化学習における⽅策勾配法の⼀つTRPOを,より実装を単純にし,強⼒ にしたもの - TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅 を保証 n更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収 まるよう制約をかけて学習 n価値モデルは,報酬和とのMSEで学習 Shota Imai | The University of Tokyo

11.

実際に使われているPPO n実際には,PPOのロスに加え,⼀般的なデータセットへの性能を失わない ようにする項を加えて学習 Shota Imai | The University of Tokyo 11

12.

全体像 12 Shota Imai | The University of Tokyo

13.

本論⽂のLLM学習の設定 n主に7 Bのモデルを使⽤ nベースモデルはLLaMA-7B nHH-RLHFデータセットでRLHF nHH-RLH:無害なLLMを学習するためのデータセット Shota Imai | The University of Tokyo 13

14.

単純なPPO学習中のさまざまな指標変化 n報酬は上昇するが,RLする前の SFTモデルより出⼒が悪くなる n出⼒の⻑さが⼤きくなる→パープレキシティが⼩さくなる傾向 Shota Imai | The University of Tokyo 14

15.

PPOの改良で考慮すべき要素 星は,PPO-Maxで実際に改良した要素 Shota Imai | The University of Tokyo 15

16.

報酬のクリッピング n従来の強化学習では,クリッピングはそこまで効果がないか逆に悪影響で あることが多い nRLHFでは,学習の後半にいくにつれて報酬が⾼くなる効果 Shota Imai | The University of Tokyo 16

17.

トークンレベルのKLペナルティ n報酬モデルの報酬に対し,SFTモデルとの乖離を防ぐKL項を追加 Shota Imai | The University of Tokyo 17

18.

⽅策モデルと価値モデルの初期化 nそもそもRLHFの⽅策と価値モデルの初期化はかなり特殊 n事前学習+SFTを⾏ったLLMモデル(⽅策),報酬モデル(価値)を使ってい る nこれがどう影響するのか? - ⽅策モデル:単なる事前学習モデルを⽅策にすると性能悪化.SFTモデルを使うべき - 価値モデル:報酬モデルを使おうがそうでなかろうがそんなに変わらない n価値モデルの初期化についてさらに考察 - SFTモデルの出⼒層を変えて初期化 - 頑張って学習した報酬モデルのみを最適化 Shota Imai | The University of Tokyo 18

19.

19 Shota Imai | The University of Tokyo

20.

PPO-maxを使ったLLMの評価 / vs. SFTモデル n評価はharmless evaluationで,学習に使わなかったデータを⼊⼒とし, 出⼒の無害性を評価 Shota Imai | The University of Tokyo 20

21.

ChatGPT(gpt-3.5)との⽐較 Shota Imai | The University of Tokyo 21