【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

9.2K Views

September 22, 23

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 3.25MB)

関連スライド

各ページのテキスト

DEEP LEARNING JP Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback [DL Papers] 高城頌太（東京大学工学系研究科松尾研 M2） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback https://arxiv.org/abs/2307.15217 著者： Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell MIT, Harvard, Columbia, UCB, …etc 概要： RLHFにおける課題をまとめた論文 2

RLHFの全体像 • RLHFの学習は以下の3つのステップで構成されている Step 1: 教師あり学習 • • プロンプトとそれに対する適切な回答のペアをラベラー(人間)が考案し，データセットを作成する Step 2: 報酬モデルの学習 • このデータセットを用いて事前学習モデルをfine-tuningする • データセット事前学習モデル Step 3: 強化学習プロンプトに対するStep1で学習させたモデルの回答を複数パターン用意し、ラベラーにその中で良いものはどれかの順位付けをしてもらう • Step1，Step2で学習されたモデルを用いて強化学習を行う • 報酬が最大となるような方策を探索し，最適な回答を生成する順位づけデータセットを用いて報酬モデルを学習させる ※ 方策はStep1で学習したモデル順位づけデータセット報酬モデルモデルの回答に対して報酬値を推定し，それをモデルにフィードバックすることで方策を改善 ※ 報酬モデルには既存の事前学習モデルやfine-tuningされたモデルの最終層のみを線形層に変更したモデルが使用されることが多いつまり．報酬モデルの出力はスカラー値となる 3

“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” RLHFにおける課題 | 全体像 • Human Feedback, Reward Model, Policyのそれぞれ部分で課題がいくつか存在する • Reward Model, Policyの学習どちらにも共通する課題も存在 4

“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Human Feedbackにおける課題 • Misaligned Evaluators • • • 質が高いフィードバックを提供するLabelerを選択するのが難しい評価者の中には有害な偏見や意見を持っているある人間が意図してデータを汚染する可能性 • Difficulty of Oversight • • 人間は単純な間違いを犯す人間は難しいタスクのパフォーマンスを適切に評価できない • Data Quality • • データ収集のバイアスが生じるコストと品質のトレードオフが存在する • Feedback Type Limitations • • フィードバックの種類と効率さのトレードオフ Ex. 2つのペアのrankingは簡単だが効率が悪い 5

“Which Examples Should be Multiply Annotated? Active Learning When Annotators May Disagree” Human Feedbackにおける課題 | Misaligned Evaluators • RLHFによって訓練されたモデルは誰の意見を反映しているか？ • RLHF前は低所得，低学歴と一致する意見であったが，RLHF後は逆になった 6

“Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks” Human Feedbackにおける課題 | Difficulty of Oversight • クラウドワーカーがLLMを使用することに経済的合理性がある • 自分で考えるよりLLMに考えて貰えばAPI代はらってもプラス • クラウドワーカーの 33 ～ 46% が LLM を使用したと推定された 7

“LIMA: Less Is More for Alignment” Human Feedbackにおける課題 | Data Quality • モデルの知識と能力はほとんどが事前学習時に学習されるという仮定 • アライメントは対話形式のフォーマットと，言語モデルのどのドメイン分布から出力させるかを指定する • 質の良いデータを少量でも良いので集める必要がある 8

“Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation” Human Feedbackにおける課題 | Feedback Type Limitations • フィードバックの種類と効率さのトレードオフ • 2つのペアのrankingは簡単だが効率が悪い • 一方で，言語フィードバックだと質の担保が大変 • そもそも人間の認知の限界としてランキングが一番効率が良い？ 9

10.

“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Reward Modelにおける課題 • Problem Misspecification • 個々の人間の価値観を報酬関数で表すのは難しい • 単一の報酬関数で人間の多様な社会を表すことはできない • Misgeneralization/Hacking • 正しいラベルのトレーニングデータからでも正しく報酬モデルが学習できるとは限らない • 報酬ハッキングが起きる可能性がある • Evaluation Difficulty • 報酬モデルを評価することは難しい 10

11.

“Which Examples Should be Multiply Annotated? Active Learning When Annotators May Disagree” Reward Modelにおける課題 | Problem Misspecification • 複数の意見がある問題に対して単一のスコアをつけることは難しい 11

12.

“Scaling Laws for Reward Model Overoptimization” Reward Modelにおける課題 | Misgeneralization/Hacking • Reward Modelが過剰適合を起こすとMisgeneralization/Hackingが起きやすい • Reward Modelに関するスケーリング則(どのサイズだと過剰適合がおこるか) • 図はPolicyは1.3Bで固定,左:上位N個の出力を使用,右:すべての出力を使用 12

13.

“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Policyにおける課題 • RL Difficulties • ポリシーを効果的に最適化することは困難 • ポリシーは敵対的に悪用される可能性がある • Policy Misgeneralization • 最適なRLエージェントは，権力を求める傾向がある • Distributional Challenges • RLによってモード崩壊を起こす可能性がある • 事前モデルのバイアスが強化される可能性がある ※ モード崩壊: 多様性が失われて，類似した結果しか出力されなくなること 13

14.

“Jailbroken: How Does LLM Safety Training Fail?” Policyにおける課題 | Robust RL Difficulties • ポリシーを敵対的に利用して，Jailbreakを引き起こすことが可能 • 有名な例: GPT4へのDAN attack • モデルの安全規則・制限を無視させるテキストプロンプト 14

15.

“GPT-4 Technical Report” Policyにおける課題 | Distributional Challenges • RLHFによって，生成されるデータの多様性が失われる(モード崩壊) • GPT-4の場合はRLHF後だと自信を持って間違える場合が多くなる 15

16.

“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Reward Model & Policyにおける課題 • 報酬モデルとポリシーを同時に学習することで，データの分布の変化を引き起こす • • オンライン学習: 報酬モデルの分布がポリシーに影響を与え，ポリシーの出力が報酬モデルに影響オフライン学習: 報酬モデルのバイアスにより誤った一般化に陥る可能性がある • 報酬モデルとポリシーの更新のバランス 16

17.

“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training” Human Feedbackによる対策 | より詳細なフィードバック • より詳細な報酬設計を行う (左: 通常のRLHF，右: 提案手法) • (1) 各文章ごとに報酬を推定 • (2) 3つの報酬モデルを学習し，それぞれのモデルごとにスコアを算出(事実の不正確さ、関連性のなさ、情報の不完全さ) 17

18.

“Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards” Reward Modelによる対策 | 多様性の確保 • 複数の観点で学習されたReward Modelのパラメータを混ぜる(Model Soup) ことによって，パレート最適なalignmentを目指す • Model Soup: 異なるハイパーパラメータで学習された複数のファインチューニングモデルの「重み」を平均化することで、精度を向上させる手法 18

19.

“RRHF: Rank Responses to Align Language Models with Human Feedback without tears” Policyによる対策 | 複数のモデルを用いてRLの不安定さを解消 • 複数のモデルの出力でランク付けし，一番報酬が高い入出力ペアでSFTし，その他のペアに関しては出力しにくくしするように損失関数を設定 • PPOをよりシンプルにした手法 19

20.

(参考) 発展的議題①: 個人的意見を多く含みます • なぜRLHFで性能が上がるのか？ • 性能が上がっている訳ではなさそう • 事前学習で得た分布を意図に沿う出力に変化させているだけ？ • 学習を間違えると，条件付け意図しない分布から出力されてしまう • RLは本当に必要なのか？ • DPO, PRO, RLCD等のRLを用いないHuman Feedbackの方法が多数提案されており，RLHFと同程度以上の性能を出している • おそらくRLは必要ではない 20

21.

(参考) 発展的議題②: 個人的意見を多く含みます • SFT vs RLHF • SFTも人間からのlanguage feedbackと解釈することもできる． • そうなれば，SFTだけで十分でRLHFは必要ではないのか？ • • ある程度まではSFTで十分，残り1%を制御するには必ず必要になる • モデルの出力制御にはHuman Feedbackは今後も必要になる人間のfeedbackの限界としてlanguage feedbackは難しすぎる • Rankingによる判断が一番正確？ 21

22.

(参考) 発展的議題③: 個人的意見を多く含みます • RLHF vs RLAIF • 人間が介在しないAI FeedbackではFeedback元のモデルの性能を超えること基本的にはないと考えられる • しかし，人間のフィードバック性能をAIで引き上げる方向性としての RLAIFは続いていくと考えられる(Constitutional AI) • もしくは，外部ツールを用いてあらゆる形式の情報をもとにフィードバックを行なっていく形式であれば性能は向上していくと考えられる • RLCF(reinforcement learning from computational feedback) https://www.interconnects.ai/p/beyond-human-data-rlaif 22

https://www.interconnects.ai/p/beyond-human-data-rlaif

23.

Thank you. 23

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト