【DL輪読会】Reward Design with Language Models

835 Views

April 21, 23

#@deep learning jp #Deep Learning #Natural Language Processing #Reward Function #Reinforcement Learning #Large Language Model

スライド概要

2023/4/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DL輪読会：Reward Design with Language Models Ryoichi Takase http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報採録：ICLR2023 概要： ➢ 大規模言語モデルを報酬関数として使用する強化学習フレームワークを提案 ➢ ユーザの意図をプロンプトに入力して報酬関数を設計することで、意図に沿って振る舞う方策の学習を可能とした ※注釈無しの図は本論文から抜粋 2

背景強化学習： ➢ 環境と相互作用を繰り返して方策を学習する ➢ 行動の良し悪しは報酬によって評価される（行動が良ければ報酬は高くなる） ➢ 累積報酬を最大化するように方策を学ぶ → 意図した行動をする方策を学習させるためには報酬関数の設計が重要報酬関数により報酬が出力される状態・報酬環境エージェント行動 3

課題課題： ➢ 意図した行動を学ぶための報酬関数の設計は難しい ➢ 報酬関数を学習する場合は、教師データが大量に必要となるため準備コストが高い意図した行動を学ぶための報酬関数をより簡単に得たい 4

研究目的本研究では、強化学習の報酬関数の設計に自然言語処理の観点からアプローチする関連研究：プロンプト [1] ゼロ・少数ショット学習で新しいタスクに適応するために、プロンプトを用いたフレームワークが提案されているタスクの説明といくつかの例を入力の接頭辞として付加することで、大規模言語モデルのパラメータを更新せずに新しいタスクに適応させる関連研究：Learning from Human Feedback [2] 人のフィードバックを活用した強化学習により人が受け入れやすい文章を生成研究目的：プロンプトを用いて強化学習の報酬関数を設計することで、意図したようにエージェントを学習させたい [1] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901. [2] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022). 5

提案する強化学習フレームワークプロンプトの例タスクの説明→ 意図を反映させた文→ エージェントの行動結果→ 行動の良し悪しを質問→ (1) 大規模言語モデル（Large Language Model: LLM）にプロンプトを入力 (2) LLMがエージェントの行動の良し悪しを文字で出力 (3) 文字を0, 1の報酬に変換 (4) エージェントを強化学習、エピソードを実行 (5) エピソードの結果を文字に変換してプロンプトに含める 6

数値実験の概要提案手法の性能検証のために以下の実験を実施 ① Ultimatum Game：少数の正解例でLLMはユーザの意図に沿った報酬を出力可能か検証 ② Matrix Games：ゼロショットでできるかを検証 ③ Deal Or No Deal： ①②よりステップ数の長い複雑なタスクの場合の性能を検証真の報酬関数（ユーザの意図を100%反映した理想的な報酬関数）を用いて、以下の評価指標を設定 ① Labeling Accuracy：強化学習中に真の報酬関数の出力を正解として、提案する報酬関数の正解率を算出 ② RL Agent Accuracy：学習後のエージェントの性能を真の報酬関数で評価 7

実験1 Ultimatum Game Ultimatum Game（最後通牒ゲーム）： ➢ 提案者と応答者の2人で資金を分割するゲーム ➢ 提案した分割金額を応答者が承諾するとその金額を獲得できるが、拒否するとどちらも獲得できない → ユーザが意図したように承諾/拒否する応答者（≒エージェント）を強化学習するユーザの意図（3パターン）： ➢ Low vs High Percentages：金額が全体の{30%, 60%}以下の場合は拒否 ➢ Low vs High Payoffs：金額が{$10, $100}以下の場合は拒否 ➢ Inequity Aversion：金額が提案者と等しくない場合は拒否プロンプト設計（2パターン）： ➢ 10個の正解例をプロンプトに含める ➢ タスクの説明と1個の正解例をプロンプトに含めるプロンプト設計例（タスクの説明文と1個の正解例を含めた場合） 8

実験1 Ultimatum Game（結果） Labeling Accuracy： ➢ 10個の正解例 → SLとLLMは同程度 ➢ タスクの説明＋1個の正解例 → 10個の正解例と比較してSLは性能を落としたが、LLMは性能を維持 → タスクの説明の重要性を示唆 RL Agent Accuracy： ➢ Labeling Accuracyと同様の傾向 → LLMはタスクの説明と少数の正解例でユーザの意図を反映させた報酬関数となる SL ：正解例を用いて教師あり学習で報酬関数を学習 Ours：提案するLLMを報酬関数とする手法 True Reward：真の報酬関数を用いてエージェントを強化学習 9

10.

実験2 Matrix Game Matrix Game： ➢ ２人のプレイヤーがいる意思決定ゲーム（囚人のジレンマなど） ➢ 行動の選択肢とその結果は2×2=4通り → ユーザが意図した行動を選択するように強化学習するユーザの意図（4パターン）： ➢ Total Welfare：各プレイヤーの報酬和を最大化する ➢ Equality：各プレイヤーの獲得報酬を等しくする ➢ Rawlsian Fairness：各プレイヤーが受け取る最小報酬を最大化する ➢ Pareto-optimality：誰かの取り分を増やすには他者の報酬は減る状況をめざすプロンプト設計（2パターン）：正解例を含めないゼロショットの問題設定 ➢ タスクの説明を通常通りにプロンプトに含める ➢ 結果の順序をランダムにしてプロンプトに含めるプロンプト設計例（Total Welfareの場合） 10

11.

実験2 Matrix Game（結果） Labeling Accuracy： ➢ ユーザの意図に関する情報をプロンプトに含めると精度が向上 ➢ 結果の順序をランダムにしてプロンプトに含めると性能が低下 → LLMの学習データにMatrix Gameに関するデータが含まれていた可能性を示唆 RL Agent Accuracy： ➢ Labeling Accuracyと同様の傾向（論文ではRegular Orderのみ記載） No Objective ：ユーザの意図に関する情報をプロンプトに含めない Ours：提案するLLMを報酬関数とする手法 True Reward：真の報酬関数を用いてエージェントを強化学習 Regular Order：タスクの説明を通常通りにプロンプトに含める Scrambled Order：結果の順序をランダムにしてプロンプトに含める 11

12.

実験3 Deal or No Deal Deal or No Deal： ➢ アリスとボブで物の配分を合意形成するゲーム ➢ 配分に従いポイントを獲得できるが、合意に至らない場合はポイントを得られない → ユーザが意図したように交渉するアリス（≒エージェント）を強化学習する（ボブは固定）ユーザの意図（4パターン）： ➢ Versatile：同じ提案をしない ➢ Push-Over：ポイントをボブより少なくする ➢ Competitive：ポイントをボブより多くする ➢ Stubborn：同じ提案を繰り返すプロンプト設計： ➢ 3個の正解例をプロンプトに含める 12

13.

実験3 Deal or No Deal（結果1） Labeling Accuracy： ➢ Versatile（同じ提案をしない）以外では提案手法が高精度 RL Agent Accuracy： ➢ 提案する報酬関数でエージェントを学習させると、SLより大幅に性能が改善し、 True Rewardで学習したエージェントと同程度の性能を発揮 ➢ Versatile（同じ提案をしない）に関して、Labeling AccuracyではSLと提案手法は同程度だったが、 SLは偏ったラベルを予測していたためエージェントは正しく学習できていない SL ：正解例を用いて教師あり学習で報酬関数を学習 Ours：提案するLLMを報酬関数とする手法 True Reward：真の報酬関数を用いてエージェントを強化学習 13

14.

実験3 Deal or No Deal（結果2）エージェントの交渉スタイルの差を検証： ➢ 学習後の各エージェントの交渉スタイルがどの程度異なるかを評価 ➢ 3つの指標を計算 Advantage：アリスのスコア－ボブのスコア Diversity：アリスが異なる提案をする割合 Agreement Rate：合意に至った割合検証結果： ➢ 4つの交渉スタイルで指標の値が明確に異なる → ユーザの意図に合うように交渉スタイルを変えている 14

15.

実験3 Deal or No Deal（Pilot Study） Pilot Studyの概要： ➢ 前述した結果は真の報酬関数（ユーザの意図を100%反映した理想的な報酬関数）を正解として性能評価を実施していた ➢ Pilot Studyでは、個々のユーザだけが意図を評価できる場合を実験実験手順： ① 10人のユーザに特定の交渉スタイルを選択してもらう ② 選択したスタイルに適する/適さない交渉例を3つ選んでもらう ③ ②で選んだ交渉例が特定の交渉スタイルに合っているかをyes/noで質問する ④ 2パターンのプロンプトを設計・ユーザの意図をそのままプロンプトに含めたもの・ユーザの意図を反対にしてプロンプトに含めたもの ⑤ 学習後の交渉結果をユーザに提示して評価してもらう（スコアは1～5の範囲、5は最もスタイルに適すると判断したもの）結果： ➢ ユーザの意図通りプロンプトを設計するとスコアが高く、意図を反対にするとスコアが低い → ユーザは明確に違いを判断することができた 15

16.

まとめ提案手法： ➢ 大規模言語モデルを報酬関数として使用する強化学習フレームワークを提案 ➢ ユーザの意図をプロンプトに入力して報酬関数を設計数値実験： ➢ ３パターンの数値実験を実施・Ultimatum Game（最後通牒ゲーム）・Matrix Game ・Deal or No Deal ➢ 従来の教師あり学習などと比較して報酬関数の精度が向上 → ユーザの意図に沿ったエージェントの強化学習が可能 16