【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "

>100 Views

July 21, 23

スライド概要

2023/7/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] DL輪読会:Language Instructed Reinforcement Learning for Human-AI Coordination Ryoichi Takase http://deeplearning.jp/ 1

2.

書誌情報 採録:ICML2023 概要: ➢ 言語でエージェントに指示できる学習フレームワークを提案 ➢ 協調型ボードゲームで提案手法を検証し、人と協調可能な振る舞いを行うことを示した ※注釈無しの図は本論文から抜粋 2

3.

背景 研究背景: 人と協調可能なAIの開発が望まれているが、学習に必要な正解データが十分ではない場合がある 上記の問題点を解決するため、強化学習を用いた協調可能なAIの研究が行われている 研究課題: 強化学習で得られたエージェントは高性能だが、人が理解できない振る舞いとなるケースが多い → 協調可能なエージェントの学習は難しい 言語だったら人は理解できるのにな… 3

4.

研究目的 関連研究:プロンプト [1] ゼロ・少数ショット学習で新しいタスクに適応するために、 プロンプトを用いたフレームワークが提案されている タスクの説明といくつかの例を入力の接頭辞として付加することで、 大規模言語モデルのパラメータを更新せずに新しいタスクに適応させる 関連研究:強化学習への応用 [2] 大規模言語モデルを報酬関数として使用する強化学習フレームワークを提案 研究目的: プロンプトを用いて言語で指示を与えることで、エージェントに意図した振る舞いをさせたい [1] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901. [2] Kwon, M. and Sadigh, D. “Reward design with language models.” In International Conference on Learning Representations, 2023. 4

5.

提案手法 大規模言語モデル(Large Language Model: LLM)を用いてPrior Policyを構築 人の指示と強化学習中の行動・観測を説明したプロンプトにより条件付け → Prior Policyを参照方策として学習が調整される inst:人の指示 lang(𝜏𝑡𝑖):観測の説明文 lang(𝑎𝑡 ):行動の説明文 𝑝𝐿𝐿𝑀 = SOFTMAX(𝛽 ⋅ logit) logit = 𝑓(inst, lang 𝜏𝑡𝑖 , lang(𝑎𝑡 ) 𝛽:scaling factor 5

6.

提案手法 InstructQ 方策をlog𝑝𝐿𝐿𝑀で拡張: InstructPPO KLペナルティを目的関数に追加: 方策の損失関数は次式となる 6

7.

実験1:Say-Select Game ゲーム概要: ➢ アリスとボブで協力して得点を獲得するゲーム ➢ アリスは+1のボールの番号をボブに伝え、ボブはその番号を選択すると1点獲得 ➢ アリスが既出の番号を伝えると、ボブは+1のボールがないと判断してゲーム終了 7

8.

プロンプト設計 InstructQ(提案手法)を用いてボブを学習 アリスが伝えた番号を選択し、既出の番号の場合はゲームを終了するように学習 プロンプト: ← ボブへの指示 ← アリスの行動(lang(𝜏𝑡𝑖)はボールの番号) ← ボブの行動 ※アリスはVanilla Q-learningで学習 8

9.

実験結果 InstructQ(提案手法)で学習された方策は人にとって理解しやすい → 言語による指示を強化学習に組み合わせるメリットを示唆 1ステップ前のアリスの行動 はボブが選択したボールの番号 はゲーム終了の行動を示す 2ステップ前の アリスの行動 1ステップ前にアリスが伝えた番号を選択し 既出の場合はゲーム終了の行動を選択 ベースライン 提案手法 図:ボブの方策の可視化(3つの方策はself-playでは同等の最適性) 9

10.

実験2:花火(Hanabi)ゲーム ゲーム概要: ➢ 2~5人で行う協力型のボードゲーム(論文では2人の場合を想定) ➢ 5色のカードがあり、各色で1~5の数字(ランク)が記載 (ランク1が3枚、ランク2~4が2枚ずつ、ランク5が1枚) ➢ 他のプレイヤーの手札は把握できるが、自分の手札は分からない ➢ プレイヤー同士でヒントを出しながらカードを場に出し、 全色でランクを1から5まで順番につなげていく ← パートナーの手札 自分からは全ての手札を把握できるため、 適切なヒントをパートナーに与える ← 自分の手札: 自分の手札は確認できないため、パートナーからヒントを得 る必要がある 例では、真ん中のカードのランクは1であることが判明 2人でゲームをプレイした場合の例 10

11.

花火(Hanabi)ゲーム 行動は3種類: 1. カードを1枚場に出す 合法手の場合は場にカードが残り、非合法手(例、ランクの順番が飛ぶなど)の場合は ペナルティが加算される。山札からカードを1枚補充する。 2. カードを1枚捨てる カードを捨てて山札から1枚補充する。ヒントの制限回数が1回復する。 3. 他のプレイヤーにヒントを教える 色またはランクと位置を伝えることが可能(ヒントの制限回数は5) スコア: 場に出ているランクの合計値(最大スコアは5色×5ランク=25) ゲームの終了条件: 山札のカードが全て無くなるか、ペナルティが3回たまるとゲーム終了 注)論文にはルールの詳細は記載されていないため、一般的なボードゲームでのルールを記載 11

12.

プロンプト設計 プロンプト: ← エージェントへの指示 ← パートナーの行動 ← エージェントの行動 ゲームの戦略に関して: 本論文では2パターンの戦略を実験 1. Color-based policy: ➢ 色に関するヒントを伝えた場合、そのカードはプレイ可能なカードを意味する ➢ ランクに関するヒントを伝えた場合、そのカードは捨てずに手札に残すべきカードを意味する 2. Rank-based policy: ➢ 上記の色とランクの役割を逆にした戦略 12

13.

プロンプト例 ← エージェントへの指示 Color-based policyの説明 ← パートナーの行動 位置Eのカードはプレイ可能であることを color-based policyに基づき伝えている ← エージェントの行動 位置Dのカードに関して質問している ← LLMの回答 13

14.

提案手法の性能評価 InstructQとInstructPPO(提案手法)をQ-learningとPPO(ベースライン)と性能比較 結果: InstructQとInstructPPOはベースラインと同等の性能を発揮 Self-playとIntra-AXPとのスコアの差が小さい → ランダムシードに依存せず同様の解に収束している 同等のスコアが得られていることを確認 表:各手法の性能結果 Self-play:同一手法・ランダムシードで学習したエージェントを使用 Intra-AXP:同一手法だが別のランダムシードで学習したエージェント使用 14

15.

指示による行動確率の変化 全ての手法において、ヒントの情報に重きをおいてカードをプレイ Q-Learning(ベースライン): 色とランクに関するヒントの情報を混在させてカードをプレイ InstructQとInstructPPO(提案手法): 指示されたヒントに関する情報からカードをプレイ 例)color-based policyでは色に関するヒントが得られた際の行動確率が高い 時刻𝑡 + 1でプレイしたカード 高確率 低確率 時刻𝑡で与えた色のヒント 時刻𝑡で与えたランクのヒント 図:action matrix 𝑝(𝑎𝑡+𝑡 |𝑎𝑡 ) の可視化(関連する行動を抜粋して表示) 15

16.

得られたヒントの活用率 全ての手法において、約98%の確率でヒントから情報を得たカードをプレイしている Q-LearningとPPO(ベースライン): 色とランクに関するヒントの情報を偏りなく活用してカードをプレイ InstructQとInstructPPO(提案手法): エージェントに与えられた指示に関するヒントに大きく依存してカードをプレイ → 指示に基づいた方策を学習できている 図:エージェントがプレイしたカードに関する情報 16

17.

人による性能評価 10人の評価者が学習したエージェントと実際にゲームをプレイ 評価方法: まず、エージェントに与えた指示を人には伝えずにゲームをプレイ(w/o L) つぎに、指示を人にも伝えてゲームをプレイ(with L) 結果: 指示を伝えた後は、ゲームのスコアとフィードバックのスコアが大幅に向上 → エージェントの振る舞いが人にとって理解しやすいことを示唆 表:人がエージェントとゲームをプレイした結果 図:評価者によるフィードバック (7段階スコア、結果の一部を抜粋) 17

18.

まとめ 提案手法: ➢ 人との協調を実現するために、言語でエージェントに指示できる学習フレームワークを提案 ➢ エージェントの指示やパートナーの行動を言語でプロンプトとして入力 実験結果: ➢ Say-Select Gameと花火(Hanabi)で提案手法の性能を検証 ➢ 言語の指示に基づいた方策が得られていることを確認 →エージェントの振る舞いが人にとって理解しやすく協調可能 18