【DL輪読会】Amortizing Intractable Inference in Large Language Models

4.4K Views

November 24, 23

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.01MB)

関連スライド

各ページのテキスト

DEEP LEARNING JP [DL Papers] DL輪読会： Amortizing Intractable Inference in Large Language Models Ryoichi Takase http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報採録：ICLR2024 Under review 概要： ➢ Chain-of-thought reasoningを潜在変数モデルの推論として定式化 ➢ Generative flow network (GFlowNet）を用いて事後分布を学習することで論理となる文章の生成精度が向上 ※注釈無しの図は本論文から抜粋 2

背景研究背景：大規模言語モデルは自己回帰的に文章生成を行うことが主流直前までの文脈から尤もらしい次の単語を予測文章𝑋と𝑌の内容のギャップが大きい場合でもChain-of-thought reasoningにより論理𝑍を適切に与えることで大規模言語モデルは𝑋から𝑌を導ける問題点： 𝑋→𝑍→𝑌（左から右）の一方向で文章を生成するため逆方向の推論は難しいが、 𝑋→𝑌のみが既知であり𝑍を知りたいケースもある 3

背景 𝑋→𝑌のみが既知であり𝑍を知りたいケースもあるため、論理𝒁を推論できるモデルの学習が必要 𝑋→𝑌のみが既知なぜネコは空腹から満腹になったのかを知りたいが、𝑍となる事象の候補は複数存在する餌を捕まえた？餌をもらった？… 論文中の例） 4

提案手法本研究では、文章𝑋から𝑌に至るまでの論理𝑍を推論したい → 論理𝑍の候補は複数存在するため、𝑋と𝑌が与えられた際の𝑍の事後分布を考える文章𝑿と𝒀から論理𝒁を推論するためのアプローチ： ① 大規模言語モデルでのChain-of-thought reasoningを潜在変数モデルの推論として定式化 → 事後分布𝑝𝐿𝑀 (𝑍|𝑋, 𝑌)は文章𝑋𝑍𝑌の生成確率𝑝𝐿𝑀 (𝑋𝑍𝑌)と比例することを確認 ② Generative flow network（GFlowNet）による事後分布の学習 → ①を用いて報酬関数を設定することで、事後分布と一致する方策を学習 5

① 潜在変数モデルの推論として定式化大規模言語モデルでのChain-of-thought reasoningを潜在変数モデルの推論として定式化 𝑍を推論するために、𝑋と𝑌が与えられた際の事後分布𝑝𝐿𝑀 (𝑍|𝑋, 𝑌) を考える → 事後分布は文章𝑋𝑍𝑌の生成確率と比例 6

② GFlowNetによる事後分布の学習 GFlowNet1) では学習後の方策が報酬と比例する 𝑇 𝑞𝐺𝐹𝑁 ：方策 𝑇 𝑞𝐺𝐹𝑁 (𝑍) ∝ 𝑅(𝑍) 𝑅 ：報酬関数：サンプリングした文章と設定するとここで、①より報酬関数を 𝑇 𝑞𝐺𝐹𝑁 (𝑍) ∝ 𝑝𝐿𝑀 (𝑋𝑍𝑌) ∝ 𝑝𝐿𝑀 (𝑍|𝑋, 𝑌) 𝑝𝐿𝑀 (𝑋𝑍𝑌)は計算できるため生成モデルの学習が可能 intractable 𝑝𝐿𝑀 (𝑍|𝑋, 𝑌) はintractableだが、GFlowNetにより事後分布と一致する方策の学習が可能 1) Bengio, Emmanuel, et al. "Flow network based generative models for non-iterative diverse candidate generation." Advances in Neural Information Processing Systems 34 (2021): 27381-27394. 7

数値実験 4つのタスクで数値実験を行い、GFlowNet fine-tuningによる学習手法の性能を検証 1. Sentence Continuation 直前までの文章𝑋から尤もらしい続きの文章𝑍を生成 2. Infilling Stories 物語の序論𝑋と結論𝑌が与えられた際に、本論となる文章𝑍を穴埋め 3. Subjectivity Classification 映画のレビュー𝑋をグループ𝑌（主観的or客観的）に分類 𝑋をもとにレビューの続き𝑍を生成することで分類精度を高める 4. Solving Arithmetic Problems Step by Step 加減法に関する問題𝑋と回答𝑌が与えられた際の論理的な根拠𝑍を生成 8

1. Sentence Continuation タスク：直前までの文章𝑋から尤もらしい続きの文章𝑍を生成学習データ：OpenWebText 言語モデル：GPT-2 XL 性能指標：最大尤度と文章の多様性（コサイン類似度から計算）補足：本タスクでは文章𝑌に相当するものがないため報酬関数を𝑅 𝑍 = 𝑝𝐿𝑀 𝑍 𝑋 1/𝑇と設定パラメータ𝑇を0 < 𝑇 < 1の範囲で変えながら結果を比較結果： GFlowNet fine tuning（提案手法）は他手法と同等以上の最大尤度であり文章の多様性も高い 9

10.

2. Infilling Stories タスク：物語の序論𝑋と結論𝑌が与えられた際に、本論となる文章𝑍を穴埋め学習データ：ROCStories corpus 言語モデル：GPT-2 Large 評価指標：穴埋めした本論と正解例の類似度（BERTScore、BLEU-4、GLEU-4）結果： GFlowNet fine-tuningによる生成文と正解例との類似度が最も高いことを確認 10

11.

3. Subjectivity Classification タスク：映画のレビュー𝑋をグループ𝑌（主観的or客観的）に分類 𝑋をもとにレビューの続き𝑍を生成することで分類精度を高める学習データ：SUBJ（映画評論の分類データセット）言語モデル：GPT-J 6B 評価指標：レビューの分類精度結果： GFlowNet fine-tuningが最も分類精度が高い 11

12.

4. Solving Arithmetic Problems Step by Step タスク：加減法に関する問題𝑋と回答𝑌が与えられた際の論理的な根拠𝑍を生成学習データ：加減法を表現したデータ言語モデル：GPT-J 6B 評価指標：根拠の正解率結果： GFlowNet fine-tuningが最も正解率が高い 12

13.

まとめ提案手法： Chain-of-thought reasoningを潜在変数モデルの推論として定式化 GFlowNetを用いて事後分布を学習実験結果： GFlowNetを用いてfine-tuningすることで、文章𝑋と𝑌が与えられた際の論理となる文章𝑍の生成精度が向上 13

【DL輪読会】Amortizing Intractable Inference in Large Language Models

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

各ページのテキスト