in-context-learn-from-baysian-point-of-view

408 Views

September 24, 23

#コンテキスト内学習 #Bayesian Inference #Machine Learning #Artificial Intelligence #Natural Language Processing

スライド概要

野中賢也

@6031295630

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 2.19MB)

関連スライド

各ページのテキスト

コンテキスト内学習のベイズ推論的な説明野中賢也

読んだもの • プロンプトエンジニアリングを理論的に説明している論文とかないかなと少し気になった。 • コンテキスト内学習についての研究 • A Theory of Emergent In-Context Learning as Implicit Structure Induction(2023; https://arxiv.org/abs/2303.07971) • An Explanation of In-Context Learning as Implicit Baysian Inference(2022; https://arxiv.org/abs/2111.02080) • 一旦、古め?の二番目の論文を読んでみようとしたが、挫折したので、同じ著者がやさしめに書いている以下のブログを読んだ(前提にしているモデルやプロンプトが若干古いのは、すみません。) • http://ai.stanford.edu/blog/understanding-incontext/

コンテキスト内学習とは何か？ • 狭義の？コンテキスト内学習= few-shot prompting(今回はこれに注目) • プロンプトの中に学習サンプル+テストサンプルをいれて、LMに推論させる

コンテキスト学習の延長線上にあるもの • 2022年8月時点(ChatGPTリリース11月)で、コンテキスト内学習の延長線上でLLMが多様な自然言語処理タスクに使えることは判明していたね。

何がユニークなことなのか？ • LM自体は、Next Token Predictionのタスクに最適化されていて、ただ次の単語を予測しているだけなのに、なぜ、ユーザーが質問したさまざまなタスクに答えられているのか？

コンテキスト内学習のフレームワーク(仮説)

Conceptの特定 • LMは、コンテキスト内学習において、事前学習時に学んだConcept(概念)を locate(特定)していおり、そのConceptによってふるまいを変えている

Conceptとは？ • Concept = 文章の統計情報を含んだ潜在変数 • 例えば、news topicsであれば、ニュースの単語分布やフォーマット、ニュースとトピックの関係などを含んでいる。

Pretrainとコンテキスト学習 • Pretrain: LMは学習時に、与えられた文章からConceptを学習 • In-Context Learning: プロンプトから、Conceptを推論して、それをもとに生成

10.

From Bayesian Inference View • Conceptという潜在変数の存在を仮定して、ベイズ予測分布と同様に、プロンプトからOutputが生成されることを記述できる。 • p(output) = 事前学習の単語分布、LMは事前学習の分布を正確に学習可能と仮定する • p(prompt) = プロンプトに与えられる単語分布

11.

From Bayesian Inference View • LM自体は、Next Token Predictionのタスクに最適化されていて、ただ次の単語を予測しているだけなのに、なぜ、ユーザーが質問したさまざまなタスクに答えられているのか？ • → LMは、p(output)の分布だけを学習しているはずなのに、なぜ、異なる分布なはずのp(prompt)からconceptを推論することができているのか？」

12.

Noisy evidence for Baysian Inference • プロンプトは、ベイズ推論におけるノイズが混じった事実となっている。 • 信号：プロンプトの学習データの一貫した部分 • ノイズ：区切り文字から別の学習データに移行する部分 • これらの仮定を置いて、信号がノイズよりも十分大きければ、コンテキスト内学習が成功することに理論的証明とシミュレーションデータによる補足を与えた。(元の論文)

13.

フレームワークを支持する経験的な証拠

14.

実験① • プロンプトにおける学習データをランダムに変化させても、精度に大きく影響しない。

15.

実験① • No Demos : zero-shot learning • Demos w/ gold labels: プロンプトに与える学習データは完全に正しいver • Demos w/ random labels: 学習データのラベル部分だけランダムにサンプルして、プロンプトに与えるver

16.

実験② • 学習データの入出力間の関連は重要ではないが、入力文章は重要である。 • 1入力文章をテストするデータと同じコーパスからとってきて、ラベルをランダムにしたプロンプト • 2入力文章を他のコーパスから取ってきて、ラベルをランダムにしたプロンプト • →2は1に比べて、16%程度パフォーマンスが落ちた

17.

実験③ • 学習データの入出力間の関連は重要ではないが、出力ラベル集合は重要である。 • 出力ラベルの集合をランダムな英単語に置き換えて実験 • →こちらも16%までパフォーマンスが下がることが確認できた。

18.

実験①~③をまとめると • Input distributionとoutput space及びFormatの3つの情報が、プロンプトにおけるベイズ推論に対する強い信号となっている。 • 一方で、従来重要であった、学習データの入出力間の関係にノイズが入ったとしても、コンテキスト内学習はうまくいくと考えられる。

in-context-learn-from-baysian-point-of-view

野中賢也

関連スライド

voyager_presentation

word_rotator's_distance

Deep reinforcement learning from human feedback

ヘフティングの不等式からデータセットのサイズ算出

active clean slide

TransE

各ページのテキスト