【人工知能・深層学習】論文紹介：In-Context Learning Creates Task Vectors

4.6K Views

April 26, 24

#論文紹介 #deeplearning #人工知能 #深層学習 #llm #In-Context Learning #LLM #機械学習 #統計的学習理論 #タスクベクトル

スライド概要

【論文の学術分野】：Computation and Language
【論文正式名称】：In-Context Learning Creates Task Vectors
【原論文のリンク】：https://arxiv.org/abs/2310.15916
【論文投稿日付】：2023/10/24

【概要】：モデルが、パラメータの変更・調整（いわゆる学習）無しに、入力に含まれるルールを捉えることIn-Context Learningと呼びます。この論文は、単純で秀逸な実験によりこの現象の解明を試みるものです。具体的には、タスクベクトルという概念を定義し、それらの存在を示し、効力を測定、可視化しています。

【注意書き】：解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。資料の転用は禁止しております。

Shunsuke Yasuki

@snskysk

スライド一覧

人工知能（ディープラーニング）研究者。現在博士課程に在籍。主な実績：CVPR2024主著論文採択。研究テーマ：コンピュータ・ビジョンの分野で深層学習モデルがどのように機能するかを包括的に研究。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】論文紹介：カーネルサイズ100を超えるCNN - PeLK

論文紹介 deeplearning 人工知能 cnn pelk 深層学習

Shunsuke Yasuki 4.8K

【人工知能・深層学習】論文紹介：NFNetの論文

論文紹介 deeplearning 深層学習人工知能 cnn

Shunsuke Yasuki 3.1K

【人工知能・深層学習】CNNやViTの論文紹介前にお見せするスライド

人工知能 deeplearning 深層学習 cnn vit 論文紹介

Shunsuke Yasuki 882

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 776.2K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 363.4K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 363.2K

各ページのテキスト

論文紹介 In-Context Learning Creates Task Vectors モデルが、パラメータの変更・調整（いわゆる学習）無しに、入力に含まれるルールを捉えることIn-Context Learningと呼びます。この論文は、単純で秀逸な実験によりこの現象の解明を試みるものです。

論文紹介 2024/01/23 立教大学人工知能科学研究科瀧雅人研究室D1 安木駿介

目次 • 論文概要 • 研究の振り返り • 研究背景 • 研究の観点 • 検証 • 議論 • まとめ 2

論文概要

論文概要＞論文タイトル・貢献論文タイトル • In-Context Learning Creates Task Vectors 原論文「https://arxiv.org/abs/2310.15916 」貢献1 • ICLのメカニズム的な見方の提案貢献2 • 公開されている様々なLLMと多様なタスクセットでの検証 4

https://arxiv.org/abs/2310.15916

論文概要＞In-Context Learningとは？ Q. ICL（In-Context Learning）とは？ Input Output Apple→Red Lime→Green Corn→ A. Yellow LLM パラメータの変更・調整（いわゆる学習）無しに、モデルが入力に含まれるルールを捉えること。 5

なぜこんなことが起こるのか？ →論文はこの答えを探求している

研究アプローチ疑問点と研究アプローチ疑問点 ICLの背後にはどんなメカニズムがあるのか？ ※ さらに言えば、経験的リスク最小化（Empirical Risk Minimization）。書籍仮説h＝入力xを出力yにマップする関数仮説H＝真の法則仮説Hの空間研究アプローチ統計的学習理論の仮説クラスの概念 (※)を利用してアプローチ。データ生成分布D 仮説h PDF 経験的リスク最小化 m個のサンプリング点真の法則（仮説H）や分布Dがわからずとも、 m個のサンプリングから経験的に損失を最小化し、入力xを出力yにマップする関数（仮説h）を見つけること。ややこしく聞こえるが、結局は、ICLの現象も通常の学習の常識で考えられるのでは？という切り口。 8

検証の目標検証の目標理解 Input Output Apple→Red Lime→Green Corn→ Yellow LLM 右下図のように解釈できるアルゴリズムベクトルθ(S)を計算（デモデータS） ≒ルール関数を獲得 Input クエリx クエリxにルール関数を適用検証の目標 Input＝デモデータS＋クエリxと考えた時、 Sのみからルール関数を獲得し、xに適用できるかを確認したい。 9

10.

仮説著者らの仮説アルゴリズムベクトルθ(S)を計算（デモデータS） ≒ルール関数を獲得 Input クエリx クエリxに著者らの仮説 ICLは2つのステップから構成されると考える。 A. デモデータSに基づきベクトルθを計算する（ルールを抽出）ルール関数を適用検証の目標 B. ベクトルθで定義されるルールをクエリxに適用する Input＝デモデータS＋クエリxと考えた時、 Sのみからルール関数を獲得し、xに適用できるかを確認したい。 Apple→Red Lime→Green Corn→ Output Yellow LLM ・・・ Layer Layer Layer Layer Shallow ・・・ B Output Input Layer LLMのフォワードパスでは、Sとxが二つの要素としてうまいこと分解されているのか？検証しよう。 Input x S A Layer 浮上する疑問点 L番目 Layer Transformer内で上記が実行される場合、その単純な方法は以下。 L番目までのレイヤーでAが行われ、以降でBが行われるというもの。 Deep しかし、実際にはどの層でもSとxにアクセス可能であるため、仮説の妥当性は不明である。 10

11.

仮説の検証仮説の検証のための、フォワードパスの変形現状では、Sとxを同時に入力する。そのため、A（ルール抽出）とB（ルール適用）のステップの存在を確認できない。クエリx(Corn)の代わりにダミークエリx’(Plum)を用意。Plumに続く「→」のL 層における表現「θ」ベクトルを獲得。その後「Corn→」のみの入力のL層にて、 11 「→」のL層表現を先の「θ」ベクトルに置き換え、Aとfの処理を独立させる。

12.

仮説の検証仮説の検証：先の変形プロセスで、18のタスクを実施 18のタスク。アルゴリズム、翻訳、言語学的タスク、知識タスクと、4ジャンルに大別される。計画した実験の結果は、通常実験の結果に迫る高い性能を示した。これは、Aとfの分離が、ICLの基礎となるプロセスの経験的な近似といえることを示している。 12

13.

発見レイヤーとタスクベクトルに関する興味深い発見最適なL番目のレイヤーは、モデルの層数やパラメータ数が異なっても、おおよそ同じような中間レイヤーとなった。 t-SNEによるタスクベクトルの可視化。タスクごとにまとまりがある。類似タスク同士（例えば仏英と西英の翻訳）のベクトルの特徴は近い。 13

14.

追加検証異なる実験による、主張の補強図：相反するタスクの実験。通常シナリオ（上）では、モデルにはタスクA（例えばアルファベットの前の文字を出力する）のためのデモンストレーションSAが単純に提供される。競合シナリオ（下）では、モデルにはタスクAのデモンストレーションが提供されるが、競合タスクB（例えばアルファベットの次の文字を出力する）からのタスクベクトルθ(SB)を注入する。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ Regular Task A: デモ＝A用 Conflicting Task B: デモ＝A用、タスクベクトルθはB用のもの。表2：競合タスクの実験結果。両シナリオの関連タスク（「通常」のA、「競合」のB）に対するモデルの精度が表示されている。通常タスクAと相反タスクBを用意。例：リストタスク。[c,d,b,a,e] 通常タスクA：デモデータS＝A用のもの相反タスクB：デモデータS＝A用のもの。タスクベクトルθはB用のもの。 → 結果、Aは当然高いとして、Bも結構高くなった。このモデルが主にθに依存しており、タスクAのための実証Sをほとんど無視していることを示唆している。 14

15.

ベクトルθについてベクトルθの解釈・保有情報学習されたベクトルθは、S（デモデータ）が示すタスクに関する情報を直感的に捉える。 =========abst より========= ICLはSを1つのタスクベクトルθ(S)に圧縮し、このタスクベクトルを用いてTransformerを変調し、出力を生成すると見ることができる。 ======================== θはTransformerの中間的な隠れた状態なので、vocabulary projection method（語彙投影法、nostalgebraist, 2020; Dar et al.）により、隠れた状態によって誘導される語彙上の分布の上位トークンを調べる。ベクトルθは、パラメータの変更無しに少ないデモデータのみから計算されるのにもかかわらず、アウトプットには直接現れな 15 いようなタスク関連情報を保持している。

16.