【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a SyntheticTask

286 Views

April 28, 23

#@deep learning jp #Deep Learning #Abstract Representation #GPT Models #Board Games #Language Modelling

スライド概要

2023/4/28
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task” (ICLR 2023) Istuki Okimura, Matsuo Lab M2 http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ 1 書誌情報 2 概要 3 問題意識 4 方法 5 プロービング 6 介入実験 7 潜在的顕著性マップ 2

1 書誌概要タイトル： Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task 出典： ICLR2023 oral (top 5%) https://openreview.net/forum?id=DeG07_TcZvT 著者： Kenneth Li, Aspen K. Hopkins, David Bauなど (Harvard University, Massachusetts Institute of Technology, Northeastern University…) 選んだ理由：特殊な設定で問題を解くことで、面白いテーマについて議論しているk と感じたため。 3

https://openreview.net/forum?id=DeG07_TcZvT

2 概要 • 言語モデルは驚くほど多様なタスクで成果を示いているが、その能力が単に配列を記憶していることによるのか、その配列の裏側にある内部表現の獲得に依存するのかは依然として不明である。 • 本論文では、GPTモデルをボードゲーム「オセロ」をプレーヤーの手だけで学習を行い、「オセロ」の合法的な手を予測するタスクに適用した。その結果、ネットワークはゲームやそのルールに関する先験的な知識を明示的に学習せずに、ボードの情報を内包した内部表現が得られることを示した • また、この内部表現に介入することでネットワークの出力を制御できる事を明らかにし、このような介入技術を活用することで、予測を説明するのに役立つ潜在的顕著性マップを得られる事も示した。 4

3 問題意識言語モデルは単純なタスクにも関わらず、多様なタスクで性能を発揮する • 言語モデリングはそれまでのトークンから次のトークンを予測するタスクである。 𝑃LM 𝑤𝑛 𝑤1 𝑤2 ⋯ 𝑤𝑛−1 • この学習を通じて驚くほど多くのことが可能になることが示されている ✓ 論理パズルを解く能力 ✓ コーディングすることができる能力 • このような性能が表層的なプロセスの関係を記憶していることで得られているのか、内部的にそのプロセスを生成するモデルを構築できることで得られるのかは依然としてわかっていない 5

4 方法オセロを題材に、表層的な系列の学習で世界モデルを創発できるか検証 • 本研究はルールやボード構造に関する先験的な知識を用いず、ゲームの記録を観察するだけで、 GPT型モデル(Othello-GPT)がそのゲームのルールを獲得できるのかに焦点を当てる • ランダムに初期化した8層のGPT型モデルを用いて、8×8のボード上でオセロの交互のプレーヤーの手を学習する。この時にモデルへの入力は連続したタイルのインデックスを用いる。 (i.e. A4は４番目の単語、H6は58番目の単語のように扱う) • 学習においては言語モデリングのように自己回帰的に実際の次の単語と予測のクロスエントロピー損失を最小化する 6

4 方法 Othello-GPTは学習により、合法的な次の手を予測することができる • 実験にあたり2つのデータセットを用いる。それぞれのデータセットは訓練用のセットとその中に含まれない検証セットを含む。 ⚫ Championデータセット：合計約14万件のオセロの選手権の対戦データセット人間が戦略を持って指したデータである ⚫ Synthesisデータセット：合計約2380万件のオセロのゲームツリーから分岐を一様にサンプリングして計算したデータセット人間の戦略を反映していないデータである • 二つのデータセットでそれぞれでモデルを学習し、top1の予測が合法な手となるかを検証 ⚫ 予測が合法な手とならないエラー率 ⚫ Championデータセットで学習したOthello-GPT：5.17% ⚫ Synthesisデータセットで学習したOthello-GPT：0.01% ⚫ 学習を行わないOthello-GPT：93.29％ ⚫ (参考)Synthesisデータセットのうち、4つの可能な初手の内1つを欠損させたもので学習した Othello-GPT：0.02％ 7

5 プロービング Othello-GPTの内部表現に盤面の情報がエンコードされているのか？ • Othello-GPTがゲームの内部表現を計算しているかどうかを理解することを目指し、プローブ(“probe”)を用いて検証する黒 • プロービング(“probing”)：その層の内部状態を入力として、目的とする特徴の分類機(プローブ)を学習し、評価することでその特徴の表現が内部のネットワークに符号化されている事を示す空白 • 本実験においてそれぞれの層での内部状態を入力として、64のタイルの状態(黒、空、白)を予測する 8

5 プロービング非線形プローブにおいて高い精度で盤面の情報を復元することができる線形プローブプローブに線形分類器を用いた場合、学習したネットワークにおいてもエラー率が 20%を下回ることはない。このことは盤面の情報が内部状態に含まれていても単純な線形形式ではないことを示す。非線形プローブプローブに2層のMLPを用いた場合、ランダムなネットワークと比較して学習したネットワークにおいても大きく精度が向上している。非線形プローブが、ネットワークの活性化における盤面の状態の非自明な表現を回復している可能性を示す。 9

10.

6 介入実験内部状態に介入することにより、次の手の予想を操作できるか検証する • Othello-GPTから一連の活性が与えた場合、プローブは盤面状態𝐵を予測する。 • その後、プローブが盤面状態𝐵とあるタイル𝑠の状態だけ異なる盤面状態𝐵’を報告するように、時間的に最後のトークンの内部状態を操作する。 • 内部状態を介入後のものにし、それ以降の層の内部状態を修正する。 • そして、介入した場合に予測する手が盤面状態𝐵’での合法的な手とどの程度一致しているかを検証する。 10

11.

6 介入実験内部状態に介入することで、予測結果を操作することができる • 1000の介入ケースからなる二つのセットで評価 – Naturalベンチマーク：合法的なプレーで到達可能な位置のみ – Unnaturalベンチマーク：合法的なプレーで到達不可能な位置も含む • 上位𝑁件の予想を実際の合法的な次の手の集合と比較すると、両ベンチマークは5層を介入する場合が最も性能が良く、1件あたりの平均誤差は 0.12と0.06となった。このことから介入により、ベースラインよりも良い精度で予想を操作できていることがわかる。 11

12.

7 潜在的顕著性マップ介入実験を用いて、あるタイルの予測に寄与するタイルのマップが得られる • ボード𝐵上の各タイル𝑠について、そのタイル𝑠の状態表現を変更するために介入した場合、帰属するタイル𝑝に対するネットワークの予測確率がどれだけ変化するかを検証する。これにより、タイル𝑝の予測に関与する正または負のタイルが示され、top1予測に対する顕著性に応じタイルが色付けされたマップが得られる。 • Synthesisデータセットで学習したOthello-GPTでは、手を合法にするために必要なタイルに対して高い顕著性を示しているのに対し、 Championデータセットで学習したOthello-GPTの顕著性マップはより複雑な値を示す。 (このことから、Championデータセットでは戦略的に良い手を打つことを学習すると主張。) 12

13.

感想 Transformerが合理的な世界状態表現を学習するのか、それとも単にデータの表面レベルの統計量を利用するのかという GPT系のモデルにおいて関心があるテーマについて、制約条件のあるデータで学習することで検証を行っているのが面白いと思った。なぜ線形プローブでは性能が得られずに、非線形プローブで性能が得られるのかがあまり言及されていなかったトイデータでの検証のその先が気になる 13

14.

まとめ • 言語モデルは驚くほど多様なタスクで成果を示いているが、その能力が単に配列を記憶していることによるのか、その配列の裏側にある内部表現の獲得に依存するのかは依然として不明である。 • 本論文では、GPTモデルをボードゲーム「オセロ」をプレーヤーの手だけで学習を行い、「オセロ」の合法的な手を予測するタスクに適用した。その結果、ネットワークはゲームやそのルールに関する先験的な知識を明示的に学習せずに、ボードの情報を内包した内部表現が得られることを示した • また、この内部表現に介入することでネットワークの出力を制御できる事を明らかにし、このような介入技術を活用することで、予測を説明するのに役立つ潜在的顕著性マップを得られる事も示した。 14

15.

DEEP LEARNING JP [DL Papers] “Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task” (ICLR 2023) Istuki Okimura, Matsuo Lab M2 http://deeplearning.jp/

http://deeplearning.jp/