[DL輪読会]Implicit Representations of Meaning in Neural Language Models (ACL2021)

170 Views

September 03, 21

#deep learning #Neural Language Models #Encoding #Probing #Implicit Representations #Deep Learning

スライド概要

2021/09/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 45.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Implicit Representations of Meaning in Neural Language Models (ACL2021)” Okimura Itsuki, Matsuo Lab, B4 http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ 1. 2. 3. 4. 5. 6. 7. 8. 書誌情報概要問題意識⼿法：意味論⼿法：プロービング実験設定結果議論 2

１書誌情報タイトル： Implicit Representations of Meaning in Neural Language Models 出典： ACL2021(https://aclanthology.org/2021.acl-long.143/) 著者： Belinda Z. Li, Maxwell Nye, Jacob Andreasら(MIT) 選んだ理由：ニューラル⾔語モデルは記述する世界を表現、推論するのかというテーマが興味深いと感じたため。 3

https://aclanthology.org/2021.acl-long.143/

2 概要 • ニューラル⾔語モデルは⾔語だけを学習した場合であっても, 世界の意味状態をエンコードできるのかを調査した。 • 2つのドメインでの実験で、2つの事前学習済みの⾔語モデルによって⽣成されたテキストの表現状態が線形プローブを⽤いて, 世界の論理命題にある程度マッピングできること, この能⼒が主にオープンドメインの事前学習によることも明らかにした。 • また, 表現状態を編集することで⾔語⽣成に予測可能な影響を与えられることも⽰した。 • 事前学習済み⾔語モデルにおける予測は, 少なくとも部分的には，意味の動的な表現と実体の状態の暗黙のシミュレーションによって⽀えられていることを⽰唆した。 4

3 問題意識単語の配列に確率分布を配置するニューラル⾔語モデル(NLM)は⽂脈に沿った単語や⽂の埋め込みを⽣成し, その埋め込みには語彙関係, ⽂構造がエンコードされていることがわかっている。その⼀⽅で, 出⼒は必ずしも⾸尾⼀貫したものにならないのは, ⾔語の外部にある世界の明⽰的な表現に触れる機会がないためという指摘も NLMの有効性は, 表⾯的な単語共起統計の正確なモデル化のみに由来するのか？また, それらが記述する世界を表現し，推論するのか？ 5

4 意味論⾔語学における動的意味論からアプローチ動的意味論では⽂を⽂脈の情報状態を更新するポテンシャルとして捉える ※情報状態：ある談話と⼀致する世界の可能な状態の集合 The only thing in the chest is an old key. (x) 6

4 意味論⽂は情報状態の更新を⾏う You see an open chest. The only thing in the chest is an old key. There is a locked wooden door leading east. (a) You pick up the key. (b) ここで情報状態は明⽰されないものも更新される。(ex. chestはemptyになった) 7

4 意味論情報状態を全てのEntityに関する論理命題に対する真理値に当てはめる Φ! : open(chest)→T Φ" : in(old key, chest) →F Φ# :matches(old key, wooden door) →? ：： 8

5 プロービングプロービングにより意味状態がエンコードされるかを調査するプローブが⾔語モデルでの表現状態のみから論理命題を復元することができ, ベースラインモデルから説明できない場合, 意味状態がエンコードされているとする You see an open chest. The only thing in the chest is an old key. There is a locked wooden door leading east. (a) LM Encoder Probe LM Decoder Φ! : open(chest)→T Φ" : in(old key, chest) →F Φ# :matches(old key, wooden door) →? ：： You pick up the key. (b) 9

10.

5 プロービング 1 論理命題の埋め込みを作成する(embed) You see an open chest. The only thing in the chest is an old key. There is a locked wooden door leading east. The chest is open LM Encoder 10

11.

5 プロービング 2 表現状態を抽出、集約する(localize) You see an open chest. The only thing in the chest is an old key. There is a locked wooden door leading east. The chest is open LM Encoder LM Encoder You see an open chest 11

12.

5 プロービング 3 命題の真理値を予測する線形分類器Wを訓練する(classify) You see an open chest. The only thing in the chest is an old key. There is a locked wooden door leading east. The chest is open LM Encoder LM Encoder W You see an open chest → True 12

13.

6 実験設定⾔語モデルとデータセットを⽤いて論理命題を復元する事前学習済み⾔語モデル BART(Lewis et al., 2020) T5(Raffel et al., 2020) データセット Alchemy(Long et al., 2016) : ビーカーの状態の操作を記述 Textworld(Cote et al., 2018)：テキストベースのゲーム⽤の合成世界を記述モデルを各データセットで次の命令を⽣成するようにファインチューニングした後, 重みを凍結しプロービングを⾏う 13

14.

6 実験設定⽐較⽅法ファインチューニングした場合と事前学習をしなかった場合(+pretrain, -finetune), ファインチューニングをしなかった場合(-pretrain, +finetune), ⾔語モデルをランダムに初期化した場合(random init.), 全て変化しないと予想した場合(no change), テキストのみを使⽤した場合(no LM)のプロービングにより意味状態が⼀致した割合(State EM)と各命題が⼀致した割合(Entity EM)を計測 14

15.

6 実験設定実験図 15

16.

7 結果ベースラインと⽐べ両⽅のデータセットである程度の命題の復元に成功特にオープンドメインの事前学習によりスコアが上昇 →暗黙的な意味表現をある程度エンコードしている 16

17.

7 結果どの場所に情報が保存されているのか Alchemyについて単⼀のトークンからプルービングしスコアを検証エンティティに対する⾔及, 特に⾊に関する⾔及のトークンで⾼いスコアを計測エンティティに対する⾔及の状態表現がモデル内で更新, 保存されることを⽰す 17

18.

7 結果表現状態の操作は下流の⾔語⽣成に影響を与えるかビーカー1, 2の最終容量が0である談話𝑥!, 𝑥"を⽤意し, その表現状態を𝐶!, 𝐶" とするその後𝐶!のビーカー2に関する記述を𝐶"の表現状態に置き換えた表現状態𝐶#$% を作る CONT(𝑥)を談話xの意味的に続き得る⽂の集合として, それぞれの表現状態からデコードした⽂がCONT(𝑥$ )に含まれる割合を計測 18

19.

7 結果表現状態の操作は下流の⾔語⽣成に影響を与えられるか 𝐶!からの⽣成がCONT(𝑥!)内に, 𝐶"からの⽣成がCONT(𝑥")内に 𝐶#$% からの⽣成はCONT(𝑥!) ∩ CONT(𝑥") に含まれる割合が多い 𝐶#$% の表現状態は、両⽅のビーカーが空である状態であることを（おおよそ）⽰唆している →表現状態の操作で下流の⾔語⽣成に影響を与える 19

20.

8 議論⾔語モデルの限界そうとはいってもデコードした出⼒も表現状態の両⽅が不完全 -⼈間が⾮常に単純だと感じるタスクにおいて、完全な情報状態を復元できるのは53.8% 現在のモデルがより複雑な世界を表現することを学習できるかどうかについては、今後の課題 20

21.

8 議論⾔語モデルの事実性と⼀貫性表現状態は構造化されており, 解釈可能にローカライズされ, 編集可能であることが⽰された。 →表現を直接編集することで⽣成エラーを修正するなど、事実性と⼀貫性の向上を⽬指す研究に役⽴つ可能性 21

22.

まとめ • ニューラル⾔語モデルは⾔語だけを学習した場合であっても, 世界の意味状態をエンコードできるのかを調査した。 • 2つのドメインでの実験で、2つの事前学習済みの⾔語モデルによって⽣成されたテキストの表現状態が線形プローブを⽤いて, 世界の論理命題にある程度マッピングできること, この能⼒が主にオープンドメインの事前学習によることも明らかにした。 • また, 表現状態を編集することで⾔語⽣成に予測可能な影響を与えられることも⽰した。 • 事前学習済み⾔語モデルにおける予測は, 少なくとも部分的には，意味の動的な表現と実体の状態の暗黙のシミュレーションによって⽀えられていることを⽰唆した。 22

23.

DEEP LEARNING JP [DL Papers] “Implicit Representations of Meaning in Neural Language Models (ACL2021)” Okimura Itsuki, Matsuo Lab, B4 http://deeplearning.jp/

http://deeplearning.jp/