【DL輪読会】Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs (EMNLP 2022)

>100 Views

November 28, 22

#@deep learning jp #Deep Learning #Natural Language Processing #Belief Tracking #Breakpoint Modeling #Istuki Okimura

スライド概要

2022/11/25
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs” (EMNLP 2022) Istuki Okimura, Matsuo Lab M1 http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ 1 書誌情報 2 概要 3 問題意識 4 提案手法 5 実験設定 6 結果 2

1 書誌概要タイトル： Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs 出典： EMNLP2022 https://arxiv.org/abs/2211.07950 著者： Kyle Richardson, Ronen Tamari, Oren Sultanなど (The Hebrew University of Jerusalem, AllenAI,…) 選んだ理由：移りゆく事象をモデルが把握する方法を学習させるというモチベーションに興味があった 3

https://arxiv.org/abs/2211.07950

2 概要 • 自然言語処理において、モデルが内部でどのような信念状態を持っているかの解釈は依然として困難であり、特に物語理解のタスクにおいて、言語モデルがどのように世界の変化を追跡しているのか不明な点がある。 • 本論文ではストーリーの中間地点における信念状態を学習、追跡する新しい表現学習フレームワークであるブレイクポイントモデリングを提案。 • 既存の表現学習手法と比較して、信念状態の予測精度や処理効率、予測の一貫性で優れることを示した。 • また、対応する質問応答モデルに組み込んだ場合でも性能が劣化しないため、よりデバッグしやすいシステムへの発展可能性を示した。 4

3 問題意識モデル内部の信念を理解し、解釈するのは困難な問題である • 物語理解のようなタスクにおいて、言語モデルの世界追跡能力には不明な点がある。 • 例えば、右図のようなストーリーを受けて、 ”Where is the apple?” のような質問に答えるには以下の能力を持つ必要がある。 ✓ 時間を通じて対象を追跡する能力 ✓ 他の知識と追跡する知識を区別する能力 • 一方で、モデルがある地点で特定の命題に関してどのような信念を持っているか (例. その時点でりんごはどこにあると考えているのか)を直接調べるのは困難である。 5

3 問題意識モデルの任意の点における信念状態を学習、追跡できる手法を提案 • モデルがストーリーの任意の点 (ブレークポイント)において命題への信念状態を学習するフレームワーク、ブレークポイントモデリングを提案。 • 右図上のプログラミングのブレークポイントのように、ストーリーの中間地点においてのあるべき信念状態を学習することで、訓練時に特定の信念をモデルに教えること、そして推論時に信念状態がデバッグできるシステムを目指す。 • 中間的な状態を学習することで、最後の質問に対し一貫した回答が生成しやすくなるはず？ 6

4 提案手法提案手法の概要 1. ストーリーの中にブレークポイントトークン[B]𝑗 を挿入する 2. ブレークポイントで考えるべき命題の集合 𝑃𝑗 = 𝑝1 , 𝑝2 … 𝑝𝑡 とそれぞれの命題に関する真理値(true or false or unknowing)を用意する 3. 二つのエンコーダーを用いて、ブレークポイントと命題のそれぞれの埋め込み表現𝑏と𝑐𝑝𝑟𝑜𝑝 を作る 4. それぞれのブレークポイントとその命題に関する埋め込みから、その命題に関する真理値を予測するタスクを学習する 7

4 提案手法ブレークポイントと命題の設定ブレークポイント(“breakpoints”) • ストーリーの中間地点にブレークポイントを示す特殊なトークン[B]𝑗 を挿入する • ストーリーを入力するエンコーダー𝑒𝑛𝑐𝑠𝑡𝑜𝑟𝑦 によって埋め込み表現𝑏𝑗に変換される命題(“propositions”) • 各ブレークポイント[B]𝑗 においてテキスト命題𝑃𝑗 = 𝑝1 , 𝑝2 … 𝑝𝑡 のセットと関連づける • 命題を入力するエンコーダー𝑒𝑛𝑐𝑝𝑟𝑜𝑝によって埋め込み表現𝑐𝑝𝑟𝑜𝑝に変換される • それぞれの命題𝑝𝑘 における状況をtrue, false, unknownの3種類のラベルが与える 8

4 提案手法学習方法命題推論 𝑛個のストーリーからなるデータセット𝐷に関して、各ストーリー𝑠 𝑖 に𝑚個のブレークポイント𝐵 𝑖 が存在するとする。それぞれのブレークポイント𝑏𝑗に対して、 𝑡個の命題𝑝𝑘 が存在し、 𝑖 それぞれのラベル𝑦𝑗,𝑘 が与えられた時、 (𝑖) そのラベルに対する論理式は𝑌𝑗,𝑘 𝑏𝑗 , 𝑝𝑘 (=True or False)で表される。 (𝑖) 𝑖 𝑌𝑗,𝑘 𝑏𝑗 , 𝑝𝑘 に対応するモデルの確率として、 Pr 𝑦𝑗,𝑘 を用いると、損失は以下の式で表される。 𝑛 𝑚 𝑡 𝑖 ℒ 𝑝𝑟𝑜𝑝 = ෍ ෍ ෍ − log Pr 𝑦𝑗,𝑘 𝑖=1 𝑗=1 𝑘=1 9

10.

5 実験設定用いるデータセット1: CLUTRR [Shinha et al., 2019] 概要人間が記述した家族関係を持つストーリー上のQA 作成方法 • クリーンサブセットに対し、各文の後にブレークポイントを追加する。 • その後、明示的なストーリーに由来する命題と CLUTRRを拡張した証明タスク用に由来する命題を作成し、基本的な命題のセットとする。 • 基本命題から否定命題や未知命題を含む追加命題を一般的な制約を用いて追加する。 * イベント数の長さによってi.i.dとgeneralizationの設定を作成し、実験する。 10

11.

5 実験設定用いるデータセット2: bAbI QA [Weston et al., 2016] 概要ミクロ世界のエージェントに関するストーリー上のQA * CLUTRRより全体的にイベントが長い作成方法 • 各文の後にブレークポイントを追加する。 • Dyna-bAbIタスク生成器[amari et al., 2022]を用いて基本的な命題のセットを作成する。 • 基本命題から否定命題や未知命題を含む追加命題を一般的な制約を用いて追加する。 * 標準的な設定(i.i.d)と難易度の高い設定(hard QA)で実験する。出典：https://arxiv.org/pdf/1502.05698.pdf 11

https://arxiv.org/pdf/1502.05698.pdf

12.

5 実験設定学習設定モデル T5ベースのBidirectional Encoder マルチタスク学習ストーリーの最後のQAに回答できるように、損失を加えたマルチタスクの設定でも学習する。 ℒ = 𝜆1 ℒ 𝑝𝑟𝑜𝑝 + 𝜆2 ℒ𝑄𝐴 + 𝜆3 ℒ𝑔𝑒𝑛 それぞれのタスクにおけるクロスエントロピー損失とする ℒ 𝑄𝐴: 質問から応答を生成するタスク ℒ𝑔𝑒𝑛 : 1 右端のブレークポイントの埋め込みからランダムに選んだイベントを生成するタスク ℒ𝑔𝑒𝑛 : 2ブレークポイントの埋め込みからランダムな抽象化したイベントを生成するタスク微調整されたT5モデルやBARTモデルでの結果などと比較 12

13.

5 実験設定評価指標命題推論 • 全体の命題における正解率 • 命題において矛盾する命題予測の一貫性を保てた割合を示すグローバル一貫性指標𝜌 質問応答モデルの生成出力に対するExact Match精度 13

14.

6 結果 CLUTRRで提案手法は命題推論の性能やサンプル効率、一貫性に優れる命題推論微調整されたBILSTMモデル、T5モデルを上回る性能質問応答 i.i.dの設定では微調整されたT5やBARTを上回る、 generalizationの設定では匹敵する性能を記録サンプル効率全体の60%の学習データのみで、全データで学習したベースラインと同等の性能を達成一貫性 i.i.d設定において制約違反𝜌がおよそ6%減少 (でも30%以上違反している。。) 14

15.

6 結果 bAbIでも命題推論の性能やサンプル効率に優れる命題推論微調整されたBILSTMモデルは大きく上回り、 T5モデルに匹敵する性能質問応答 i.i.dの設定では微調整されたT5やBARTにやや劣るも、 hardQAの設定では上回る性能を記録サンプル効率学習時間の効率が大幅に向上し、学習時間を54%削減した 15

16.

感想モチベーションが面白いと思った Chain of thoughts 的な段階的な推論を任意のドメインに展開できそうな面白さはあるがそもそも人間がアノテーションして教える必要があるのかという気持ちプログラミングとは違って、モデルの中間地点での信念状態を追跡できても、それが必ずしも最終的なQAなどの出力と因果関係があるとは言い切れない 16

17.

まとめ • 自然言語処理において、モデルが内部でどのような信念状態を持っているかの解釈は依然として困難であり、特に物語理解のタスクにおいて、言語モデルがどのように世界の変化を追跡しているのか不明な点がある。 • 本論文ではストーリーの中間地点における信念状態を学習、追跡する新しい表現学習フレームワークであるブレイクポイントモデリングを提案。 • 既存の表現学習手法と比較して、信念状態の予測精度や処理効率、予測の一貫性で優れることを示した。 • また、対応する質問応答モデルに組み込んだ場合でも性能が劣化しないため、よりデバッグしやすいシステムへの発展可能性を示した。 17

18.

DEEP LEARNING JP [DL Papers] “Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs” (EMNLP 2022) Istuki Okimura, Matsuo Lab M1 http://deeplearning.jp/

http://deeplearning.jp/