[DL輪読会]Attention InterpretabilityAcross NLPTasks

161 Views

September 27, 19

スライド概要

2019/09/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Attention Interpretability Across NLP Tasks Masaki Tashiro, Keio University http://deeplearning.jp/ 1

2.

書誌情報 • Attention Interpretability Across NLP Tasks • https://arxiv.org/abs/1909.11218 • Shikhar Vashishth, Shyam Upadhyay, Gaurav Singh Tomar, Manaal Faruqui 選んだ理由 • Attentionの解釈性について興味があったから *断りのない限り, 図は論文より引用 2

3.

概要 背景・課題 • Attentionの解釈可能性については議論があり、意味のある説 明を提供しないという説としているという説がある 提案 • NLPの複数のタスクにおけるAttentionの役割を実験すること でAttentionが意味のある説明をもたらす条件を提案 結論 • Gating unitとして解釈できるsingle sequence taskにおいて はattentionは説明を提供しない 3

4.

背景 Attentionの解釈について • BERT rediscovers the classical NLP pipeline(ACL 2019) • Analyzing the structure of attention in a transformer language model(BlackBoxNLP, 2019) • What does BERT look at? an analysis of bertʼs attention(BlackBoxNLP, 2019) 4

5.

背景 Attentionによる説明に対する疑問 • Attention is not Explaination(NAACL 2019) ØAttentionの変化が結果に変化を与えないことがある ØAttentionとgradientベースの⼿法の相関の低さ • Is Attention Interpretable?(ACL 2019) ØAttentionが⾼い部分を低くしても影響が⼩さい Attentionに対する疑問に対する反論 • Attention is not not explanation(EMNLP, 2019) 5

6.

課題 • Attentionによる解釈が可能になれば、先⾏研究のように多く の情報をモデルから読み取れる可能性 • Attentionの解釈可能性に関する議論が進んでおらず説明とし て信頼できるか不明 • Attentionの解釈可能性について実験をしたタスクが少なく⼀ 般化できるのか不明 6

7.

結論 • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない Attention Gating unit 7

8.

実験したタスク ⼤きく分けて三つのタスク • Single Sequence tasks (1) SST (2) IMDB (3) Yelp 2017 • Pair Sequence tasks (1) SNLI (2) MNLI (3) CNN News Articles (4) babI • Generation tasks (1) Multi 30k (2) En-De News Commentary (3) WMT13 8

9.

実験に利⽤したモデル Single Sequence Models • Encoder : Glove + Bi-RNN • Attention • Decode : Dense layer 9

10.

実験に利⽤したモデル Single Sequence Models • Hierarchical attention model[Yang+ 16] 10

11.

実験に利⽤したモデル Pair Sequence Models • Encoder : Separate RNN • Attention • Decode : Dense layer 11

12.

実験に利⽤したモデル Pair Sequence Models • Rocktaschelらによって提案されたモデル • Premise部分とHypothesis部分のencode時に独⽴のlstmを使 うのをやめる 出典 : https://arxiv.org/abs/1509.06664 12

13.

実験に利⽤したモデル Generation Models • Encoder : Globe + Bi-RNN • Attention (1) (2) • Decode : RNN 13

14.

実験に利⽤したモデル • Attentionの掛け⽅の違いについて も考えるためにそれぞれのタスクにおいて self-attentionベースのモデルついても試している • Single-Headed Attention 出典 : https://arxiv.org/abs/1706.03762 14

15.

実験に利⽤したモデル • BERT (Bidirectional Encoder Representations from Transformers) • 汎⽤的な⾔語表現モデルで総合的な⾔語理解能⼒を試す GLUEにおいて⾶躍的なスコアの向上を達成 詳しくはこちらを参考 • https://qiita.com/KosukeSzk/items/4b74b5cce84f423b7125 出典 : https://arxiv.org/abs/1810.04805 15

16.

実験に利⽤したモデル Transformer • 2017年にAttention Is All You Need にて 提案されたモデル • 機械翻訳において主流であった RNNやLSTMを⽤いずにSOTAを達成した 出典 : https://arxiv.org/abs/1706.03762 16

17.

実験1 : attentionのかけ⽅の変化と性能の関係 • Attentionのweightを①uniform②random③permuteした結果 性能がどのように変化するのか調べた • 条件としてattentionをtrain/infer両⽅で固定するものとinfer 時のみ固定するものを試し⽐較した 17

18.

実験1 : attentionのかけ⽅の変化と性能の関係 タスク : Single Sequence tasks 結果 : 1. train/inferで固定するとweightの変化に頑健なモデルができ る 2. Permuteによるスコアの減少は4.2あたりでattentionの変化 が与える影響は⼩さいといえる 18

19.

実験1 : attentionのかけ⽅の変化と性能の関係 タスク : pair sequence tasks, generation tasks 結果 : 全体的に⼤きくスコアが減少 19

20.

実験1 : attentionのかけ⽅の変化と性能の関係 オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 TVD distance … 出⼒がどの程度変わったか 20

21.

実験1 : attentionのかけ⽅の変化と性能の関係 オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 • Singleは影響が⼩さい • Max attentionが ⼤きい時に影響が ⼤きい 21

22.

実験2 : attentionの重みとfeature importanceの関係 • Attentionの重みがmaxのものを取り除いた時とrandomに選 んで取り除いた時の予測の違いを⾒たい • オリジナルの予測をp, maxのものを除いた予測をq(i*), randomに選んで取り除いたものの予測をq(r)として JS(p, q(i*))とJS(p, q(r))の差をみる 22

23.

実験3 : self-attentionベースのモデルにおける影響 • Self-attentionベースのモデルにおいて同様の傾向が⾒られ るのか確認した • 結果を⾒てみるとsingle sentence task(IMDB)においてもス コアの減少が⾒られた • Self-attentionが命題 4.1の 条件を満たしていなかった から 23

24.

実験4 : Attentionによる説明の⼈⼿評価 • Attentionが最も⾼い3つを根拠として提⽰し、それが意味を 持っているかどうかを⼈⼿で評価した • その際に100個の例では上記の⽅法で根拠を選び、残りの100 個ではattentionをPermuteさせて根拠部を選んだ • どちらの例でもpermuteしてない場合は⾼いスコア 24

25.

まとめ • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない • AdversarialなAttentionは試さない? 25