【DL輪読会】TIMs:Transformers with Competitive Ensembles of Independent Mechanisms

>100 Views

August 27, 21

スライド概要

2021/08/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] TIMs:Transformers with Competitive Ensembles of Independent Mechanisms XIN ZHANG, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 ● タイトル ○ Transformers with Competitive Ensembles of Independent Mechanisms ● 著者 ○ Alex Lamb, Di He, Anirudh Goyal, Guolin Ke, Chien-Feng Liao, Mirco Ravanelli, Yoshua Bengio ● 研究機関:Mila, University of Montreal, Microsft Research Asia, Reaserach Center for Information Technology Innovation, Academia Sinica. ● arXiv, Feb 2021 ● 概要 ○ Transformerのアーキテクチャを、独立メカニズムに基づいて改善する研究。 ○ Attention機構で潜在表現の塊を複数のモジュールに分解して実現する。 2

3.

1. Introduction 3

5.

ModularityとIndependent Mechanisms(IM) ModularityとIMはどれも関連した入力にモジュールが反応する仕組みだが、 IMは関係しない入力に反応しないことを強調。 - OOD汎化の根源? Independent Causal Mechanisms(ICM) Recurrent Independent Mechanisms(RIMs) 5

6.

Transformerに注目 ポジション間の情報をAttention機構で学習し、特定の入力に反応できる。 ただ、Transformerの学習した表現は、ごちゃ混ぜ状態の全体表現になっている。 分解する必要ないからだが、汎化性能が落ちる原因になる。 6

7.

2. Method 7

8.

Transformer Independent Mechanisms(TIMs) - TIMs:Transformerの潜在表現を分割して、モジュール構造を導入する。 - 例えば:3つのMechanismsを用意する場合は、三等分して同じPositionに合わせて重ねる P1 P6 Transformer. M1 P1 M1 P2 M3 P2 8

9.

Transformer Independent Mechanisms(TIMs) - 同じpositionにあるMechanismsらの競争を誘発する機構: a. Mechanismsの潜在表現 h を1つのスカラーに b. softmaxでスコアを計算して、Mechanismsの優先順位を決める。 - Positions間で情報を共有 a. PositionAttention b. スコアを重みとして、hを更新 M1 P1 M1 P2 M3 P2 9

10.

Transformer Independent Mechanisms(TIMs) - 3. 同じPositionにあるMechanisms間で情報を共有 a. MechanismAttention:2 heads, 32 unitsで規模が小さい。 b. この部分がなければ、複数のTransformerを同時に使うことと一致する。 M1 P1 M1 P2 M3 P2 10

11.

Transformer Independent Mechanisms(TIMs) - 4. Mechanism軸とポジション軸と2つの軸 a. それぞれFFN順伝搬ネットワークで線形変換を行い、潜在変数hの更新 M1 P1 M1 P2 M3 P2 11

12.

Transformer層はほぼTIMsに置き換えられる P1 P1 M1 Step0 Mechanism Module PositionAttention MechanismAttention FFN Step1 Step2 Step3 Step4 Position 12

13.

3. Experiments 13

14.

- TIMが合理的で有意義な専門性を持つMechanismモジュールの学習が できるのか? 3.1 Image Transformer 3.2 Speech Enhancement - 独立したメカニズムを持つモデルを活用して、定量的な精度の向上に 繋げられるか? 3.3 BERT Pre-training and Fine-Tuning 3.4 CATER Occluded Object Tracking 14

15.

3.1 Image Transormer - 2つのMechanism Moduleでそれぞれ異なる情報を学習して欲しい - - 左:MNISTとCIFARの画像を組み合わせたトイデータ - - 可視化で確認 一つのModuleを励起して可視化 右:CIFAR-10データセット - 物体と背景に対しても 15

16.

3.2 Speech Enhancement - 実世界のノイズを含んだ音声データデータの質を高めるタスク - 音声とノイズを検出するため、2つのMechanism ModulesのTIMsを用いた - 1/8のパラメータで、音質の良さを評価する指標においてSOTA. 16

17.

3.3 BERT Pre-training and Fine-Tuning - BERTと同様に事前学習を行い、複数のデータセットでFine-tuningをしてそれぞれの精度で比較 - 12層のTransformerを最初の2層と最後の1層を除いて、9層をTIMsに変換するのが良かった - NoComp:without competition(Step 1のスコア) 17

18.

3.4 CATER Occluded Object Tracking - - 入力は動画で、目標物体を追跡するタスクを行い、動画終了時に物体が存在する場所を出力する - 動画から1秒間6枚の画像をサンリングして系列情報として入力 - 6 x 6 のグリッドに分割して、存在する場所を36分類問題として扱う LSTM, Transformerと比較して、精度は大幅に向上 18

19.

4. Related Work 19

20.

Independent Mechanisms and Modularity in Transformers - TransformerのHeadsに対して、特定の情報を持たせる研究はいくつかある。 - Transformerの潜在表現を明確に複数のモジュールに分割する研究はおそらくない - - Group Transformer:Group Linearを導入. - Universal transformer:Gate機構を追加、TIMsの競争機構と似たような動き - Switch Transformers(図) RIMs - 時系列 - TIMsは時空間 1.6万億のパラメータを持つSwitch Transformers 20

21.

5. Conclusion 21

22.

Discussion & Future work - TIMs:TransformerにIndependent Mechanismsを導入した。独立メカニズムの概念はすごく賛成 - 実験 - Image transformerの可視化実験と音声増強の実験では、わかりやすい結果が得られた - 一方で、BERTでははっきりした良さがいまいち。 - タスクの性質を考慮する必要がある - 「世界が独立したメカニズムによって動かされている」という仮説がある - 実際のタスクはどのぐらい関連するのか?が重要になる 22