【DL輪読会】TIMs：Transformers with Competitive Ensembles of Independent Mechanisms

101 Views

August 27, 21

#deep learning #Deep Learning #Transformers #Independent Mechanisms #Machine Learning #Artificial Intelligence

スライド概要

2021/08/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] TIMs：Transformers with Competitive Ensembles of Independent Mechanisms XIN ZHANG, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ● タイトル ○ Transformers with Competitive Ensembles of Independent Mechanisms ● 著者 ○ Alex Lamb, Di He, Anirudh Goyal, Guolin Ke, Chien-Feng Liao, Mirco Ravanelli, Yoshua Bengio ● 研究機関：Mila, University of Montreal, Microsft Research Asia, Reaserach Center for Information Technology Innovation, Academia Sinica. ● arXiv, Feb 2021 ● 概要 ○ Transformerのアーキテクチャを、独立メカニズムに基づいて改善する研究。 ○ Attention機構で潜在表現の塊を複数のモジュールに分解して実現する。 2

1. Introduction 3

ModularityとIndependent Mechanisms(IM) ModularityとIMはどれも関連した入力にモジュールが反応する仕組みだが、 IMは関係しない入力に反応しないことを強調。 - OOD汎化の根源？ Independent Causal Mechanisms(ICM) Recurrent Independent Mechanisms(RIMs) 5

Transformerに注目ポジション間の情報をAttention機構で学習し、特定の入力に反応できる。ただ、Transformerの学習した表現は、ごちゃ混ぜ状態の全体表現になっている。分解する必要ないからだが、汎化性能が落ちる原因になる。 6

http://jalammar.github.io/illustrated-transformer/

2. Method 7

Transformer Independent Mechanisms(TIMs) - TIMs：Transformerの潜在表現を分割して、モジュール構造を導入する。 - 例えば：３つのMechanismsを用意する場合は、三等分して同じPositionに合わせて重ねる P1 P6 Transformer. M1 P1 M1 P2 M3 P2 8

Transformer Independent Mechanisms(TIMs) - 同じpositionにあるMechanismsらの競争を誘発する機構： a. Mechanismsの潜在表現 h を1つのスカラーに b. softmaxでスコアを計算して、Mechanismsの優先順位を決める。 - Positions間で情報を共有 a. PositionAttention b. スコアを重みとして、hを更新 M1 P1 M1 P2 M3 P2 9

10.

Transformer Independent Mechanisms(TIMs) - 3. 同じPositionにあるMechanisms間で情報を共有 a. MechanismAttention：2 heads, 32 unitsで規模が小さい。 b. この部分がなければ、複数のTransformerを同時に使うことと一致する。 M1 P1 M1 P2 M3 P2 10

11.

Transformer Independent Mechanisms(TIMs) - 4. Mechanism軸とポジション軸と２つの軸 a. それぞれFFN順伝搬ネットワークで線形変換を行い、潜在変数hの更新 M1 P1 M1 P2 M3 P2 11

12.

Transformer層はほぼTIMsに置き換えられる P1 P1 M1 Step0 Mechanism Module PositionAttention MechanismAttention FFN Step1 Step2 Step3 Step4 Position 12

13.

3. Experiments 13

14.

- TIMが合理的で有意義な専門性を持つMechanismモジュールの学習ができるのか？ 3.1 Image Transformer 3.2 Speech Enhancement - 独立したメカニズムを持つモデルを活用して、定量的な精度の向上に繋げられるか？ 3.3 BERT Pre-training and Fine-Tuning 3.4 CATER Occluded Object Tracking 14

15.

3.1 Image Transormer - ２つのMechanism Moduleでそれぞれ異なる情報を学習して欲しい - - 左：MNISTとCIFARの画像を組み合わせたトイデータ - - 可視化で確認一つのModuleを励起して可視化右：CIFAR-10データセット - 物体と背景に対しても 15

16.

3.2 Speech Enhancement - 実世界のノイズを含んだ音声データデータの質を高めるタスク - 音声とノイズを検出するため、２つのMechanism ModulesのTIMsを用いた - 1/8のパラメータで、音質の良さを評価する指標においてSOTA. 16

17.

3.3 BERT Pre-training and Fine-Tuning - BERTと同様に事前学習を行い、複数のデータセットでFine-tuningをしてそれぞれの精度で比較 - 12層のTransformerを最初の２層と最後の1層を除いて、9層をTIMsに変換するのが良かった - NoComp：without competition（Step 1のスコア） 17

18.

3.4 CATER Occluded Object Tracking - - 入力は動画で、目標物体を追跡するタスクを行い、動画終了時に物体が存在する場所を出力する - 動画から１秒間６枚の画像をサンリングして系列情報として入力 - 6 x 6 のグリッドに分割して、存在する場所を36分類問題として扱う LSTM, Transformerと比較して、精度は大幅に向上 18

19.

4. Related Work 19

20.

Independent Mechanisms and Modularity in Transformers - TransformerのHeadsに対して、特定の情報を持たせる研究はいくつかある。 - Transformerの潜在表現を明確に複数のモジュールに分割する研究はおそらくない - - Group Transformer：Group Linearを導入. - Universal transformer：Gate機構を追加、TIMsの競争機構と似たような動き - Switch Transformers（図） RIMs - 時系列 - TIMsは時空間 1.6万億のパラメータを持つSwitch Transformers 20

21.

5. Conclusion 21

22.

Discussion & Future work - TIMs：TransformerにIndependent Mechanismsを導入した。独立メカニズムの概念はすごく賛成 - 実験 - Image transformerの可視化実験と音声増強の実験では、わかりやすい結果が得られた - 一方で、BERTでははっきりした良さがいまいち。 - タスクの性質を考慮する必要がある - 「世界が独立したメカニズムによって動かされている」という仮説がある - 実際のタスクはどのぐらい関連するのか？が重要になる 22

23.

Appendix 解説記事： TIMs 23

https://ai-scholar.tech/articles/transformer/TIM