[DL輪読会]MogrifierLSTM (ICLR2020)

背景 Recurrent netの汎化能力の向上に取り組んだ研究 Mogrifier （通常の）LSTM Mogrifier Mogrifier 提案手法: Mogrifier LSTM https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (一部改変) 4

https://colah.github.io/posts/2015-08-Understanding-LSTMs/

提案手法: Mogrifier LSTM p一つ前の隠れ状態hprevと入力xに対して交互にゲートを適用 pr回繰り返した後，LSTMに入力する: pxおよびhprevは以下の更新式にしたがって交互に更新（iが奇数のとき）（iが偶数のとき） 5

実験: 2 p : O: S = p : = 単純に規模を拡大するだけでは汎化に関しての問題を解決できない小さなデータセットでの性能を評価（大きいデータセットでも実験は行う） 6

実験 pWord level language modelling n Penn Tree Bank (PTB) n Wikitext-2 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n Multilingual Wikipedia Corpus (MWC) Ø 英語 Ø フィンランド語 7

実験 pWord level language modelling n Penn Tree Bank (PTB) Ø 約1,000,000件のデータ Ø 10,000語彙 n Wikitext-2 Ø PTBの約2倍 Ø 語彙もPTBより多いともに「小さい」データセット 8

実験 pWord level language modelling p提案手法は，SOTA(AWD-LSTM / FRANGE)を上回るperplexity 9

10.

実験 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n 90,000,000文字で学習，10,000,000文字で評価 n Multilingual Wikipedia Corpus (MWC) n （詳細の記述はないが）Large settingの例 10

11.

実験 p 先行研究のLSTMを（LSTMで）大きく上回る p mLSTMとAWD-LSTMを上回る p Transformerとの比較：Dynamic evaluationでは同等 11

12.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 12

13.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task r = 4でPerplexityが最も低くなる（PTBデータセットにおける結果） 13

14.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task ゲートをZig-zag構造にすることでPerplexityが向上 14

15.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task Q = Qleft Qright R = Rleft Rright 提案手法では低ランク近似低ランク近似によりPerplexityがわずかに改善 15

16.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task mLSTM: LSTM入力前にxとhを掛け合わせる（提案手法と類似） mLSTMはLSTMと同程度 16

17.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 系列長が長くなってもCross entropyが低い -> 入力のembeddingの表現力がMogrifierにより増す 17

18.

分析 p M TR n ne n n , n v n xE n E QE i L L E m h i Egd h i xr Lh Eh h n n h TR Q L b S h i 18

19.

まとめ p T p S p e A O A A A h 19

[DL輪読会]MogrifierLSTM (ICLR2020)

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】拡散モデルの数理

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

各ページのテキスト