[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS

>100 Views

February 24, 17

#deep learning #QRNN #RNN #CNN #Neural Networks #Machine Learning

スライド概要

2017/2/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

Quasi-Recurrent Neural Networks James Bradbury, Stephen Merity, Caiming Xiong, Richard Socher 17/02/01

アジェンダ • 書誌情報 • 背景 • 関連研究 • 提案モデル • 実験・結果 • 結論

書誌情報 • ICLR2017 Accepted Paper • Poster Presentation • 採点（6, 7, 5, 7） • Author • Salesforce Researchのグループ • Last authorはRecursive NNのRichard Socher

背景 • RNN • 深層学習で系列データを扱う場合、標準的になってきている • 並列計算ができない • ⻑い系列を扱いにくい • CNN • 系列データを扱う際にも有⽤であることが⽰されている • 並列計算が可能 • QRNN（提案⼿法） • CNN-like：並列計算を時系列、ミニバッチの次元について可能 • RNN-like：⼊⼒系列の順序全体が出⼒に影響を与える

関連研究 • Strongly-typed recurrent neural networks • Convolutional-recurrent models • ByteNet • QRNN encoder-decoderモデルが似ている

提案モデル • QRNN

提案モデル • QRNNはCNNにおける畳み込み層とプーリング層に対応する 2層からなる • ⼊⼒として系列⻑Tでn次元のベクトルX∈RT×nを受け取り、時系列⽅向に畳み込みを⾏う • 畳み込みの際に未来の情報を含まないようにするため、 Masked convolution（系列⽅向にfilter幅に応じたpadding）を⾏う • Z, F, Oを下の式に応じて得る • Zの活性化関数はtanh, F, Oではシグモイド関数 • *は時系列⽅向へのMasked Convolutionを表す

提案モデル • Pooling • 3つのpoolingを提案 • f-pooling • fo-pooling • ifo-pooling

提案モデル • Regularization • Recurrent connectionに対して提案されている正則化のうち、 zoneoutを⽤いる（variational inference-based dropoutは使えない） • Zoneoutは以下で実装可能 • Densely-connected layers • Sequence classificationタスクにおいては、QRNNの各層間に skip-connectionを⼊れた⽅が良い • Encoder-Decoder Models • Vl: l層の最終のencoding state

10.

実験・結果 • QRNNの精度および実⾏時間を検証するため下記の実験を⾏う • Sentiment Classification • Language Modeling • Character-level Neural Machine Translation

11.

実験・結果 • Sentiment classification: IMDb Dataset • 映画についてのレビューおよび採点のデータ • X: レビュー⽂章（英語、⾃然⾔語） • y: 対象についてpositive/negativeの評価（⼆値分類） • 分類精度にて評価（従来のLSTMとの実⾏時間の差も合わせて⽐較）

12.

実験・結果 • 4層のdensely-connected QRNNで最も良い精度 • 256unit/layer, 300次元word vector(GloVe embedding) • Dropout = 0.3, L2 regularization = 4 × 10-6 • Minibatch = 24, RMSprop, learning rate = 0.001, α=0.9, ε=10-8

13.

実験・結果 • IMDb sentiment analysis • LSTMと同程度の精度である⼀⽅、エポックあたりの時間は1/3程度

14.

実験・結果 • 隠れ層の可視化

15.

実験・結果 • Language modeling: Penn Treebank • コーパスの⼀種であり、各⽂に統語構造の注釈が付与されたもの • Word-level predictionを⾏う • 929k training words, 73k validation words, 82k test words • Vocabularyは10k • Perplexityにて評価（低い⽅が良い）

16.

実験・結果 • 2層、640 unit/layer（32の倍数の⽅が計算効率が良いらしい） • Penn Treebankは⽐較的⼩さいデータセットであり、過学習を防ぐことが重要となる • 最適化はSGD + momentumで⾏い、学習率は最初の6epochの間、1に設定された後、減衰率0.95で⼩さくなる（計72epoch）

17.

実験・結果 • Penn Treebank language modeling task • 通常のLSTM（正則化なし）と⽐較して良いperplexity • 正則化を⾏なった場合も、highly competitive

18.

実験・結果 • Batchあたりの処理時間 • Chainer default LSTM, 最適化されたcuDNNによるLSTMと⽐較して、 QRNNでは “RNN” 部分の計算時間が減少している

19.

実験・結果 • Character-level neural machine translation: IWSLT English-German spoken language translation task • Sequence-to-sequence QRNNを評価する • ドイツ語 -> 英語の翻訳（Character levelのsegmentation） • 209,772sentence pair (TEDxから) • 187 Unicode code points

20.

実験・結果 • 4層、320unit/layer、dropoutまたはL2regularizationなし • 最初の畳み込み層のfilter幅 = 6、その他はfilter幅 = 2 • 最適化はAdamにて⾏い、計10epoch実施

21.

実験・結果 • IWSLT English-German spoken language translation task • Character-level LSTMを上回る精度 • Word-level attentionによるbase lineとほぼ同程度

22.

結論 • RNNとCNNの良い部分を合わせたようなQRNNを提案 • 複数のタスクにおいて、従来のLSTMと同程度または少し上回る性能を⽰す • Epochあたりに要する時間は25 ~ 50%程度になった