[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

>100 Views

February 04, 22

スライド概要

2022/02/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language ” Naoki Nonaka http://deeplearning.jp/ 2022/2/2 1

2.

書誌情報 • 会議:ICML? • 著者:Meta AI 2022/2/2 2

3.

概要 p モダリティ非依存の自己教師あり学習の手法を提案 p 新規性 n Masked predictionと潜在表現の学習を組み合わせる n 複数層の出力の平均値を予測対象とする p Vision, NLP, SpeechでSOTAまたはそれと同程度の性能 2022/2/2 3

4.

背景: モダリティ非依存の自己教師あり学習 p 自己教師あり学習の手法の成功 p これまでの自己教師あり学習はモダリティ依存的 p モダリティ依存的である必然性はないはず (人間の学習,Percieverの事例) モダリティ非依存の自己教師あり学習手法の開発 2022/2/2 4

5.

提案手法:data2vec 提案手法の概念図: data2vecは異なるモダリティのデータに対しても同一の学習過程で学習 p Masked prediction + 潜在表現の学習 p TeacherとStudentの2つのモードを利用 n Teacher: 完全な入力データから表現を取得 n Student: マスクされた入力から完全なデータの表現を予測 p 先行研究との相違点:連続な潜在表現の学習 + 最終層以外の表現の利用 2022/2/2 5

6.

提案手法: data2vec(学習手順) !! : Top-K average Teacher mode Transformer Transformer Transformer Transformer Embed Student mode … Exponential Moving Average (EMA) Transformer Transformer Transformer Transformer Embed … #! (%! ) p 元画像をTeacher modeで変換し,上位K層の出力の平均(!! )を予測対象 p Maskした入力のStudent modeでの出力を!! に近づける p Teacher modeのweightはStudentの指数移動平均(EMA) 2022/2/3 6

7.

提案手法: data2vec(学習手順) 損失関数:Smooth L1 loss 2022/2/2 L1, L2損失とSmooth L1損失の形状比較([2]より) 7

8.

実験概要 各モダリティの代表的なデータセットで評価 p Vision: ImageNet p Speech: Librispeech (LS-960) p NLP: GLUE benchmark 2022/2/2 8

9.

実験:Vision Vision taskの学習条件 p 224 x 224 pixelを16 x 16のpatchに分割してEmbed p 各patchを線形変換後,系列としてTransformerに入力 p MaskingはBEiTと同じ方法 p Random resize, horizontal flip, color jitteringを使用 p Adam optimizer + cosine scheduleで学習 2022/2/2 9

10.

実験:Vision ImageNetの分類結果の比較 ViT-B, ViT-Lのいずれにおいても,先行研究を上回る精度 2022/2/2 10

11.

実験:Speech & NLP Speech: Librispeechでの結果の比較 NLP: GLUE benchmarkでの結果の比較 両モダリティにおいても,先行研究を上回るor同程度の精度 2022/2/2 11

12.

実験:使用する層の数の影響 予測対象として何層分の出力を用いるべきか? 予測対象に使用する層の数と各モダリティにおける性能 最終層のみを予測(K=1)する場合より 複数層の平均値を予測する方が高い性能 2022/2/2 12

13.

実験:予測対象とする表現の比較 Transformer内の表現のうち,どの表現を予測対象とすべきか? Transformer内の表現と LibrispeechにおけるWERの関係 ① ④ ③ ② ① ② ③ ④ FFNを予測対象とする場合の精度が最もよい 2022/2/2 Transformer encoder ([1]より改変) 13

14.

結論・まとめ p モダリティ非依存の自己教師あり学習の手法を提案 p Masked predictionと潜在表現の学習を組み合わせ, Vision, Speech, NLPにおいてSOTAまたはそれと同程度を達成 p TransformerのFFNを予測対象として,複数層の出力の平均値を 予測対象とすることで高い性能を示した 2022/2/2 14

15.

Reference 1. Attention Is All You Need 2. Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks 2022/2/2 15