ゼロから始める転移学習

タグ

スライド概要

言語処理学会第28回年次大会(NLP2022)のチュートリアルでの講演資料です。
https://www.anlp.jp/nlp2022/#tutorial

profile-image

Yahoo!デベロッパーネットワーク

@ydnjp

作者について:

エンジニア・デザイナー向けのヤフー公式アカウント。イベント/登壇情報/ブログ記事など、ヤフーの技術・デザインに関わる情報を発信します。

スライド一覧
シェア
埋め込む»CMSなどでJSが使えない場合

公開日

2022-04-27 12:00:00

各ページのテキスト

1. ゼロから始める転移学習 ヤフー株式会社 柴⽥ 知秀 tomshiba@yahoo-corp.jp ⾔語処理学会 第28回年次⼤会 チュートリアル 22/03/14 13:00-14:45

2. ⾃⼰紹介 • 柴⽥ 知秀 (しばた ともひで) • 2007年〜 京都⼤学⿊橋研究室 助教・特定講師 • 2019年〜 Yahoo! JAPAN研究所 上席研究員 • 研究分野: 深層学習を⽤いた⽇本語基礎解析 • 趣味: 将棋・囲碁 (どちらも有段者) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 2

3. 謝辞 • チュートリアルの機会をいただきましたプログラム委員⻑ 河原 先⽣, プログラム委員の皆様, ⼤会委員の皆様(特に秘書の皆様) に感謝いたします。 • 本資料はこれまでのいくつかの講演での資料をベースにしてい ます。これまでの資料にコメントをいただきました京⼤⿊橋研 の皆様、ヤフー株式会社の皆様に感謝いたします。 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 3

4. ⾃然⾔語処理の急激な進展 • BERT(2018年)の登場以降、⽇々新しいモデルが提案されている • 状況を理解するのが⼤変 • 進歩が速い • 少し前の常識がくつがえされる • 初学者 (研究を始めたばかりの学⽣さん, 他分野から移られてきた ⽅々)でもわかるように背景から説明 • 中・上級者にも有益な情報を提供 • 誤解しやすい部分 • プログラムを動かしてはじめて分かること ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 4

5. 今⽇の最後にわかってほしいこと • ⾃然⾔語処理における転移学習の気持ち • Transformer QK T softmax( p )V dk <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> • encoder-decoder, encoderのみ, decoderのみ • 最近の動向 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 5

6. 転移学習 (Transfer Learning) ソース ターゲット トレーニングデータ トレーニングデータ ソースで学習したモデルを ターゲットに適応させる モデル Pre-training (事前学習) 具体的には、ソースで学習 したモデルのパラメータを 初期値としてターゲットで 調整 モデル Fine-tuning ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 6

7. ImageNetを⽤いた転移学習 (2014年頃〜) 1,000クラス 120万画像にタグ付け “Transfer learning with pre-trained deep convolutional neural networks for serous cell classification” [Baykal+ 2020] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 7

8. ImageNetを⽤いた転移学習 (2014年頃〜) ⾃然⾔語処理では これは何に相当する のだろう? 1,000クラス 120万画像にタグ付け “Transfer learning with pre-trained deep convolutional neural networks for serous cell classification” [Baykal+ 2020] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 8

9. BERT [Devlin+ 2018]: ⽳埋め問題をひたすら解く Wikipedia PCM ⾳源 ( ピー ##シー ##エム おん ##げん ) は 、 コンパクト ディスク など で 扱わ れる パルス 符号 変調 技 術 を ⽤いた デジタル ##シン セサイザー の ⾳源 ⽅式 の ひ と つ 。 あらかじめ メモリ に 記録 して おいた PCM 波形 ( サンプル ) を 再⽣ … … ⾃動⾞ 競技 は 四 輪 の ⾃動 ⾞ あるいは それ に 準ずる ⾞ 両 に よる 競技 に 対して 主 に 呼称 さ れ 、 オートバイ や それ に 準ずる ⾞両 の 競 技 に 対して は オートバイ 競 技 や モーター サイクル レー ス など と 呼ば れる 。⾃動 ⾞ 競技 は操る ⼈ の … … … 9

10. BERT [Devlin+ 2018]: ⽳埋め問題をひたすら解く ⽳埋め問題を作るのは ⼈⼿がかからない! Wikipedia PCM ⾳源 ( ピー ##シー ##エム おん ##げん ) は 、 コンパクト ディスク など で 扱わ れる パルス 符号 変調 技 術 を ⽤いた デジタル ##シン セサイザー の ⾳源 ⽅式 の ひ と つ 。 あらかじめ メモリ に 記録 して おいた PCM 波形 ( サンプル ) を 再⽣ … … ⾃動⾞ 競技 は 四 輪 の ⾃動 ⾞ あるいは それ に 準ずる ⾞ 両 に よる 競技 に 対して 主 に 呼称 さ れ 、 オートバイ や それ に 準ずる ⾞両 の 競 技 に 対して は オートバイ 競 技 や モーター サイクル レー ス など と 呼ば れる 。⾃動 ⾞ 競技 は操る ⼈ の … … … 10

11. 画像・⾳声・⾔語 トヨタ は プリウス を 発売 した … https://jaedukseo.me/ppt/powerdeep.pdf ⼊⼒ ブレークスルー http://www.mriaz.me/ 連続値 離散値 固定⻑ 可変⻑ AlexNet DNN-HMM (2012年) (2010年-) 課題: l 単語をベクトル (連続値)へ l 階層的な系列 (⽂字 → 単語 → ⽂ → ⽂章)の扱い Google翻訳 (2016年) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 11

12. 画像・⾳声・⾔語 トヨタ は プリウス を 発売 した … https://jaedukseo.me/ppt/powerdeep.pdf ⼊⼒ ブレークスルー http://www.mriaz.me/ 連続値 離散値 固定⻑ AlexNet (2012年) 転移学習 (2014年-) 可変⻑ DNN-HMM (2010年-) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 課題: l 単語をベクトル (連続値)へ l 階層的な系列 (⽂字 → 単語 → ⽂ → ⽂章)の扱い Google翻訳 BERT (2016年) (2018年) 12

13. 深層学習による⾃然⾔語処理 深層学習 古典的 機械学習 転移学習 単語 word2vec Glove ベクトル ⾔語 モデル 単⾔語 解析 ELMo GPT-2 LSTM RoBERTa GPT BERT ALBERT T5 FFN encoder- attention decoder 翻訳 2013 14 15 GPT-3 Transformer 16 17 18 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 19 20 13 21

14. BERT [Devlin+ 2018] (Bidirectional Encoder Representations from Transformers) 1. Pre-training 2. Fine-tuning 転移学習 (学習データ: 数千万⽂〜) “⽳うめ問題” 放電 正例 を (学習データ: 数万⽂) タスク: 評判分析 negative BERT BERT [CLS] 電池 が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう ⽂B [CLS] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) この 電池 は すぐ 14 切れる

15. https://gluebenchmark.com/leaderboard GLUE (⾔語理解タスク) [Wang+ 2018] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 15

16. https://gluebenchmark.com/leaderboard GLUE (⾔語理解タスク) [Wang+ 2018] T5 (2019年): 90.3 ⼈間のスコア: 87.1 BERT (2018年): 80.5 ベースライン: 70.0 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 16

17. 本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊ ⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題 ライブラリ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 17

18. ⾔語モデル (Language Model) • ⽂の⽣成確率を定義するもの 例: P( , , , ..., ) = P ( )P ( <latexit sha1_base64="xN9SPiXcco5lD7min8ERHCCS09s=">AAADQXicjVLLSuRAFD2JjjrtjLa6EWZhY6NMgzQ3IiiCILqZpY9pFXpEklitwXQSk3Rj2/oD/oALVzMgMvgV4sYfcOEnyGxEBRe6mJsyw6jxVUUlt07dc+rcqjI82wpCojNFbWj80NTc8jHV+ulzW3u6o3MucCu+KQqma7v+gqEHwrYcUQit0BYLni/0smGLeWNtMlqfrwo/sFzne1jzxGJZX3GskmXqIUNu2sEUvuIHyjDgYgP12hG2MYDMQ4zcJFYsVXpiNC97FOV4jPF4TjOXxKXu1nsy492Suc85zf3ztJTOUp5kyyQDLQ6yiNuUmz5gsWWWMlFhUQEHIcc2dATci9BA8BhbRJ0xnyNLrgveNsXcCmcJztAZXePvCs+KMerwPNIMJNvkXWwePjMz6KNT+k1XdEKHdE53L2rVpUbkpSaLllzhLbXvdM/evMkq8z/E6n/Wq55DlDAivVrs3ZNIVIV5z69u7l7Njs701fvpF/1h/z/pjI65Aqd6be5Pi5k9pPgCtKfHnQzmBvMa5bXpoez4SHwVLfiCXn4CGoYxjm/8HAowlQllVVlXfPVYPVcv1Mv7VFWJOV141NTbv0ObuI4=</latexit> • 利⽤⽅法 | )P ( | , )... • システムが⽣成した⽂がどれくらい正しそうか • 古典的⾳声認識 → ⾳響モデル X ⾔語モデル (⾳響との対⽐で「⾔語」) • 古典的機械翻訳 → 飜訳モデル X ⾔語モデル • ⽂⽣成: 確率にしたがって⽂を⽣成 • 確率の推定⽅法 • 最近はニューラルネットワークで (次ページ) 「⾔語をモデル化した」という意味で 最近のモデル(BERTなど)を⾔語モデルと呼ぶこ とも多い (最後にまた⾔及します) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 18

19. RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> 私 <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は U U W 1層のRNN (LSTMが多い) BOS .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> 学⽣ です U U W 私 <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> W W は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 19

20. RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> 私 U W 1層のRNN (LSTMが多い) 「私」の ベクトル <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は U .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> 学⽣ です U U W W W … 0 0・・ 0 1 0 ・・ BOS 私 私 は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 20

21. RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> 私 「私 は」の ベクトル U W 1層のRNN (LSTMが多い) 「私」の ベクトル <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は U .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> 学⽣ です U U W W W … 0 0・・ 0 1 0 ・・ BOS 私 私 は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 21

22. RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> 私 <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は 「私 は」の ベクトル <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> 例えば3万次元 学⽣ です ⾜して1になるように 0.1 ・・ 0.2 U W 1層のRNN (LSTMが多い) 「私」の ベクトル W ・・ U U U ⼤規模なラベルなし テキストから学習 .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> W W … 0 0・・ 0 1 0 ・・ BOS 私 私 は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 22

23. RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥注意: 先は⾒ることができない <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> (⾒るとカンニングになってしまう) 私 は U U W 1層のRNN (LSTMが多い) BOS 「私 は」の ベクトル 学⽣ です U U W 私 W W は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 23

24. 本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊ ⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題 ライブラリ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 24

25. 機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 2014] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 25 student 2層の LSTM 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

26. 機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 2014] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 26 student 2層の LSTM 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

27. 機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 2014] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 27 student 2層の LSTM 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

28. ビームサーチも よく使われる 学習時と推論時 学習時 I am … 0.02 … … 0.01… EOS I teacher-forcing 推論時 正解単語 a student … 0.03 … … 0.01 … am a We are … 0.01 … … 0.03 … EOS ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) We 確率最⼤単語 students . … 0.02 … … 0.02 … are students 28

29. encoder-decoder (seq2seq) [Sutskever+ 2014] 原⾔語⽂のベクトル表現 問題: 特に⻑い⽂の場合に情報 をすべて持つことができない 私 は 学⽣ です decoder I am a student EOS EOS I am a 29 student ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

30. Attention 機構 [Bahdanau+ 2014, Luong+ 2015] 私 は 学⽣ です I am a EOS I am ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) a 30

31. Attention 機構 [Bahdanau+ 2014, Luong+ 2015] 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) a 31

32. Attention 機構 [Bahdanau+ 2014, Luong+ 2015] フィードフォワード ネットワークで計算 2.5 関連度 1.6 1.0 2.5 私 は 学⽣ 1.6 です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) a 32

33. Attention 機構 [Bahdanau+ 2014, Luong+ 2015] フィードフォワード ネットワークで計算 ⾜して1になるように 正規化 (softmax) 2.5 0.2 0.1 0.5 0.2 1.6 1.0 2.5 1.6 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) a 33

34. Attention 機構 [Bahdanau+ 2014, Luong+ 2015] contextベクトル attention スコア attentionスコアで 重み付けして ベクトルを⾜す フィードフォワード ネットワークで計算 2.5 0.2 0.1 0.5 0.2 1.6 1.0 2.5 1.6 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) a 34

35. Attention 機構 [Bahdanau+ 2014, Luong+ 2015] → Google翻訳 (2016年) contextベクトル 0.2 0.1 0.5 私 は 学⽣ 0.2 です I am a EOS I am ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) student a 35

36. その他のEncoder-Decoder • 要約: ⼊⼒⽂書 → 要約⽂ • サッカーのイングランド・プレミアリーグで2⽇、レスター・シティが 初優勝を決めた。... → プレミアリーグでレスターが初優勝 • 対話: ユーザ発話 → システム発話 • ネットワークがつながらないのですが。 → 機種は何ですか? ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 36

37. Transformer [Vaswani+ 2017] • “Attention is All You Need”というタイトルで有名 • LSTMを使わずにattentionだけで翻訳 • 2つの拡張 1. Query, Key, Value 2. Self-attention 1 5 .0 key query value 2 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 37

38. I Transformerの全体像 am a student decoder #6 FFN encoder-decoder attention encoder #6 FFN self-attention encoder … decoder #1 self-attention … decoder FFN encoder #1 私 FFN encoder-decoder attention self-attention self-attention は 学⽣ です EOS I ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) am a 38

39. I Transformerの全体像 am a student decoder #6 FFN encoder-decoder attention encoder #6 FFN self-attention decoder #1 … FFN FFN encoder-decoder attention self-attention self-attention encoder #1 私 self-attention … は 学⽣ です EOS I ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) am a 39

40. 1. Query, Key, Value Key - Valueデータベースへのアクセスを考える Query Key ⼈参 ナス バナナ ⼈参 Value 80円 50円 30円 80円 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 40

41. 1. Query, Key, Value Key - Valueデータベースへのアクセスを考える 0.4 Query 0.5 Key ⼈参 ナス バナナ Value 80円 50円 30円 x0.4 0.1 x0.1 ⼈参 野菜 80円 60円 x0.5 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 41

42. 1. Query, Key, Value 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) a 42

43. 1. Query, Key, Value query 名前をつけただけ 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) a 43

44. 1. Query, Key, Value フィードフォワード ネットワークで計算 2.5 関連度 key 1.6 1.0 2.5 1.6 key key key key value value value value 私 は 学⽣ です query 2つのベクトルに わけることにより 表現⼒を上げる ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) query 名前をつけただけ a 44

45. 1. Query, Key, Value フィードフォワード ネットワークで計算 ⾜して1になるように 正規化 (softmax) 0.2 0.1 0.5 2.5 0.2 key 1.6 1.0 2.5 1.6 key key key key value value value value 私 は 学⽣ です query 2つのベクトルに わけることにより 表現⼒を上げる ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) query 名前をつけただけ a 45

46. 1. Query, Key, Value contextベクトル フィードフォワード ネットワークで計算 attentionスコアで 重み付けして ベクトルを⾜す 0.2 0.1 2.5 0.5 0.2 key 1.6 1.0 2.5 1.6 key key key key value value value value 私 は 学⽣ です query 2つのベクトルに わけることにより 表現⼒を上げる ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) query 名前をつけただけ a 46

47. 2. Self-Attention 通常のattention 0.2 0.1 0.5 Self-attention 0.2 0.2 0.1 0.5 0.2 私 は 学⽣ です … 私 は 学⽣ です a ⼆⾔語間で ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 単⾔語内で 47

48. Q, K, V + Self-attention query key value 64 64 64 768 私 は 学⽣ です 48

49. Q, K, V + Self-attention p <latexit sha1_base64="kKacpGhHtVl88JRgBgcBf8petPQ=">AAACbXichVHLSsNAFD2N7/qqiiAoUiw+VuVGBMVVwY3LVq0WH5QkjjU0TWIyLWjpD7gWXIiCgoj4GW78ARd+grhwoeDGhbdpQFTUO8zMmTP33Dkzo7uW6Uuih4jS1NzS2tbeEe3s6u7pjfX1r/pO2TNE1nAsx8vpmi8s0xZZaUpL5FxPaCXdEmt6caG+v1YRnm869orcd8VWSSvY5o5paJKp9U1/z5PV7Xyxlo8lKElBxH8CNQQJhJF2YlfYxDYcGCijBAEbkrEFDT63DagguMxtocqcx8gM9gVqiLK2zFmCMzRmizwWeLURsjav6zX9QG3wKRZ3j5VxjNM9XdML3dENPdL7r7WqQY26l32e9YZWuPnew6Hlt39VJZ4ldj9Vf3qW2MFc4NVk727A1G9hNPSVg+OX5fml8eoEXdAT+z+nB7rlG9iVV+MyI5ZOEOUPUL8/90+wOp1UKalmZhKpufAr2jGMMUzxe88ihUWkkeVzbRzhFGeRZ2VQGVFGG6lKJNQM4Esokx//lY4c</latexit> dk で正規化 qとkの内積 1.6 13 1.0 8 2.5 20 1.6 13 は 学⽣ です = 関連度 query key value 64 64 64 768 私 49

50. ⽂脈を考慮した 「学⽣」のベクトル Q, K, V + Self-attention softmax p dk で正規化 qとkの内積 <latexit sha1_base64="kKacpGhHtVl88JRgBgcBf8petPQ=">AAACbXichVHLSsNAFD2N7/qqiiAoUiw+VuVGBMVVwY3LVq0WH5QkjjU0TWIyLWjpD7gWXIiCgoj4GW78ARd+grhwoeDGhbdpQFTUO8zMmTP33Dkzo7uW6Uuih4jS1NzS2tbeEe3s6u7pjfX1r/pO2TNE1nAsx8vpmi8s0xZZaUpL5FxPaCXdEmt6caG+v1YRnm869orcd8VWSSvY5o5paJKp9U1/z5PV7Xyxlo8lKElBxH8CNQQJhJF2YlfYxDYcGCijBAEbkrEFDT63DagguMxtocqcx8gM9gVqiLK2zFmCMzRmizwWeLURsjav6zX9QG3wKRZ3j5VxjNM9XdML3dENPdL7r7WqQY26l32e9YZWuPnew6Hlt39VJZ4ldj9Vf3qW2MFc4NVk727A1G9hNPSVg+OX5fml8eoEXdAT+z+nB7rlG9iVV+MyI5ZOEOUPUL8/90+wOp1UKalmZhKpufAr2jGMMUzxe88ihUWkkeVzbRzhFGeRZ2VQGVFGG6lKJNQM4Esokx//lY4c</latexit> × 0.2 ×0.1 ×0.5 ×0.2 1.6 13 1.0 8 2.5 20 1.6 13 は 学⽣ です = 関連度 query key value 64 64 64 768 私 50

51. ⽂脈を考慮した 「学⽣」のベクトル Q, K, V + Self-attention softmax p dk で正規化 qとkの内積 <latexit sha1_base64="kKacpGhHtVl88JRgBgcBf8petPQ=">AAACbXichVHLSsNAFD2N7/qqiiAoUiw+VuVGBMVVwY3LVq0WH5QkjjU0TWIyLWjpD7gWXIiCgoj4GW78ARd+grhwoeDGhbdpQFTUO8zMmTP33Dkzo7uW6Uuih4jS1NzS2tbeEe3s6u7pjfX1r/pO2TNE1nAsx8vpmi8s0xZZaUpL5FxPaCXdEmt6caG+v1YRnm869orcd8VWSSvY5o5paJKp9U1/z5PV7Xyxlo8lKElBxH8CNQQJhJF2YlfYxDYcGCijBAEbkrEFDT63DagguMxtocqcx8gM9gVqiLK2zFmCMzRmizwWeLURsjav6zX9QG3wKRZ3j5VxjNM9XdML3dENPdL7r7WqQY26l32e9YZWuPnew6Hlt39VJZ4ldj9Vf3qW2MFc4NVk727A1G9hNPSVg+OX5fml8eoEXdAT+z+nB7rlG9iVV+MyI5ZOEOUPUL8/90+wOp1UKalmZhKpufAr2jGMMUzxe88ihUWkkeVzbRzhFGeRZ2VQGVFGG6lKJNQM4Esokx//lY4c</latexit> 「私」「は」「です」についても 同じことをする × 0.2 ×0.1 ×0.5 ×0.2 1.6 13 1.0 8 2.5 20 1.6 13 は 学⽣ です 1. 並列計算可能 2. 遠くまで⾒る ことができる = 関連度 query key value 64 64 64 768 私 51

52. ⾏列で記述 T QK softmax( p )V dk ? <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 52

53. 私 は 学⽣ です QK T softmax( p )V dk KT <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> Q私 ( softmax は 学⽣ です x p 私 は 学⽣ です <latexit sha1_base64="OrstIRGffw1Um2laVMCLMnw9QUU=">AAACbXichVHLSsNAFD2N7/qqiiAoIhYfq3IjgiIuCm5cVmtVfFCSOGpomsRkWqilP+BacCEKCiLiZ7jxB1z0E8SFCwU3LrxNA6Ki3mFmzpy5586ZGd21TF8SVSNKQ2NTc0trW7S9o7OrO9bTu+o7Bc8QGcOxHG9d13xhmbbISFNaYt31hJbXLbGm5xZq+2tF4fmmY6/Ikiu289qebe6ahiaZ2tjyDzxZ3snmKtlYnBIUxMhPoIYgjjBSTuwaW9iBAwMF5CFgQzK2oMHntgkVBJe5bZSZ8xiZwb5ABVHWFjhLcIbGbI7HPV5thqzN61pNP1AbfIrF3WPlCMbogW7ohe7plh7p/dda5aBGzUuJZ72uFW62+2gg/favKs+zxP6n6k/PEruYDbya7N0NmNotjLq+eHjykp5bHiuP0yU9sf8LqtId38AuvhpXS2L5FFH+APX7c/8Eq1MJlRLq0nQ8OR9+RSsGMYpJfu8ZJLGIFDJ8ro1jnOE88qz0K0PKcD1ViYSaPnwJZeIDANiOIA==</latexit> 私 0.2 0.1 0.6 0.1 は 0.1 0.7 0.1 0.1 学⽣ 0.2 0.1 0.5 0.2 です 0.1 0.1 0.1 0.7 dk V私 . は 学⽣ です ) 53

54. 私 は 学⽣ です QK T softmax( p )V dk KT <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> Q私 ( softmax は 学⽣ です x p 私 は 学⽣ です <latexit sha1_base64="OrstIRGffw1Um2laVMCLMnw9QUU=">AAACbXichVHLSsNAFD2N7/qqiiAoIhYfq3IjgiIuCm5cVmtVfFCSOGpomsRkWqilP+BacCEKCiLiZ7jxB1z0E8SFCwU3LrxNA6Ki3mFmzpy5586ZGd21TF8SVSNKQ2NTc0trW7S9o7OrO9bTu+o7Bc8QGcOxHG9d13xhmbbISFNaYt31hJbXLbGm5xZq+2tF4fmmY6/Ikiu289qebe6ahiaZ2tjyDzxZ3snmKtlYnBIUxMhPoIYgjjBSTuwaW9iBAwMF5CFgQzK2oMHntgkVBJe5bZSZ8xiZwb5ABVHWFjhLcIbGbI7HPV5thqzN61pNP1AbfIrF3WPlCMbogW7ohe7plh7p/dda5aBGzUuJZ72uFW62+2gg/favKs+zxP6n6k/PEruYDbya7N0NmNotjLq+eHjykp5bHiuP0yU9sf8LqtId38AuvhpXS2L5FFH+APX7c/8Eq1MJlRLq0nQ8OR9+RSsGMYpJfu8ZJLGIFDJ8ro1jnOE88qz0K0PKcD1ViYSaPnwJZeIDANiOIA==</latexit> 私 0.2 0.1 0.6 0.1 は 0.1 0.7 0.1 0.1 学⽣ 0.2 0.1 0.5 0.2 です 0.1 0.1 0.1 0.7 dk V私 . は 学⽣ です ) 「学⽣」から他の 単語への attentionスコア 54

55. 私 は 学⽣ です QK T softmax( p )V dk KT <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> Q私 ( softmax は 学⽣ です x p <latexit sha1_base64="OrstIRGffw1Um2laVMCLMnw9QUU=">AAACbXichVHLSsNAFD2N7/qqiiAoIhYfq3IjgiIuCm5cVmtVfFCSOGpomsRkWqilP+BacCEKCiLiZ7jxB1z0E8SFCwU3LrxNA6Ki3mFmzpy5586ZGd21TF8SVSNKQ2NTc0trW7S9o7OrO9bTu+o7Bc8QGcOxHG9d13xhmbbISFNaYt31hJbXLbGm5xZq+2tF4fmmY6/Ikiu289qebe6ahiaZ2tjyDzxZ3snmKtlYnBIUxMhPoIYgjjBSTuwaW9iBAwMF5CFgQzK2oMHntgkVBJe5bZSZ8xiZwb5ABVHWFjhLcIbGbI7HPV5thqzN61pNP1AbfIrF3WPlCMbogW7ohe7plh7p/dda5aBGzUuJZ72uFW62+2gg/favKs+zxP6n6k/PEruYDbya7N0NmNotjLq+eHjykp5bHiuP0yU9sf8LqtId38AuvhpXS2L5FFH+APX7c/8Eq1MJlRLq0nQ8OR9+RSsGMYpJfu8ZJLGIFDJ8ro1jnOE88qz0K0PKcD1ViYSaPnwJZeIDANiOIA==</latexit> 私 は 学⽣ です V私 は 学⽣ です ) dk 私 0.2 0.1 0.6 0.1 Z私 は 0.1 0.7 0.1 0.1 学⽣ 0.2 0.1 0.5 0.2 です 0.1 0.1 0.1 0.7 は 学⽣ です 「学⽣」から他の 単語への attentionスコア . = 55

56. さまざまな⽂脈を考慮した 「学⽣」のベクトル Multiple Heads 0.2 0.1 Head 0 Head 1 … … 0.5 0.2 0.1 0.1 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> 私 は 学⽣ です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私 は ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 学⽣ です <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit> 56

57. Position Embedding • LSTMと異なり位置情報が考慮されない → 位置情報をembeddingで与える 私 Token Embeddings は 学⽣ です 学習パラメータ 私 + は + 学⽣ + です + Position Embeddings 固定値 (BERTでは学習パラメータ) 0 ⾔語処理学会 第28回年次⼤会 1 チュートリアル資料2(2022年3⽉) 3 57

58. Transformerブロックの詳細 768 FFN さまざまな⽂脈を考慮した 「学⽣」のベクトル 768 Head 0 self-attention 0.2 768 私 0.1 … 0.5 Head 1 0.2 0.1 0.1 … 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> は 学⽣ です <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> 私 は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私 は 学⽣ です 58 <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit>

59. Transformerブロックの詳細 Transformerにおけるフィードフォワードネットの作⽤ ⼩林 (東北⼤)+, NLP2022 768 768 FFN 3072 FFN FFN FFN 各位置で同じ FFNを適⽤ 768 さまざまな⽂脈を考慮した 「学⽣」のベクトル 768 Head 0 self-attention 0.2 768 私 0.1 … 0.5 Head 1 0.2 0.1 0.1 … 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> は 学⽣ です <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> 私 は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私 は 学⽣ です 59 <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit>

60. Transformerブロックの詳細 Transformerにおけるフィードフォワードネットの作⽤ ⼩林 (東北⼤)+, NLP2022 768 768 + FFN + 3072 FFN FFN FFN 各位置で同じ FFNを適⽤ 768 さまざまな⽂脈を考慮した 「学⽣」のベクトル 768 Head 0 self-attention residual connection 0.2 768 私 0.1 … 0.5 Head 1 0.2 0.1 0.1 … 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> は 学⽣ です <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> (⼊⼒との差分を学習する ようになる) 私 は 学⽣ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私 は 学⽣ です 60 <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit>

61. student Transformerの全体像 decoder #6 FFN encoder #6 encoder-decoder attention FFN self-attention decoder #1 … FFN FFN encoder-decoder attention self-attention self-attention encoder #1 私 self-attention … は 学⽣ です EOS I ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) am a 61

62. I Transformerの全体像 am decoder #6 FFN encoder #6 encoder-decoder attention FFN self-attention decoder #1 … FFN FFN encoder-decoder attention self-attention self-attention encoder #1 私 self-attention … は 学⽣ です EOS I ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) am a 62

63. LSTM vs Transformer FFN self-attention … FFN self-attention 私 は 学⽣ です ⼀単語ずつしか情報を伝えることができない 何層積み重ねても同じ伝え⽅しかできない ⼀歩ずつしか計算できない 精度は数層で頭打ち 私 は 学⽣ です 遠くの単語の情報を⾒ることができる 各層で異なることができる 並列計算可能 数⼗層にしてもまだまだ上がる ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 63

64. 機械翻訳がなぜうまくいったのか? • 深層学習はData Hungry • 機械翻訳: 数百万〜数千万ペア • すでに存在しているデータを使える • ラベル: ⾃然⾔語 増やせば解決、というわけにはいかない • 京⼤コーパス: 新聞記事約4万⽂ • ラベル: (⼈⼯的な)カテゴリ → ⼀貫したラベル付与が難しい 九四 年度 の 「 減収 減益 」 社 数 は .. 名詞 接尾辞 助詞 特殊 名詞 名詞 特殊接尾辞名詞 助詞 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 64

65. 本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊ ⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題 ライブラリ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 65

66. 単⾔語解析 (2017-18年) 深層学習 古典的 機械学習 転移学習 単語 word2vec Glove ベクトル ⾔語 モデル 単⾔語 解析 ELMo GPT-2 LSTM RoBERTa GPT BERT ALBERT T5 FFN encoder- attention decoder 翻訳 2013 14 15 GPT-3 Transformer 16 17 18 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 19 20 66 21

67. 単⾔語解析 (2017-18年) Pre-training 下流タスク 単語ベクトルの学習 ネガティブ (word2vec [Mikolov+ ⽂脈レベルの情報の学習は 13]) 下流タスクの学習データのみ = 通常数万⽂ 電池 初期値 が … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) すぐ Bi-LSTMで ⽂脈を考慮 切れる 67

68. Self-Supervised Learning (⾃⼰教師あり学習) • ⾃分⾃⾝(⼊⼒データ)からラベルを⾃動⽣成 word2vec GPT-n BERT りんご 正例 昨⽇ 彼 は りんご を ⾷べた 負例 昨⽇ 彼 は りんご を ⾷べた ツバメ → ⼤規模データが使える 昨⽇ 彼 は [MASK] を ⾷べた ⾔語モデル ⽇本語Wikipedia 約2,000万⽂ ⽇本語Webテキスト 1〜100億⽂ ⽬的はこれらのタスクを解くことによって よいベクトル表現を得ること ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 68

69. 転移学習 (Transfer Learning) タスク: ⾔語モデル ソース トレーニングデータ タスク: 評判分析 ターゲット トレーニングデータ Self-supervised Learning モデル ソースで学習したモデルの パラメータを初期値として ターゲットで微調整 モデル Pre-training Fine-tuning (事前学習) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 69

70. 転移学習 (Transfer Learning) タスク: ⾔語モデル ソース トレーニングデータ タスク: 評判分析 ターゲット トレーニングデータ Self-supervised Learning モデル ソースで学習したモデルの パラメータを初期値として ターゲットで微調整 モデル Pre-training Fine-tuning (事前学習) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 70

71. これまでの深層学習 vs 転移学習 これまでの深層学習 転移学習 GPT-1, BERT ⼤規模テキストで 事前学習 固有表現解析 固有表現解析 word2vec, ELMo ⼤規模テキストで 事前学習 機械読解 機械読解 Published as a conference paper at ICLR 2017 Start End Dense + Softmax LSTM + Softmax Query2Context Softmax uJ m2 mT u2 u1 LSTM m1 Max Output Layer LSTM Modeling Layer h1 h2 g2 g1 Attention Flow Layer gT hT モデル Context2Query uJ u1 uJ u2 u1 LSTM LSTM hT Softmax Attention h2 h1 h2 Word Embed Layer • 事前学習したベクトルを素性 として⽤いる • タスクごとにモデルが異なる モデル Query2Context and Context2Query h1 Contextual Embed Layer モデル Character Embed Layer x1 x2 x3 Context xT qJ q1 hT Word Embedding Character Embedding GLOVE Char-CNN Query BiDAF [Seo+ 2016] Figure 1: BiDirectional Attention Flow Model (best viewed in color) query-aware context representation (the output of the attention layer). It also allows the attention at each time step to be unaffected from incorrect attendances at previous time steps. Our experiments show that memory-less attention gives a clear advantage over dynamic attention. Third, we use attention mechanisms in both directions, query-to-context and context-to-query, which provide complimentary information to each other. … Our B I DAF model1 outperforms all previous approaches on the highly-competitive Stanford Question Answering Dataset (SQuAD) test set leaderboard at the time of submission. With a modification to only the output layer, B I DAF achieves the state-of-the-art results on the CNN/DailyMail cloze test. We also provide an in-depth ablation study of our model on the SQuAD development set, vi- すべてのタスクで 同じモデルを⽤いる ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) … 71

72. BERT [Devlin+ 2018] (Bidirectional Encoder Representations from Transformers) 1. Pre-training 2. Fine-tuning (学習データ: 数千万⽂〜) “2⽂が隣接して いるかどうか” “⽳うめ問題” 放電 正例 (学習データ: 数万⽂) を タスク: 評判分析 negative BERT BERT [CLS] 電池 が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう ⽂B [CLS] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) この 電池 は すぐ 72 切れる

73. Transformerという箱を学習 ⽂脈を考慮した 「電池」のベクトル negative ⽂全体を表す ベクトル FFN BERT [CLS] この 電池 は ⼊⼒サブワード列 self-attention すぐ 切れる ⽂脈を考慮しない 「電池」のベクトル ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 73

74. BERT [Devlin+ 2018] ポイント1 (Bidirectional Encoder Representations from Transformers) 1. Pre-training ポイント2 2. Fine-tuning (学習データ: 数千万⽂〜) “2⽂が隣接して いるかどうか” “⽳うめ問題” 放電 正例 (学習データ: 数万⽂) を タスク: 評判分析 negative BERT BERT [CLS] 電池 が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう ⽂B [CLS] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) この 電池 は すぐ 74 切れる

75. 機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 14] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 75 student 2層の LSTM 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

76. BERT [Devlin+ 2018] ポイント1 (Bidirectional Encoder Representations from Transformers) ポイント4 1. Pre-training (学習データ: 数千万⽂〜) “2⽂が隣接して いるかどうか” ポイント3: Self-supervised Learning “⽳うめ問題” 放電 正例 ポイント2 を 2. Fine-tuning (学習データ: 数万⽂) タスク: 評判分析 negative BERT BERT [CLS] 電池 が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう ⽂B [CLS] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) この 電池 は すぐ 76 切れる

77. 1. Pre-training GPT-1[Radford+ 2018.8] の 消耗 が negative 激しい (Generative Pre-Training) タスク: ⾔語モデル (decoderと同じ) タスク例: 評判分析 2. Fine-tuning … … GPT-1 GPT-1 … … 電池 の 消耗 が この … 電池 は すぐ … 前しか参照できない negative 消耗 BERT [Devlin+ 2018.10] … … BERT タスク: ⽳埋め問題 BERT … [CLS] 電池 の [MASK] が … … [CLS] 前も後ろも参照できる! (マスクした単語が⼊⼒にないので) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) この 電池 は すぐ … 77

78. BERT [Devlin+ 2018] ポイント1 (Bidirectional Encoder Representations from Transformers) ポイント4 1. Pre-training (学習データ: 数千万⽂〜) “2⽂が隣接して いるかどうか” 2. Fine-tuning ポイント3: ⾃⼰教師あり学習 “⽳うめ問題” 放電 正例 ポイント2 を (学習データ: 数万⽂) タスク: 評判分析 negative BERT BERT [CLS] 電池 が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう [CLS] この 電池 ポイント5: 同じモデルを使い回す ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) ⽂B は すぐ 78 切れる

79. negative ⼊⼒表現 BERT ⼊⼒全体のベクトル⽤ Segment Embeddings Position Embeddings [CLS] この 電池 は すぐ 切れる ⼊⼒サブワード列 セグメントの 句切れ⽬ もともと ⼀単語 (後述) subword 電池 が 放電 で 消耗 する 機能 を 損 ##なう E[CLS] E電池 Eが E放電 Eで E消耗 Eする E[SEP] E機能 Eを E損 E##なう E[SEP] [CLS] Token Embeddings ⽂章A と ⽂章B 質問 と 段落 など ※ 必ずしも1⽂ではない [SEP] [SEP] + + + + + + + + + + + + + EA EA EA EA EA EA EA EA EB EB EB EB EB + + + + + + + + + + + + + E0 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 79 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

80. 768 ⼊⼒表現 [CLS] 電池 [CLS] [SEP] 放電 で が の が 消耗 する [SEP] 機能 を 損 ##なう Eを E損 E##なう E[SEP] + + + + [SEP] 32,000 … Token Embeddings Segment Embeddings Position Embeddings E[CLS] E電池 Eが E放電 Eで E消耗 Eする E[SEP] E機能 電池 … + + + + + + + + + EA EA EA EA EA EA EA EA EB EB EB EB EB + + + + + + + + + + + + + E0 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 80 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

81. モデル パラメータ数: 約1億 パラメータ数: 約3億 BERTBASE BERTLARGE … L=24 BERT … L=12 BERT H=768 A=16 A=12 (ヘッドの数) 512 token (約10⽂) H=1024 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 512 token 81

82. パラメータ数の詳細 (主要なパラメータのみ) パラメータ数: 約1億 BERTBASE 7.2M x 12層 = 84M L=12 FFN BERT self-attention word embedding H=768 3072 x 768 = 2.4M 768 x 3072 = 2.4M 768 x 768 x 3 = 1.8M Q, K, V position embedding 768 768 [CLS] 0 [SEP] が の 32,000 … 電池 … 768 x 32000 = 23M ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 1 2 3 512 … 768 x 512 = 0.4M 82 7.2M

83. Pre-training • 以下の2つのタスクでpre-training 1. Masked Language Model 2. Next Sentence Prediction • どちらもself-supervised learning • 2つのタスクは同時に⾏う ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 83

84. 1. Masked Language Model • ⼊⼒⽂においてランダムに選んだトークンをマスク (⼊⼒の15%) • マスクされたトークンを⽂脈から推測 • 統語・意味的な表現を学習することが求められる 放電 [CLS] 電池 ※正確にはどちらも数⽂ が [MASK] で 消耗 する [SEP] 機能 ⽂A ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) を [MASK] ⽂B 損 ##なう [SEP] 84

85. 2. Next Sentence Prediction ただし、これは後の研究で あまり有効ではないとされている • 含意関係認識や質問応答では2⽂間の関係を捉える必要がある • ⽂Aと後続する⽂B(正例)、または、ランダムに選んだ⽂(負例) を連結し、これらを識別する問題を解く 正例 [CLS] 電池 ※正確にはどちらも数⽂ が [MASK] ⽂A で 消耗 する [SEP] 機能 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) [MASK] ⽂B 損 ##なう [SEP] 85

86. Pre-Training (英語) 256 sequences • コーパス … • BookCorpus (800M words) • English Wikipedia (2,500M words) • バッチサイズ • 256 sequences * 512 tokens • トレーニング時間 • BERTBASE: 4 TPUS Pod (16 TPU chips) → 4⽇ • BERTLARGE: 16 TPUS Pod (64 TPU chips) → 4⽇ 512 tokens • 40 ‒ 70 days with 8 GPUs 誰かが⼀度⾏えばよいだけ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 86

87. Fine-Tuning (1/2) 含意 含 意 ⽭ 盾 中 ⽴ • 解きたいタスクに応じた最終層を追加 • 最終層のパラメータとTransformerのパラメータを更新 ⽂ペア分類問題 (例: 含意関係認識) 3, 4エポック, 数⼗分から数時間 [CLS] 彼 は バナナ ⽂A を ⾷べた [SEP] 彼 は ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 果物 ⽂B を ⾷べた [SEP] 87

88. Fine-Tuning (2/2) ⽂ペア分類問題 (例: 含意関係認識) 1⽂分類問題 (例: 極性判定) positive 含意 … … … … … … … … … … … … … … … … … … [CLS] 彼 … ⾷べた [SEP] 彼 … ⾷べた [SEP] [CLS] この PC は 丈夫 ##で 軽い 。 [SEP] スパン抽出 (例: 機械読解) 系列ラベリング (例: 固有表現解析) Start/End Span O B-LOC O O O … … … … … … … [CLS] 東京 ⼤学 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) は 東京 に ある 。 88 [SEP] B-ORG I-ORG … … … … … … … … … [CLS] … どこ ? [SEP] … 東京 … [SEP] … …

89. 実験結果 (GLUE) System MNLI-(m/mm) 392k Pre-OpenAI SOTA 80.6/80.1 BiLSTM+ELMo+Attn 76.4/76.1 OpenAI GPT 82.1/81.4 BERTBASE 84.6/83.4 BERTLARGE 86.7/85.9 QQP 363k 66.1 64.8 70.3 71.2 72.1 QNLI 108k 82.3 79.8 87.4 90.5 92.7 SST-2 67k 93.2 90.4 91.3 93.5 94.9 CoLA 8.5k 35.0 36.0 45.4 52.1 60.5 STS-B 5.7k 81.0 73.3 80.0 85.8 86.5 MRPC 3.5k 86.0 84.9 82.3 88.9 89.3 RTE 2.5k 61.7 56.8 56.0 66.4 70.1 Average 74.0 71.0 75.1 79.6 82.1 ⼤幅な 精度向上 モデルサイズが⼤きい⽅ Table 1: GLUE Test results, scored by the evaluation server (https://gluebenchmark.com/leaderboard ). が⼀貫して精度が良い The number below each task denotes the number of training examples. The “Average” column is slightly different than the official GLUE score, since we exclude the problematic WNLI set.8 BERT and OpenAI GPT are singlemodel, single task. F1 scores are reported for QQP and MRPC, Spearman correlations are reported for STS-B, and accuracy scores are reported for the other tasks. We exclude entries that use BERT as one of their components. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” [Devlin+ 18]より引⽤ We use a batch size of 32 and fine-tune for 3 Wikipedia containing the answer, the task is to ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 89

90. 実験結果: 機械読解 SQuAD [Rajpurkar+ 2016] Start End Dense + Softmax LSTM + Softmax Query2Context Softmax uJ m2 mT u2 u1 LSTM m1 Max BiDAF Output Layer LSTM Modeling Layer F1: 77.3 hT Context2Query uJ Attention h2 u1 hT uJ u2 u1 LSTM h1 Contextual Embed Layer gT Query2Context and Context2Query Softmax [Seo+ 2016] h1 h2 g2 g1 Attention Flow Layer LSTM In meteorology, precipitation is any product of the condensation of atmospheric water vapor that falls under gravity. The main forms of precipitation include drizzle, rain, sleet, snow, graupel and hail... Precipitation forms as smaller droplets coalesce via collision with other rain drops or ice crystals within a cloud. Short, intense periods of rain in scattered locations are called “showers”. Published as a conference paper at ICLR 2017 h1 h2 Word Embed Layer Character Embed Layer Published as a conference paper atx2ICLR x1 x3 2018 xT qJ q1 Context hT Word Embedding Character Embedding GLOVE Char-CNN Query タスク固有の ネットワーク (どんどん複雑化) Figure 1: BiDirectional Attention Flow Model (best viewed in color) query-aware context representation (the output of the attention layer). It also allows the attention at each time step to be unaffected from incorrect attendances at previous time steps. Our experiments show that memory-less attention gives a clear advantage over dynamic attention. Third, we use attention mechanisms in both directions, query-to-context and context-to-query, which provide complimentary information to each other. QANet [Yu+ 2018] F1: 89.3 Our B I DAF model1 outperforms all previous approaches on the highly-competitive Stanford Question Answering Dataset (SQuAD) test set leaderboard at the time of submission. With a modification to only the output layer, B I DAF achieves the state-of-the-art results on the CNN/DailyMail cloze test. We also provide an in-depth ablation study of our model on the SQuAD development set, visualize the intermediate feature spaces in our model, and analyse its performance as compared to a more traditional language model for machine comprehension (Rajpurkar et al., 2016). 2 “鰻屋の鰻” M ODEL Our machine comprehension model is a hierarchical multi-stage process and consists of six layers (Figure 1): 1. Character Embedding Layer maps each word to a vector space using character-level CNNs. 2. Word Embedding Layer maps each word to a vector space using a pre-trained word embedding model. 3. Contextual Embedding Layer utilizes contextual cues from surrounding words to refine the embedding of the words. These first three layers are applied to both the query and context. 4. Attention Flow Layer couples the query and context vectors and produces a set of queryaware feature vectors for each word in the context. Q: Where do water droplets collide with ice crystals to form precipitation? A: within a cloud 5. Modeling Layer employs a Recurrent Neural Network to scan the context. BERT F1: 91.8 ⼈間 F1: 91.2 Figure 1: An overview of the QANet architecture (left) which has several Encoder Blocks. We 6. Output Layer provides an answer to the query. use the same Encoder Block (right) throughout the model, only varying the number of convolutional 1 Our code interactive demo are and available at: allenai.github.io/bi-att-flow/ layers for each block. Weanduse layernorm residual connection between every layer in the Encoder Start/End Span Block. We also share weights of the context and question encoder, and of the three output encoders. 2 A positional encoding is added to the input at the beginning of each encoder layer consisting of sin and cos functions at varying wavelengths, as defined in (Vaswani et al., 2017a). Each sub-layer after the positional encoding (one of convolution, self-attention, or feed-forward-net) inside the encoder structure is wrapped inside a residual block. … … … … … … … … … used extensively in Vaswani et al. (2017a), the combination of convolutions and self-attention is novel, and is significantly better than self-attention alone and gives 2.7 F1 gain in our experiments. The use of convolutions also allows us to take advantage of common regularization methods in ConvNets such as stochastic depth (layer dropout) (Huang et al., 2016), which gives an additional gain of 0.2 F1 in our experiments. In detail, our model consists of the following five layers: [CLS] … どこ ? [SEP] … 東京 … 1. Input Embedding Layer. We adopt the standard techniques to obtain the embedding of each word w by concatenating its word embedding and character embedding. The word embedding is fixed during training and initialized from the p1 = 300 dimensional pre-trained GloVe (Pennington et al., 2014) word vectors, which are fixed during training. All the out-of-vocabulary words are mapped to an <UNK> token, whose embedding is trainable with random initialization. The character embedding is obtained as follows: Each character is represented as a trainable vector of dimension ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) [SEP] 汎⽤モデル “コンビニの鰻” 90

91. BERTのまとめ • ポイント1: Transformerをベースに • ポイント2: Transformerのencoder部分を利⽤ • ポイント3: ⾃⼰教師あり学習 (⽳埋め問題) • ポイント4: Bi-directional • ポイント5: pre-trainingとfine-tuningで同じモデルを使い回す ⾼精度 かつ 汎⽤的 かつ シンプル ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 91

92. サブワード (Subword) • 単語と⽂字の間の単位 • 未知語をなるべく減らすため • Subwordを使わない場合、語彙 (例えば3万語)から漏れたものは⼀律 [UNK] • もともとニューラル機械翻訳で考案された ポケモン は ⽇本 で ⽣まれた 。→ Pokemon was born in Japan. [UNK] ポケ モン • cf. ⽂書分類タスクなどでは未知語があっても⽐較的気楽 • アルゴリズムの1つにByte Pair Encoding (BPE) [Sennrich+ 2016] ややこしい話がたくさんあります ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 92

93. BPEのアルゴリズム 1. 2. 3. 4. 各⽂字をsubwordとみなす 最も頻度の⾼いbi-gram (subwordペア)を⾒つける そのbi-gramを1subwordとみなす テスト時(=BPE学習以外): 2に戻る マージしたbi-gramリストを もとに分割 頻度 4 2 1 6 3 low lower lowest newest widest low lower l o w es t n e w es t w i d es t low lower l o w est n e w est w i d est lo w lo w e r lo w est n e w est w i d est ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) ・・・ 93

94. サブワード分割 • アルゴリズム ややこしいポイント1: wordpieceがサブワード(=分割されたもの) を 指すことがある • Wordpiece [Schuster+ 2012] = Google⽇韓⾳声認識で利⽤ (Google社内のみ) ほぼ同じ • Google翻訳でwordpieceという名前がつけられる • BPE (Byte Pair Encoding) [Sennrich+ 2016] • Unigram⾔語モデル [Kudo+ 2018] • ⽂が単語に分割されていなくてもいい → ⽇本語で形態素解析なしで使える • 複数のサブワード分割が⾏える ややこしいポイント2: • ソフトウェア ソフトウェアSentencepieceがアルゴリズム 「Unigram⾔語モデル」のことを指すことがある • subword-nmt (BPE) • Sentencepiece (BPE, Unigram⾔語モデル, ⽂字) ややこしいポイント3: 「Sentencepieceを使った」といっても アルゴリズムBPEが使われていることがある ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 94

95. ではBERTでは? ややこしいポイント4: Wordpiece/BPEを使ってサブワードに分割しているわけではない • 論⽂にはWordpieceを使ったと書かれている • Google社外の⼈はたいていBPEを利⽤ Wordpiece/BPEを適⽤ サブセットを 利⽤ He plays tennis. .. 語彙リスト .. the 100万⽂とか … play … ##s … 単語内の先頭以 外は##をつける ⼤規模テキスト (pre-training⽤) 各タスクの 正解付きテキスト (fine-tuning⽤) I am a student. He plays tennis. This book is good. .. → ポジティブ .. .. .. 数万⽂ 語彙リストをもとに .. 最⻑⼀致でサブワード分割 .. ややこしいポイント5: これがWordpieceと呼ばれる! 数千万⽂〜 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 95

96. 語彙リスト(vocab.txt, 語彙数: 3万) [PAD] [UNK] [CLS] [SEP] [MASK] … ! " # … the of and … where just ##ing during before ##n do ##o made school through than now … foreigner vet freaks patrice rosewood triassic upstate ##pkins dominate s ata chants ks … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 96

97. Wordpiece Tokenizer embeddings vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 97

98. Wordpiece Tokenizer embeddings em vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 98

99. Wordpiece Tokenizer embeddings em vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 99

100. Wordpiece Tokenizer embeddings em ##bed 先頭以外は##を つけて照合 vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 100

101. Wordpiece Tokenizer embeddings em ##bed ##ding ##s サブワードは必ずしも意味の ある単位でなくてもよい (Transformerがなんとかする) 先頭以外は##を つけて照合 vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 101

102. トークナイズ (英語) BertTokenizer He doesnʼt learn word embeddings. (従来の)トークナイズ BasicTokenizer He doesn ʼ t learn word embeddings . サブワード分割 WordpieceTokenizer He doesn ʼ t learn word em ##bed ##ding ##s . 1124 2144 … … 単語IDへの変換 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 102

103. トークナイズ (英語, ⽇本語) He doesnʼt learn word embeddings. (従来の)トークナイズ 英語 He doesn ʼ t learn word embeddings . サブワード分割 He doesn ʼ t learn word em ##bed ##ding ##s . 形態素解析 + サブワード ⽇本語 形態素解析なしUnigram⾔語モデル 彼は昨⽇、京都府に⾏った。 形態素解析 彼 は 昨⽇ 、 京都 府 に ⾏った 。 サブワード分割 サブワード分割 彼 は 昨 ##⽇ 、 京都 府 に ⾏った 。 彼は 昨 ⽇ 、 京都府 に⾏った 103 。 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

104. トークナイズの例 (⽇本語) アメリカ合衆国 ( アメリカ が っ しゅう こく ) 、 通称 アメリカ ( 英語 : Amer ##ica ) は 、 北 アメリカ 、 太平洋 および ⼤⻄洋 に 位置 する 連邦 共和 制 国家 。 ⾸都 は コロンビア 特別 区 ( 通 称 ・ ワシントン D . C . ) 。 50 の 州 および 連邦 区 など から 構成 さ れる 。 うち アメリカ 本⼟ の 48 州 は カナダ と メキシコ の 間 の 北 アメリカ 中央 に 位置 する 。 アラスカ 州 は 北 アメリカ 北⻄ 部 の ⾓ に 位置 し 、 東 で は カナダ と 、 ⻄ で は ベー ##リング 海峡 を 挟んで ロシア と 国境 を 接して いる 。 ハワイ 州 は 中部 太平洋 に おける 島嶼 群 である 。 同 国 は 太平洋 と カリブ に 5 つ の 有⼈ の 海外 領⼟ および 9 つ の 無⼈ の 海外 領⼟ を 有する 。 98 ##5万 平⽅キロメートル の 総 ⾯積 は 世界 第 3 位 または 第 4 位 、 3億 ##2 ##70 ##0万 ⼈ の ⼈⼝ は 世界 第 3 位 である 。 同 国 は 世界 で 最も ⺠族 的に 多様 かつ 多 ⽂化 な 国 の ひと つ である 。 ▁アメリカ合衆国 ( アメリカ が っ しゅう こく ) 、 通称 アメリカ ( 英語 : ▁A mer ica ) は 、 北アメ リカ 、 太平洋 および ⼤⻄洋 に位置する 連邦 共和制 国家 。 ⾸都 は コロンビア 特別 区 ( 通称 ・ ワシン トン D . C . ) 。 50 の 州 および 連邦 区 など から構成される 。 うち アメリカ 本⼟ の 48 州 は カナダ と メキシコ の間の 北アメリカ 中央 に位置する 。 アラスカ 州 は 北アメリカ 北⻄部 の ⾓ に位置し 、 東 では カナダ と 、 ⻄ では ベー リング 海峡 を挟んで ロシア と 国境 を 接 している 。 ハワイ 州 は 中部 太平洋 における 島嶼 群 である 。 同国 は 太平洋 と カリ ブ に 5 つの 有⼈ の 海外 領⼟ および 9 つの 無⼈ の 海 外 領⼟ を有する 。 98 5 万 平⽅キロメートル の 総⾯積 は 世界 第 3 位 または 第 4 位 、 3 億 2 700 万⼈ の⼈⼝は 世界 第 3 位 である 。 同国 は 世界で最も ⺠族 的に 多様 かつ 多 ⽂化 な 国 のひとつである 。 https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%A1%E3%83%AA%E3%82%AB%E5%90%88%E8%A1%86%E5%9B%BD104 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

105. ⽇本語BERTモデル 形態素解析 + サブワード 形態素解析なしUnigram⾔語モデル 事前学習テキスト 形態素解析 Vocabの作り⽅ Subwordへの 分割⽅法 備考 Kikuta Wikipedia なし SP (unigram) SP 京⼤ Wikipedia Juman++ BPE BERTTokenizer 東北⼤ Wikipedia MeCab SP (BPE) BertJapanese Tokenizer ホットリンク twitter なし SP (unigram) SP ストックマーク ニュース記事 MeCab Subwordなし なし NICT Wikipedia MeCab BPE BERTTokenizer 精度がよい 早稲⽥⼤学 (RoBERTa) Wikipedia + CC Juman++ SP (unigram) BERTTokenizer 精度がよい 東⼤医療AI 医療テキスト MeCab BPE BERTTokenizer transformersで 利⽤可能 https://github.com/himkt/awesome-bert-japanese に追加 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 105

106. 本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊ ⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題 ライブラリ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 106

107. BERTの出現以降の話題 a. b. c. d. e. f. g. h. i. j. k. 様々なタスクでの利⽤ (機械読解, 単⾔語解析, 知識ベース, ..) BERT⾃体の改良 テキスト変換 (=encoder-decoder) 中⾝の分析 ドメイン特化型モデル 多⾔語 軽量化 ⽂ベクトル マルチモーダル ⾔語モデル .. https://github.com/tomohideshibata/BERT-related-papers 107 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

108. b. BERT⾃体の改良 • Maskの改良: # • Whole Word Masking (WWM) • Maskをスパン単位に: SpanBERT [Joshi+ 2019], PMI-masking [Levine+ 2020] • Maskする確率を15%から40%に [Wettig+ 2022] pre-trainingタスクは • Next Sentence Prediction (NSP)の⾒直し できるだけ難しく • NSPを廃⽌ (RoBERTa [Liu+ 2019]) • NSPは簡単なので⽂ペアの順番を予測する問題に変更 (ALBERT [Lan+ 2019]) • pre-trainingに使うテキストを⼤規模に (RoBERTa [Liu+ 2019]) • マスクするのをやめて、語順をpermutateした⾔語モデル (XLNet [Yang+ 2019]) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 108

109. c. テキスト変換にPre-trainingを導⼊ Text-to-Text Transfer Transformer (T5) [Raffel+ 2019] 1. Pre-training encoder 電池 が [X] した 放電 で 消耗 … こちらで⽣成 機能 [Y] … decoder 放電 で 消耗 [Y] が [X] 放電 で 消耗 [Y] が 同時期に BART (Bidirectional and Auto-Regressive Transformers) [Lewis+ 2019] 109

110. e. ドメイン特化型モデル (バイオ, 医療..) 語彙の 学習 ⼤規模テキストでの pre-training 下流タスクでの fine-tuning [Gururangan+ 2020]など 語彙の 学習 ⼤規模テキストでの pre-training ドメインテキストでの pre-training 下流タスクでの fine-tuning [Lee+ 2020]など 弊社での取り組み: 語彙の 学習 ドメインテキストでの pre-training 下流タスクでの fine-tuning 語彙の 学習 検索クエリのログでの pre-training カテゴリ分類で fine-tuning 詳しくは「ヤフーにおける⾃然⾔語処理モデルBERTの利⽤」 https://techblog.yahoo.co.jp/entry/2021122030233811/ マリトッツォ: グルメ エイペックス スイッチ: ゲーム,タイトル名 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 110

111. medians of 5 runs with different seeds. Model g. 軽量化 ELMo BERT-base DistilBERT Score CoLA MNLI MRPC QNLI QQP RTE SST-2 STS-B WNLI 68.7 77.6 76.8 44.1 48.9 49.1 68.6 84.3 81.8 76.6 88.6 90.2 71.1 89.3 90.2 86.2 89.5 89.2 53.4 71.3 62.9 91.5 91.7 92.7 70.4 91.2 90.7 56.3 43.7 44.4 “DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter” [Sanh+ 2019]より引⽤ Table 2: DistilBERT yields to comparable Table 3: DistilBERT is significantly smaller • 蒸留 (distillation): ⼤きなモデルを教師とし、⼩さなモデル(⽣ performance on downstream tasks. Comwhile being constantly faster. Inference parison on downstream tasks: IMDb (test ac徒)に知識を移す time of a full pass of GLUE task STS-B (sencuracy) and SQuAD 1.1 (EM/F1 on dev set). 分布を近づける timent analysis) on CPU with a batch size of D: with a second2019] step of distillation during 例: DistilBERT [Sanh+ 1. 通常のMLM fine-tuning. Model # param. Inf. time … Model IMDb SQuAD ⽣徒モデル 教師モデル (Millions) (seconds) 放電 … (acc.) (EM/F1) ⽕災 放電 故障 原因 ELMo 180 895 ⽕災 放電 故障 原因 BERT-base 93.46 81.2/88.5 放電 BERT-base 110 668 DistilBERT 92.82 77.7/85.8 DistilBERT 66 410 DistilBERT (D) 79.1/86.9 層数を 半分 Distillation We applied best practices for training BERT model recently proposed in Liu et al. [2019]. As such, DistilBERT is distilled on very large batches leveraging gradient accumulation (up to 4K examples per batch) using dynamic masking and without the next sentence prediction objective. 電池 が Data [MASK] and on theが same[MASK] corpus as で the original 電池 消耗 BERT するmodel: でcompute 消耗power するWe train DistilBERT 111 a concatenation of English Wikipedia and Toronto Book Corpus [Zhu et al., 2015]. DistilBERT ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

112. negative いい⽂ベクト ルではない h. ⽂ベクトル Sentence-BERT [Reimers+ 2019] [CLS] u BERT [CLS] Sentence A この 電池 は すぐ 切れる -1 … テキスト含意認識を解くことで ⽂ベクトル表現を学習 Softmax classifier 平均 (mean pooling) BERT (u, v, |u-v|) 平均 (mean pooling) v cosine-s u v u pooling pooling pooling BERT BERT Sentence A Sentence B Sentence-BERTの論⽂より引⽤ 重み共有 BERT BERT [CLS] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) Sentence A Sentence B 112

113. DPR: Dense Passage Retrieval [Karpukhin+ 2020] FAISS [Johnson+, 17]で類似ベクトル検索 BERT [CLS] question BERT [CLS] paragraph 別々の重み ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 113

114. i. マルチモーダル ⾔語と画像 (動画) 特に出⼒側は離散値としてクラス 分類とした⽅が扱いやすい 離散値として扱う! (k-meansなど) ⾳声 softmax t1 t1 t1 … tv … tv … tv t3 t4 t5 soft f3 f5 output f9 Transformer Encoder t1 t2 m3 m4 m5 neg t6 Tran discrete tokens quantizer “VideoBERT: A Joint Model for Video and Language Representation Learning” [Sun+ 19]より引⽤ など多数 f1 f2 d “Effectiveness of(a)self-supervised pre-training (b Quantized Inputs for speech recognition” [Baevski+ 19]より引⽤ Figure 1: Illustration of BERT pre-training. mi refers to masked time-st pass. (a) Inputs are quantized with a vq-wav2vec quantizer 114 or, for MFCC est centroids and are then used for training a BERT model with a mask ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

115. 機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 14] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 115 student 2層の LSTM 私 は 学⽣ です ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

116. パラメータ数: 15億 パラメータ数: 1,750億 GPT-2 [Radford+ 2019], GPT-3 [Brown+ 2020] zero-shot (正解を与えない) few-shot (少量の正解を与える) ⾔語モデルを適⽤するのみ 1. Pre-training (Fine-tuningがないのに“Pre-”は少しおかしいが) の 消耗 が 激しい 電池 の 消耗 が This battery … … … … … この 電池 … 英語 で This … パラメータを更新しない GPT-2: ⼿がかりとなる語を与える (転移学習ではない) GPT-3: 例を数⼗個与える ⽇本語を英語に翻訳してください: 机 → desk りんご → apple 電池 → [タスク説明] [例] ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) [プロンプト] 116

117. GPT-2, 3がなぜ可能なのか? 以下のようなテキストがWebにはたくさんある → ここから⾔語モデルを学習 GPT-2 ⽇本語 ⇒ 英語 .. 「元気でね」は英語で、 Take care of yourself と⾔いま す。.. .. 棚卸しを英語で⾔うと inventoryです。.. .. 翻訳や要約(TL;DR)など、 定型句でタスクを指定でき るものしか扱えない GPT-3 QA 対話 オリンピックに関するトリビア Q: 冬季オリンピックが初めて開 催された国は? A: フランス Q: ⽇本で初めて冬季オリンピッ クが開催された都市は? A: 札幌 .. 店員と客の対話の例です。 店員: 何かお探しですか? 客: Tシャツです。 … 店員:こちらの商品は今年トレン ドの最新アイテムです。 .. ※注意: 各タスクごとにモデルを学習 しているわけではない いくつか例を与えるだけでよ いので幅広いタスクを扱える ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 117

118. arm chair 612 in 84 … 53 … 3192… DALL·E [Ramesh+ 2021] • テキストから画像を⽣成 • 2億5000万のテキスト・画像 ペアから学習 • 120億パラメータのGPT-3 • ⾔語と画像を単⼀ストリーム ⼊⼒ … … an arm chair … 8356 612 … … … 53 53 語彙数 ⾔語 最⼤256トークン 画像 32 x 32画像トークン 16,384 8,192 画像を離散値として扱う https://openai.com/blog/dall-e/ 118 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

119. encoder decoder ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる タスクとモデルのまとめ タスク テキスト変換 (翻訳, 要約, 対話, ..) encoder-decoder ⽣成と呼ぶことも多い encoder こっちと区別する decoder こちらも扱える 分類タスク - ⽂・⽂章レベル (⽂書分類, 評判分析) - トークンレベル (固有表現解析, 機械読解) テキスト⽣成 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 私 は 学⽣ です I am a student EOS EOS I am a student モデル (従来の)encoderdecoder T5, BART, .. GPT-1, BERT ⽅式が違う GPT-2, GPT-3 119

120. モデルのさらなる巨⼤化 & ⼤量のテキスト • 巨⼤なモデルを学習できるのは多⼤な計 算パワーを持った⼀部の企業であること は事実 • モデルを公開してくれる • 知⾒を共有してくれる • 性能向上はモデルを巨⼤にするしかない のか? • 巨⼤モデルと同じようなことが⼩さなモ デルでもできる • PET (Pattern-Exploiting Training) [Schick+ 2021] • マスク⾔語モデルを使ってfewshot学習ができる • RETRO (Retrieval-Enhanced Transformer) [Borgeaud+ 2021] • 関連するテキストを検索する形 にすることによってパラメータ https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train数を1/25にできる megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 120

121. ⾔語モデル? : 冒頭に説明したこれまでの⾔語モデル(=decoder)との区別 汎⽤⾔語モデル? : 汎⽤をつければいいのか 事前学習モデル? マスク⾔語モデル? ⾃⼰教師あり学習? 名前問題 転移学習 1. Pre-training 転移学習モデル? 2. Fine-tuning negative 消耗 … … BERT BERT BERT … [CLS] 電池 の [MASK] が … … [CLS] Pre-training の 消耗 が この 電池 すぐ … ⾔語モデルを適⽤するのみ This battery 激しい … … GPT-2,3 は GPT-2,3 GPT-2,3 … … 電池 の 消耗 が … この 電池 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) … 英語 で This 121 …

122. Foundation Model (基盤モデル) • スタンフォードのグループはBERTやGPT-3, DALL-Eのような ⼤規模モデルをFoundation Modelと呼んでいる On the Opportunities and Risks of Foundation Models [Bommasani+ 2021] (https://arxiv.org/abs/2108.07258) ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 122

123. 本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊ ⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題 ライブラリ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 123

124. 理論を理解することと実際に動かすこと にはギャップがある ライブラリ • transformers (pytorch / tensorflow / JAX) • 最新のモデルが⼿軽に試すことができる • ⽂書分類・固有表現解析・機械読解など、サンプルプログラムを動かすだけ ならまずはこれを試す • tensorflow models (tensorflow) • tensorflowの公式モデル • 現在のところ基本的なモデル (BERT + α)が動かせる • tensorflow servingでデプロイできる • AllenNLP (pytorch) • サンプルプログラム以上のことを⾏うにはこれが⼀番 • モジュール化されていて、LSTMとの⽐較などが簡単 • BERT関係はtransformersで提供されているモジュールを利⽤ ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 124

125. 動かし⽅ (transformersの場合) 注意: ネット上の記事ではコードが⻑々と書かれていることが多い → たいていのことはデータを⽤意し、コマンドを実⾏するだけでよい 極性分類 $ python run_glue.py --model_name_or_path cl-tohoku/bert-base-japanese-whole-wordmasking --train_file train.json .. 固有表現解析 この本はおもしろい, positive この映画はつまらない, negative … 東北⼤学提供の BERTモデル $ python run_ner_old.py --model_name_or_path cl-tohoku/bert-base-japanese-whole-wordmasking --data_dir /somewhere .. ただし O 、O 50 B-DATE 周年 I-DATE ソング O … ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 125

126. JGLUE: ⽇本語版GLUE [栗原+ NLP2022] • 英語のGLUE, SuperGLUE [Wang+, 2019]に続き、中国語CLUE [Xu+, 2020], フランス語FLUE [Le+, 2020], ..などが構築されているが、 ⽇本語はない → ヤフー・早稲⽥⼤でJGLUEを構築 • 基本設計:(a)⼀般ドメイン (b)翻訳を介することなく⽇本語で⼀から MARC-ja JSTS JNLI JSQuAD (acc) (Pearson) (acc) (F1) JCommonsenseQA (acc) ⼈間 0.990 0.909 0.917 0.947 0.988 東北⼤BERTBASE 0.957 0.908 0.882 0.945 0.798 東北⼤BERTLARGE 0.961 0.912 0.884 0.950 0.810 NICT BERTBASE 0.960 0.910 0.889 0.950 0.809 早稲⽥⼤ RoBERTaBASE 0.962 0.910 0.887 0.922 0.852 XLM-RoBERTaLARGE 0.965 0.918 0.906 - 0.830 詳しくは • 3⽉17⽇(⽊) 15:00-16:20 JGLUE: ⽇本語⾔語理解ベンチマーク • 3⽉18⽇(⾦) 「ワークショップ2: ⽇本語における評価⽤データセットの構築と利⽤性の向上」で上記の拡⼤版 126 ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉)

127. ⾔語処理において深層学習/転移学習が 変えたこと • 単語や⽂の表現を記号(離散値)からベクトル(連続値)へ • 様々な表現のずれを吸収 • 系列の扱いがかなりよくなった • テキスト変換・⽣成において⽣成されるテキストがかなり⾃然 • End-to-end 学習 • 基礎解析/中間タスクを解かない • ⼤規模テキストでpre-trainingしてから各タスクでfine-tuningする枠組 みの確⽴ • タスク固有のネットワークではなく、タスク共通のネットワーク (=Transformer) • Pre-trainedモデルやライブラリの整備が進んだ • ⽇本語BERT/GPTモデル (東北⼤, 京⼤, NICT, rinna, 早稲⽥⼤..)の公開 • ユーザが書くコードがかなり少なくなった • BERTで基本的なタスクを解く場合、コマンドを動かすだけで実⾏できる ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 127

128. まとめ • 転移学習, Transformer, encoder/decoder, 最近の話題について 解説 • 初学者: • 本会議中での発表の理解や今後の研究開発に役⽴てば幸い • 中級者: • 頭の整理や誤解の解消に役⽴てば幸い • シニア: • ぜひライブラリを動かしてみてほしい ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 128

129. 厳選おすすめサイト/Youtube • The Illustrated Transformer/BERT • https://jalammar.github.io/illustrated-transformer/ • http://jalammar.github.io/illustrated-bert/ • Instructions on Transformer for people outside NLP field, but with examples of NLP • https://data-science-blog.com/blog/2020/12/30/transformer/ • Fall 2021 CIS6930 Topics in Computing for Data Science • https://github.com/suhara/cis6930-fall2021 • nnabla ディープラーニングチャンネル【Deep Learning研修(発展)】 • https://www.youtube.com/playlist?list=PLbtqZvaoOVPA-keirzqx2wzpujxE-fzyt • Neural Network Console • https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA • Stanford CS224N NLP with Deep Learning | Winter 2021 • https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rOSH4v6133s9LFPRHjEmbmJ • AI Coffee Break with Letitia • https://www.youtube.com/c/AICoffeeBreak ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 129

130. 参考⽂献 (1/3) • [Baykal+ 2020] “Transfer learning with pre-trained deep convolutional neural networks for serous cell classification” • [Devlin+ 2018] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” • [Wang+ 2018] “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding” • [Ramesh+ 21] “Zero-Shot Text-to-Image Generation” • [Sutskever+ 14] “Sequence to Sequence Learning with Neural Networks” • [Bahdanau+ 14] “Neural Machine Translation by Jointly Learning to Align and Translate” • [Luong+ 15] “Effective Approaches to Attention-based Neural Machine Translation” • [Vaswani+ 2017] “Attention Is All You Need” • [Radford+ 2018] “Improving Language Understanding by Generative Pre-Training” • [Rajpurkar+ 16] “100000+ Questions for Machine Comprehension of Text” • [Seo+ 2016] “Bidirectional Attention Flow for Machine Comprehension” • [Yu+ 2018] “QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension” ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 130

131. 参考⽂献 (2/3) • [Sennrich+ 2016] “Neural Machine Translation of Rare Words with Subword Units” • [Schuster+ 2012] “Japanese and Korean Voice Search” • [Kudo+ 2018] “Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates” • [Joshi+ 2019] “SpanBERT: Improving Pre-training by Representing and Predicting Spans” • [Levine+ 2020] “PMI-Masking: Principled masking of correlated spans” • [Wettig+ 2022] “Should You Mask 15% in Masked Language Modeling?” • [Liu+ 2019] “RoBERTa: A Robustly Optimized BERT Pretraining Approach” • [Lan+ 2019] “ALBERT: A Lite BERT for Self-supervised Learning of Language Representations” • [Yang+ 2019] “XLNet: Generalized Autoregressive Pretraining for Language Understanding” • [Raffel+ 2019] “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer” • [Lewis+ 2019] “BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension” • [Clark+ 2019] “What Does BERT Look At? An Analysis of BERT's Attention” ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 131

132. 参考⽂献 (3/3) • [Gururangan+ 2020] “Don't Stop Pretraining: Adapt Language Models to Domains and Tasks” • [Lee+ 2020] “BioBERT: a pre-trained biomedical language representation model for biomedical text mining” • [Sanh+ 2019] “DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter” • [Reimers+ 2019] “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks” • [Karpukhin+ 2020] “Dense Passage Retrieval for Open-Domain Question Answering” • [Sun+ 19] “VideoBERT: A Joint Model for Video and Language Representation Learning” • [Baevski+ 19] “Effectiveness of self-supervised pre-training for speech recognition” • [Radford+ 2019] “Language Models are Unsupervised Multitask Learners” • [Brown+ 2020] “Language Models are Few-Shot Learners” • [Smith+ 2022] “Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model” • [Schick+ 2021] “Itʼs Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners” • [Borgeaud+ 2021] “Improving language models by retrieving from trillions of tokens” • [Bommasani+ 2021] “On the Opportunities and Risks of Foundation Models” • [栗原+ 2022] “JGLUE: ⽇本語⾔語理解ベンチマーク” ⾔語処理学会 第28回年次⼤会 チュートリアル資料 (2022年3⽉) 132