ゼロから始める転移学習

82.1K Views

April 27, 22

スライド概要

言語処理学会第28回年次大会(NLP2022)のチュートリアルでの講演資料です。
https://www.anlp.jp/nlp2022/#tutorial

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

ゼロから始める転移学習ヤフー株式会社柴⽥知秀 [email protected] ⾔語処理学会第28回年次⼤会チュートリアル 22/03/14 13:00-14:45

⾃⼰紹介 • 柴⽥知秀 (しばたともひで) • 2007年〜京都⼤学⿊橋研究室助教・特定講師 • 2019年〜 Yahoo! JAPAN研究所上席研究員 • 研究分野: 深層学習を⽤いた⽇本語基礎解析 • 趣味: 将棋・囲碁 (どちらも有段者) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 2

謝辞 • チュートリアルの機会をいただきましたプログラム委員⻑河原先⽣, プログラム委員の皆様, ⼤会委員の皆様(特に秘書の皆様) に感謝いたします。 • 本資料はこれまでのいくつかの講演での資料をベースにしています。これまでの資料にコメントをいただきました京⼤⿊橋研の皆様、ヤフー株式会社の皆様に感謝いたします。⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 3

⾃然⾔語処理の急激な進展 • BERT(2018年)の登場以降、⽇々新しいモデルが提案されている • 状況を理解するのが⼤変 • 進歩が速い • 少し前の常識がくつがえされる • 初学者 (研究を始めたばかりの学⽣さん, 他分野から移られてきた⽅々)でもわかるように背景から説明 • 中・上級者にも有益な情報を提供 • 誤解しやすい部分 • プログラムを動かしてはじめて分かること⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 4

今⽇の最後にわかってほしいこと • ⾃然⾔語処理における転移学習の気持ち • Transformer QK T softmax( p )V dk <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> • encoder-decoder, encoderのみ, decoderのみ • 最近の動向⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 5

転移学習 (Transfer Learning) ソースターゲットトレーニングデータトレーニングデータソースで学習したモデルをターゲットに適応させるモデル Pre-training (事前学習) 具体的には、ソースで学習したモデルのパラメータを初期値としてターゲットで調整モデル Fine-tuning ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 6

ImageNetを⽤いた転移学習 (2014年頃〜) 1,000クラス 120万画像にタグ付け “Transfer learning with pre-trained deep convolutional neural networks for serous cell classification” [Baykal+ 2020] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 7

ImageNetを⽤いた転移学習 (2014年頃〜) ⾃然⾔語処理ではこれは何に相当するのだろう? 1,000クラス 120万画像にタグ付け “Transfer learning with pre-trained deep convolutional neural networks for serous cell classification” [Baykal+ 2020] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 8

BERT [Devlin+ 2018]: ⽳埋め問題をひたすら解く Wikipedia ＰＣＭ⾳源（ピー ##シー ##エムおん ##げん）は、コンパクトディスクなどで扱われるパルス符号変調技術を⽤いたデジタル ##シンセサイザーの⾳源⽅式のひとつ。あらかじめメモリに記録しておいたＰＣＭ波形（サンプル）を再⽣ … … ⾃動⾞競技は四輪の⾃動⾞あるいはそれに準ずる⾞両による競技に対して主に呼称され、オートバイやそれに準ずる⾞両の競技に対してはオートバイ競技やモーターサイクルレースなどと呼ばれる。⾃動⾞競技は操る⼈の … … … 9

10.

BERT [Devlin+ 2018]: ⽳埋め問題をひたすら解く⽳埋め問題を作るのは⼈⼿がかからない! Wikipedia ＰＣＭ⾳源（ピー ##シー ##エムおん ##げん）は、コンパクトディスクなどで扱われるパルス符号変調技術を⽤いたデジタル ##シンセサイザーの⾳源⽅式のひとつ。あらかじめメモリに記録しておいたＰＣＭ波形（サンプル）を再⽣ … … ⾃動⾞競技は四輪の⾃動⾞あるいはそれに準ずる⾞両による競技に対して主に呼称され、オートバイやそれに準ずる⾞両の競技に対してはオートバイ競技やモーターサイクルレースなどと呼ばれる。⾃動⾞競技は操る⼈の … … … 10

11.

画像・⾳声・⾔語トヨタはプリウスを発売した … https://jaedukseo.me/ppt/powerdeep.pdf ⼊⼒ブレークスルー http://www.mriaz.me/ 連続値離散値固定⻑可変⻑ AlexNet DNN-HMM (2012年) (2010年-) 課題: l 単語をベクトル (連続値)へ l 階層的な系列 (⽂字 → 単語 → ⽂ → ⽂章)の扱い Google翻訳 (2016年) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 11

12.

画像・⾳声・⾔語トヨタはプリウスを発売した … https://jaedukseo.me/ppt/powerdeep.pdf ⼊⼒ブレークスルー http://www.mriaz.me/ 連続値離散値固定⻑ AlexNet (2012年) 転移学習 (2014年-) 可変⻑ DNN-HMM (2010年-) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 課題: l 単語をベクトル (連続値)へ l 階層的な系列 (⽂字 → 単語 → ⽂ → ⽂章)の扱い Google翻訳 BERT (2016年) (2018年) 12

13.

深層学習による⾃然⾔語処理深層学習古典的機械学習転移学習単語 word2vec Glove ベクトル⾔語モデル単⾔語解析 ELMo GPT-2 LSTM RoBERTa GPT BERT ALBERT T5 FFN encoder- attention decoder 翻訳 2013 14 15 GPT-3 Transformer 16 17 18 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 19 20 13 21

14.

BERT [Devlin+ 2018] (Bidirectional Encoder Representations from Transformers) 1. Pre-training 2. Fine-tuning 転移学習 (学習データ: 数千万⽂〜) “⽳うめ問題” 放電正例を (学習データ: 数万⽂) タスク: 評判分析 negative BERT BERT [CLS] 電池が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう⽂B [CLS] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) この電池はすぐ 14 切れる

15.

https://gluebenchmark.com/leaderboard GLUE (⾔語理解タスク) [Wang+ 2018] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 15

https://gluebenchmark.com/leaderboard

16.

https://gluebenchmark.com/leaderboard GLUE (⾔語理解タスク) [Wang+ 2018] T5 (2019年): 90.3 ⼈間のスコア: 87.1 BERT (2018年): 80.5 ベースライン: 70.0 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 16

https://gluebenchmark.com/leaderboard

17.

本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題ライブラリ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 17

18.

⾔語モデル (Language Model) • ⽂の⽣成確率を定義するもの例: P( , , , ..., ) = P ( )P ( <latexit sha1_base64="xN9SPiXcco5lD7min8ERHCCS09s=">AAADQXicjVLLSuRAFD2JjjrtjLa6EWZhY6NMgzQ3IiiCILqZpY9pFXpEklitwXQSk3Rj2/oD/oALVzMgMvgV4sYfcOEnyGxEBRe6mJsyw6jxVUUlt07dc+rcqjI82wpCojNFbWj80NTc8jHV+ulzW3u6o3MucCu+KQqma7v+gqEHwrYcUQit0BYLni/0smGLeWNtMlqfrwo/sFzne1jzxGJZX3GskmXqIUNu2sEUvuIHyjDgYgP12hG2MYDMQ4zcJFYsVXpiNC97FOV4jPF4TjOXxKXu1nsy492Suc85zf3ztJTOUp5kyyQDLQ6yiNuUmz5gsWWWMlFhUQEHIcc2dATci9BA8BhbRJ0xnyNLrgveNsXcCmcJztAZXePvCs+KMerwPNIMJNvkXWwePjMz6KNT+k1XdEKHdE53L2rVpUbkpSaLllzhLbXvdM/evMkq8z/E6n/Wq55DlDAivVrs3ZNIVIV5z69u7l7Njs701fvpF/1h/z/pjI65Aqd6be5Pi5k9pPgCtKfHnQzmBvMa5bXpoez4SHwVLfiCXn4CGoYxjm/8HAowlQllVVlXfPVYPVcv1Mv7VFWJOV141NTbv0ObuI4=</latexit> • 利⽤⽅法 | )P ( | , )... • システムが⽣成した⽂がどれくらい正しそうか • 古典的⾳声認識 → ⾳響モデル X ⾔語モデル (⾳響との対⽐で「⾔語」) • 古典的機械翻訳 → 飜訳モデル X ⾔語モデル • ⽂⽣成: 確率にしたがって⽂を⽣成 • 確率の推定⽅法 • 最近はニューラルネットワークで (次ページ) 「⾔語をモデル化した」という意味で最近のモデル(BERTなど)を⾔語モデルと呼ぶことも多い (最後にまた⾔及します) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 18

19.

RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> 私 <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は U U W 1層のRNN (LSTMが多い) BOS .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> 学⽣です U U W 私 <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> W W は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 19

20.

RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> 私 U W 1層のRNN (LSTMが多い) 「私」のベクトル <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は U .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> 学⽣です U U W W W … 0 0・・ 0 1 0 ・・ BOS 私私は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 20

21.

RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> 私「私は」のベクトル U W 1層のRNN (LSTMが多い) 「私」のベクトル <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は U .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> 学⽣です U U W W W … 0 0・・ 0 1 0 ・・ BOS 私私は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 21

22.

RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥ <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> 私 <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> は「私は」のベクトル <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="+YtBoUekWQwurKdqXcPgzBdb2V8=">AAACZXichVHLSgMxFD0d3/XR+kAEF4pFcTWkUlRcCW5c9mFtQUVmxlRD58VMWtDiD4hbdeFKQUT8DDf+gIt+gYhLBTcuvDMdEBX1hiQnJ/fcnCS6awpfMtaMKW3tHZ1d3T3x3r7+gURycGjdd2qewYuGYzpeWdd8bgqbF6WQJi+7Htcs3eQlvboS7Jfq3POFY6/JfZdvWdquLSrC0CRReVXdTqaYysKY/AnSEUghiqyTvMYmduDAQA0WOGxIwiY0+NQ2kAaDS9wWGsR5hES4z3GIOGlrlMUpQyO2SuMurTYi1qZ1UNMP1QadYlL3SDmJafbAbtgLu2e37Im9/1qrEdYIvOzTrLe03N1OHI0V3v5VWTRL7H2q/vQsUcFi6FWQdzdkglsYLX394OylsJSfbsywS/ZM/i9Yk93RDez6q3GV4/lzxOkD0t+f+ydYn1PT82oml0ktL0Zf0Y1xTGGW3nsBy1hFFkU6t4JjnOA09qj0KyPKaCtViUWaYXwJZeID48aJ5Q==</latexit> 例えば3万次元学⽣です⾜して1になるように 0.1 ・・ 0.2 U W 1層のRNN (LSTMが多い) 「私」のベクトル W ・・ U U U ⼤規模なラベルなしテキストから学習 .. <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> W W … 0 0・・ 0 1 0 ・・ BOS 私私は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 22

23.

RNN⾔語モデル [Mikolov+ 2010] (Recurrent Neural Networks) P (私, は, 学生, ..., ) = P (私) ⇥ P (は | 私) ⇥ P (学生 | 私, は) ⇥注意: 先は⾒ることができない <latexit sha1_base64="kUXWw13KDrQihNhIrlb4ilNYbEs=">AAACuXichVLLLgRBFD3ae7wGG4mFiQlBZHJbBCESiY2l1yAZIt2thqanu9PdMzEmfsAPWFiRiIg/sBMbP2BhZ4sliY2F26UTjwlupbpPnbrn1qmH7lqmHxDdVSiVVdU1tXX1sYbGpuaWeGvbku/kPUOkDcdyvBVd84Vl2iIdmIElVlxPaDndEsv6znQ4v1wQnm869mJQdMVaTtu0zaxpaAFTTnwAs+jDKnLQ4WAXpeIV9jGIxFeOnHIuk813RWxKthD1c59EYj2epBTJSJQDNQJJRDHrxM+49AYXNpDnJQRsBIwtaPC5ZaCC4DK3hhJzHiNTzgu2EGNtnrMEZ2jM7vB3k0eZiLV5HNb0pdrgVSzuHisT6KFbOqdnuqELeqC3X2uVZI3QS1EegdQKd73loGPh9V9Vjv8Btj5Vf3oOkMWY9Gqyd1cy4S6MD31h7/B5YXy+p9RLJ/TE/o/pjq55B3bhxTidE/NHiPEFqD+PuxwsDaXUkdTw3HByaiy6ijp0opsfhIpRTGGGH0ea173EPR7wqEwomrKlbH+kKhWRph3fQvHfAW70mvk=</latexit> <latexit sha1_base64="cRA00Umq0Svvooe70ANX8ndn9oE=">AAACeXichVHLSsNQED2N7/po1Y3gRi2V6qLcqKi4Ety4tNY+oJaSxNsamhdJWqzFH/AHXLhRQaT6FeLGH3DRTxCXFVzowmkaEC3qXG4y99w5Z2buyJamOi5jzYDQ09vXPzA4FBweGR0Lhccn0o5ZsRWeUkzNtLOy5HBNNXjKVV2NZy2bS7qs8Yxc3mrfZ6rcdlTT2HNrFs/rUslQi6oiuQSVsYMY9qFDhokj1Gv3OMFCIRxhcebZTLcj+k4Evu2Y4RsSOSAJBRUS4zDgkq9BgkMrBxEMFmF51AmzyVO9e07pgsStUBSnCInQMn1LdMr5qEHntqbjsRXKotG2iTmDKHtiDdZij+yOPbOPX7Xqnka7lprXrMflViF0OpV8+5el09/F4Rfrz5pdFLHu1apS7ZaHtLtQOvzq8VkrubEbrc+zK/ZC9V+yJnugDozqq3Kd4LvnCNIAxJ/P3e2kl+LianwlsRLZXPdHMYhpzNFIRaxhE9s03hTlPcYFGrgNvAuzQkxY7IQKAZ8ziW8mLH8CGJ6POw==</latexit> <latexit sha1_base64="VlOuk/jTJFCer8NihFhMJycVs6M=">AAACjXichVHLSsNQED3Gd320PhaCm2Kp6KZMxBciIrjQpVZrC1Ukibc1mCYhSYu1+gMu3LpwpSAibt0qiBt/wIWfIC4V3LhwGgO+UOdyk7nnzjkzc0e1Dd31iO5rpNq6+obGpuZQS2tbezjS0bnsWkVHEynNMiwnoyquMHRTpDzdM0TGdoRSUA2RVjdnqvfpknBc3TKXvLItVgtK3tRzuqZ4DFmRbsxjACsoQIWFLVTIwi52PiPla0YG1yIxSpBv0Z+OHDgxBDZvRU5ZZJ0lNBRZTMCEx74BBS6vLGQQbMZWUWHMYU/37wWnCzG3yFGCIxRGN/mb51M2QE0+VzVdn61xFoO3w8wo4nRHZ/REt3ROD/T6q1bF16jWUvab9bnCXgvv9Sy+/Msq8N/Dxgfrz5o95DDu16pz7baPVLvQ3vml7YOnxYlkvNJPx/TI9R/RPd1wB2bpWTtZEMlDhHgA8vfn/uksDyXk0cTwwnBsejwYRRN60cdDljGGaczxwFOcdx8XuMSVFJZGpElp6j1Uqgk4Xfhi0uwbyhmTPQ==</latexit> <latexit sha1_base64="65eGHwP+C67CzQEst+DUzKOyYP4=">AAACo3ichVLLSsNQED3Gd3206kZwYbFUFKRMRFRcCW4EN9qHCrVIEm9raJqEJC3W6g/4Ay5cKYqIXyFuxK268BPEpYIbF05jwBfqXG4y99w5Z2YyUW1Ddz2i+wapsam5pbWtPdTR2dUdjvT0LrtW2dFERrMMy1lVFVcYuikynu4ZYtV2hFJSDbGiFufq9ysV4bi6Zaa9qi1yJaVg6nldUzyGrMggFjGCNZSgwsIWatl8eRC72PmMVS8YGUP0M0YWY6PrkRglyLfoT0cOnBgCW7QipyyywRIayiwmYMJj34ACl1cWMgg2YznUGHPY0/17welCzC1zlOAIhdEiPwt8ygaoyee6puuzNc5i8HaYGUWc7uiMnuiKzumBXn/Vqvka9VqqfrM+V9jr4b3+1Mu/rBK/PWx+sP6s2UMe036tOtdu+0i9C+2dX9nef0rNJOO1YTqiR67/kO7pkjswK8/ayZJIHiDEA5C/f+6fzvJ4Qp5MTCxNxGang1G0YQBDPHoZU5jFPP8GGc57jGvc4FaKSwtSUkq/h0oNAacPX0zKvQFFjZi5</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> <latexit sha1_base64="xliubG9wJ+kluJYl71YczYFrM7I=">AAACaXichVHLSgMxFD0dX7U+WnVTdFMcKq5KRkTFVcGNy/poLajIzBg1dl7MpAUt/oArd6KuFETEz3DjD7jwE8RlBTcuvDMdEBX1hiQnJ/fcnCSGZ4lAMvaUUDo6u7p7kr2pvv6BwXRmaLgSuHXf5GXTtVy/augBt4TDy1JIi1c9n+u2YfE1o7YQ7q81uB8I11mVBx7ftPVdR+wIU5dEVTaksHmwlVFZgUWR+wm0GKiIo+RmbrCBbbgwUYcNDgeSsAUdAbV1aGDwiNtEkzifkIj2OY6QIm2dsjhl6MTWaNyl1XrMOrQOawaR2qRTLOo+KXPIs0d2y1rsgd2xZ/b+a61mVCP0ckCz0dZybyt9nF15+1dl0yyx96n607PEDuYir4K8exET3sJs6xuHp62V+eV8c4JdsRfyf8me2D3dwGm8mtdLfPkCKfoA7ftz/wSVqYI2U5hemlaLc/FXJDGGcUzSe8+iiEWUUKZz93GCM5wnXpQhJauMtlOVRKwZwZdQ1A/DjYwv</latexit> (⾒るとカンニングになってしまう) 私は U U W 1層のRNN (LSTMが多い) BOS 「私は」のベクトル学⽣です U U W 私 W W は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 23

24.

本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題ライブラリ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 24

25.

機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 2014] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 25 student 2層の LSTM 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

26.

機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 2014] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 26 student 2層の LSTM 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

27.

機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 2014] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 27 student 2層の LSTM 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

28.

ビームサーチもよく使われる学習時と推論時学習時 I am … 0.02 … … 0.01… EOS I teacher-forcing 推論時正解単語 a student … 0.03 … … 0.01 … am a We are … 0.01 … … 0.03 … EOS ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) We 確率最⼤単語 students . … 0.02 … … 0.02 … are students 28

29.

encoder-decoder (seq2seq) [Sutskever+ 2014] 原⾔語⽂のベクトル表現問題: 特に⻑い⽂の場合に情報をすべて持つことができない私は学⽣です decoder I am a student EOS EOS I am a 29 student ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

30.

Attention 機構 [Bahdanau+ 2014, Luong+ 2015] 私は学⽣です I am a EOS I am ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) a 30

31.

Attention 機構 [Bahdanau+ 2014, Luong+ 2015] 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) a 31

32.

Attention 機構 [Bahdanau+ 2014, Luong+ 2015] フィードフォワードネットワークで計算 2.5 関連度 1.6 1.0 2.5 私は学⽣ 1.6 です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) a 32

33.

Attention 機構 [Bahdanau+ 2014, Luong+ 2015] フィードフォワードネットワークで計算⾜して1になるように正規化 (softmax) 2.5 0.2 0.1 0.5 0.2 1.6 1.0 2.5 1.6 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) a 33

34.

Attention 機構 [Bahdanau+ 2014, Luong+ 2015] contextベクトル attention スコア attentionスコアで重み付けしてベクトルを⾜すフィードフォワードネットワークで計算 2.5 0.2 0.1 0.5 0.2 1.6 1.0 2.5 1.6 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) a 34

35.

Attention 機構 [Bahdanau+ 2014, Luong+ 2015] → Google翻訳 (2016年) contextベクトル 0.2 0.1 0.5 私は学⽣ 0.2 です I am a EOS I am ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) student a 35

36.

その他のEncoder-Decoder • 要約: ⼊⼒⽂書 → 要約⽂ • サッカーのイングランド・プレミアリーグで2⽇、レスター・シティが初優勝を決めた。... → プレミアリーグでレスターが初優勝 • 対話: ユーザ発話 → システム発話 • ネットワークがつながらないのですが。 → 機種は何ですか? ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 36

37.

Transformer [Vaswani+ 2017] • “Attention is All You Need”というタイトルで有名 • LSTMを使わずにattentionだけで翻訳 • 2つの拡張 1. Query, Key, Value 2. Self-attention 1 5 .0 key query value 2 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 37

38.

I Transformerの全体像 am a student decoder #6 FFN encoder-decoder attention encoder #6 FFN self-attention encoder … decoder #1 self-attention … decoder FFN encoder #1 私 FFN encoder-decoder attention self-attention self-attention は学⽣です EOS I ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) am a 38

39.

I Transformerの全体像 am a student decoder #6 FFN encoder-decoder attention encoder #6 FFN self-attention decoder #1 … FFN FFN encoder-decoder attention self-attention self-attention encoder #1 私 self-attention … は学⽣です EOS I ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) am a 39

40.

1. Query, Key, Value Key - Valueデータベースへのアクセスを考える Query Key ⼈参ナスバナナ⼈参 Value 80円 50円 30円 80円⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 40

41.

1. Query, Key, Value Key - Valueデータベースへのアクセスを考える 0.4 Query 0.5 Key ⼈参ナスバナナ Value 80円 50円 30円 x0.4 0.1 x0.1 ⼈参野菜 80円 60円 x0.5 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 41

42.

1. Query, Key, Value 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) a 42

43.

1. Query, Key, Value query 名前をつけただけ私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) a 43

44.

1. Query, Key, Value フィードフォワードネットワークで計算 2.5 関連度 key 1.6 1.0 2.5 1.6 key key key key value value value value 私は学⽣です query 2つのベクトルにわけることにより表現⼒を上げる⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) query 名前をつけただけ a 44

45.

1. Query, Key, Value フィードフォワードネットワークで計算⾜して1になるように正規化 (softmax) 0.2 0.1 0.5 2.5 0.2 key 1.6 1.0 2.5 1.6 key key key key value value value value 私は学⽣です query 2つのベクトルにわけることにより表現⼒を上げる⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) query 名前をつけただけ a 45

46.

1. Query, Key, Value contextベクトルフィードフォワードネットワークで計算 attentionスコアで重み付けしてベクトルを⾜す 0.2 0.1 2.5 0.5 0.2 key 1.6 1.0 2.5 1.6 key key key key value value value value 私は学⽣です query 2つのベクトルにわけることにより表現⼒を上げる⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) query 名前をつけただけ a 46

47.

2. Self-Attention 通常のattention 0.2 0.1 0.5 Self-attention 0.2 0.2 0.1 0.5 0.2 私は学⽣です … 私は学⽣です a ⼆⾔語間で⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 単⾔語内で 47

48.

Q, K, V + Self-attention query key value 64 64 64 768 私は学⽣です 48

49.

Q, K, V + Self-attention p <latexit sha1_base64="kKacpGhHtVl88JRgBgcBf8petPQ=">AAACbXichVHLSsNAFD2N7/qqiiAoUiw+VuVGBMVVwY3LVq0WH5QkjjU0TWIyLWjpD7gWXIiCgoj4GW78ARd+grhwoeDGhbdpQFTUO8zMmTP33Dkzo7uW6Uuih4jS1NzS2tbeEe3s6u7pjfX1r/pO2TNE1nAsx8vpmi8s0xZZaUpL5FxPaCXdEmt6caG+v1YRnm869orcd8VWSSvY5o5paJKp9U1/z5PV7Xyxlo8lKElBxH8CNQQJhJF2YlfYxDYcGCijBAEbkrEFDT63DagguMxtocqcx8gM9gVqiLK2zFmCMzRmizwWeLURsjav6zX9QG3wKRZ3j5VxjNM9XdML3dENPdL7r7WqQY26l32e9YZWuPnew6Hlt39VJZ4ldj9Vf3qW2MFc4NVk727A1G9hNPSVg+OX5fml8eoEXdAT+z+nB7rlG9iVV+MyI5ZOEOUPUL8/90+wOp1UKalmZhKpufAr2jGMMUzxe88ihUWkkeVzbRzhFGeRZ2VQGVFGG6lKJNQM4Esokx//lY4c</latexit> dk で正規化 qとkの内積 1.6 13 1.0 8 2.5 20 1.6 13 は学⽣です = 関連度 query key value 64 64 64 768 私 49

50.

⽂脈を考慮した「学⽣」のベクトル Q, K, V + Self-attention softmax p dk で正規化 qとkの内積 <latexit sha1_base64="kKacpGhHtVl88JRgBgcBf8petPQ=">AAACbXichVHLSsNAFD2N7/qqiiAoUiw+VuVGBMVVwY3LVq0WH5QkjjU0TWIyLWjpD7gWXIiCgoj4GW78ARd+grhwoeDGhbdpQFTUO8zMmTP33Dkzo7uW6Uuih4jS1NzS2tbeEe3s6u7pjfX1r/pO2TNE1nAsx8vpmi8s0xZZaUpL5FxPaCXdEmt6caG+v1YRnm869orcd8VWSSvY5o5paJKp9U1/z5PV7Xyxlo8lKElBxH8CNQQJhJF2YlfYxDYcGCijBAEbkrEFDT63DagguMxtocqcx8gM9gVqiLK2zFmCMzRmizwWeLURsjav6zX9QG3wKRZ3j5VxjNM9XdML3dENPdL7r7WqQY26l32e9YZWuPnew6Hlt39VJZ4ldj9Vf3qW2MFc4NVk727A1G9hNPSVg+OX5fml8eoEXdAT+z+nB7rlG9iVV+MyI5ZOEOUPUL8/90+wOp1UKalmZhKpufAr2jGMMUzxe88ihUWkkeVzbRzhFGeRZ2VQGVFGG6lKJNQM4Esokx//lY4c</latexit> × 0.2 ×0.1 ×0.5 ×0.2 1.6 13 1.0 8 2.5 20 1.6 13 は学⽣です = 関連度 query key value 64 64 64 768 私 50

51.

⽂脈を考慮した「学⽣」のベクトル Q, K, V + Self-attention softmax p dk で正規化 qとkの内積 <latexit sha1_base64="kKacpGhHtVl88JRgBgcBf8petPQ=">AAACbXichVHLSsNAFD2N7/qqiiAoUiw+VuVGBMVVwY3LVq0WH5QkjjU0TWIyLWjpD7gWXIiCgoj4GW78ARd+grhwoeDGhbdpQFTUO8zMmTP33Dkzo7uW6Uuih4jS1NzS2tbeEe3s6u7pjfX1r/pO2TNE1nAsx8vpmi8s0xZZaUpL5FxPaCXdEmt6caG+v1YRnm869orcd8VWSSvY5o5paJKp9U1/z5PV7Xyxlo8lKElBxH8CNQQJhJF2YlfYxDYcGCijBAEbkrEFDT63DagguMxtocqcx8gM9gVqiLK2zFmCMzRmizwWeLURsjav6zX9QG3wKRZ3j5VxjNM9XdML3dENPdL7r7WqQY26l32e9YZWuPnew6Hlt39VJZ4ldj9Vf3qW2MFc4NVk727A1G9hNPSVg+OX5fml8eoEXdAT+z+nB7rlG9iVV+MyI5ZOEOUPUL8/90+wOp1UKalmZhKpufAr2jGMMUzxe88ihUWkkeVzbRzhFGeRZ2VQGVFGG6lKJNQM4Esokx//lY4c</latexit> 「私」「は」「です」についても同じことをする × 0.2 ×0.1 ×0.5 ×0.2 1.6 13 1.0 8 2.5 20 1.6 13 は学⽣です 1. 並列計算可能 2. 遠くまで⾒ることができる = 関連度 query key value 64 64 64 768 私 51

52.

⾏列で記述 T QK softmax( p )V dk ？ <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 52

53.

私は学⽣です QK T softmax( p )V dk KT <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> Q私 ( softmax は学⽣です x p 私は学⽣です <latexit sha1_base64="OrstIRGffw1Um2laVMCLMnw9QUU=">AAACbXichVHLSsNAFD2N7/qqiiAoIhYfq3IjgiIuCm5cVmtVfFCSOGpomsRkWqilP+BacCEKCiLiZ7jxB1z0E8SFCwU3LrxNA6Ki3mFmzpy5586ZGd21TF8SVSNKQ2NTc0trW7S9o7OrO9bTu+o7Bc8QGcOxHG9d13xhmbbISFNaYt31hJbXLbGm5xZq+2tF4fmmY6/Ikiu289qebe6ahiaZ2tjyDzxZ3snmKtlYnBIUxMhPoIYgjjBSTuwaW9iBAwMF5CFgQzK2oMHntgkVBJe5bZSZ8xiZwb5ABVHWFjhLcIbGbI7HPV5thqzN61pNP1AbfIrF3WPlCMbogW7ohe7plh7p/dda5aBGzUuJZ72uFW62+2gg/favKs+zxP6n6k/PEruYDbya7N0NmNotjLq+eHjykp5bHiuP0yU9sf8LqtId38AuvhpXS2L5FFH+APX7c/8Eq1MJlRLq0nQ8OR9+RSsGMYpJfu8ZJLGIFDJ8ro1jnOE88qz0K0PKcD1ViYSaPnwJZeIDANiOIA==</latexit> 私 0.2 0.1 0.6 0.1 は 0.1 0.7 0.1 0.1 学⽣ 0.2 0.1 0.5 0.2 です 0.1 0.1 0.1 0.7 dk V私 . は学⽣です ) 53

54.

55.

私は学⽣です QK T softmax( p )V dk KT <latexit sha1_base64="SftefrAHw27vGk0XRSFd/sPtb7o=">AAACj3ichVFNSxtBGH5ca9VUm6gXoRdpiMQewrtFUDxIwIvSi9F8CCYNu+skXbJf7k6Cuuwf8OTNg6cWShHvvbbQS/9AD/kJ4tFCLz34ZrNQWtG+w8w888z7vPPMjO5ZZiCJ+iPK6JOxp+MTk6lnU9PP05mZ2Wrgdn1DVAzXcv09XQuEZTqiIk1piT3PF5qtW6KmdzYG+7We8APTdcry2BMNW2s7Zss0NMlUM/OqLsWR7Hph4LakrR1F+XrL14yw9OZtOQrrwaEvw4NmJ4qWqs1MlgoUx8J9oCYgiyS23cwn1HEAFwa6sCHgQDK2oCHgtg8VBI+5BkLmfEZmvC8QIcXaLmcJztCY7fDY5tV+wjq8HtQMYrXBp1jcfVYuIEc/6JJu6Ttd0TX9frBWGNcYeDnmWR9qhddMn87v/vqvyuZZ4t0f1aOeJVpYjb2a7N2LmcEtjKG+d3J+u7u2kwsX6QPdsP/31KdvfAOn99P4WBI7F0jxB6j/Pvd9UH1dUKmglpazxc3kKybwAi+R5/deQRGb2EaFzz3DZ3zBV2VGWVHWleIwVRlJNHP4K5StOyhgm3s=</latexit> Q私 ( softmax は学⽣です x p <latexit sha1_base64="OrstIRGffw1Um2laVMCLMnw9QUU=">AAACbXichVHLSsNAFD2N7/qqiiAoIhYfq3IjgiIuCm5cVmtVfFCSOGpomsRkWqilP+BacCEKCiLiZ7jxB1z0E8SFCwU3LrxNA6Ki3mFmzpy5586ZGd21TF8SVSNKQ2NTc0trW7S9o7OrO9bTu+o7Bc8QGcOxHG9d13xhmbbISFNaYt31hJbXLbGm5xZq+2tF4fmmY6/Ikiu289qebe6ahiaZ2tjyDzxZ3snmKtlYnBIUxMhPoIYgjjBSTuwaW9iBAwMF5CFgQzK2oMHntgkVBJe5bZSZ8xiZwb5ABVHWFjhLcIbGbI7HPV5thqzN61pNP1AbfIrF3WPlCMbogW7ohe7plh7p/dda5aBGzUuJZ72uFW62+2gg/favKs+zxP6n6k/PEruYDbya7N0NmNotjLq+eHjykp5bHiuP0yU9sf8LqtId38AuvhpXS2L5FFH+APX7c/8Eq1MJlRLq0nQ8OR9+RSsGMYpJfu8ZJLGIFDJ8ro1jnOE88qz0K0PKcD1ViYSaPnwJZeIDANiOIA==</latexit> 私は学⽣です V私は学⽣です ) dk 私 0.2 0.1 0.6 0.1 Z私は 0.1 0.7 0.1 0.1 学⽣ 0.2 0.1 0.5 0.2 です 0.1 0.1 0.1 0.7 は学⽣です「学⽣」から他の単語への attentionスコア . ＝ 55

56.

さまざまな⽂脈を考慮した「学⽣」のベクトル Multiple Heads 0.2 0.1 Head 0 Head 1 … … 0.5 0.2 0.1 0.1 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> 私は学⽣です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私は⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 学⽣です <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit> 56

57.

Position Embedding • LSTMと異なり位置情報が考慮されない → 位置情報をembeddingで与える私 Token Embeddings は学⽣です学習パラメータ私＋は＋学⽣＋です＋ Position Embeddings 固定値 (BERTでは学習パラメータ) 0 ⾔語処理学会第28回年次⼤会 1 チュートリアル資料2(2022年3⽉) 3 57

58.

Transformerブロックの詳細 768 FFN さまざまな⽂脈を考慮した「学⽣」のベクトル 768 Head 0 self-attention 0.2 768 私 0.1 … 0.5 Head 1 0.2 0.1 0.1 … 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> は学⽣です <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> 私は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私は学⽣です 58 <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit>

59.

Transformerブロックの詳細 Transformerにおけるフィードフォワードネットの作⽤⼩林 (東北⼤)+, NLP2022 768 768 FFN 3072 FFN FFN FFN 各位置で同じ FFNを適⽤ 768 さまざまな⽂脈を考慮した「学⽣」のベクトル 768 Head 0 self-attention 0.2 768 私 0.1 … 0.5 Head 1 0.2 0.1 0.1 … 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> は学⽣です <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> 私は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私は学⽣です 59 <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit>

60.

Transformerブロックの詳細 Transformerにおけるフィードフォワードネットの作⽤⼩林 (東北⼤)+, NLP2022 768 768 ＋ FFN ＋ 3072 FFN FFN FFN 各位置で同じ FFNを適⽤ 768 さまざまな⽂脈を考慮した「学⽣」のベクトル 768 Head 0 self-attention residual connection 0.2 768 私 0.1 … 0.5 Head 1 0.2 0.1 0.1 … 0.1 0.7 W0Q W1Q … W0K W0V W1K W1V <latexit sha1_base64="1Zlh5AoT+VEELNwSZj0NvaAtXm0=">AAACaHichVHLSsNAFD2Nr1pfVRcqbsSiuCo3IiiuCm5ctmqs4KMkcdShaRKStFCLP+DGpYorBRHxM9z4Ay78BHWp4MaFN2lAVNQ7zMyZM/fcOTNjuJb0A6KHhNLS2tbekexMdXX39Pal+wdWfafqmUIzHcvx1gzdF5a0hRbIwBJrrif0imGJolFeCPeLNeH50rFXgrorNiv6ri13pKkHTGnFkrpVKKUzlKUoxn4CNQYZxJF30lfYwDYcmKiiAgEbAWMLOnxu61BBcJnbRIM5j5GM9gUOkGJtlbMEZ+jMlnnc5dV6zNq8Dmv6kdrkUyzuHivHMEH3dE0vdEc39Ejvv9ZqRDVCL3WejaZWuKW+w+Hlt39VFZ4D7H2q/vQcYAdzkVfJ3t2ICW9hNvW1/eOX5fmlicYkXdAz+z+nB7rlG9i1V/OyIJbOkOIPUL8/90+wOp1VKasWZjK5ufgrkhjFOKb4vWeRwyLy0PhciSOc4DTxpKSVIWWkmaokYs0gvoQy/gHIPIs0</latexit> <latexit sha1_base64="U2kVNsZoVPAzWj3IKjC9oz6ykTM=">AAACaHichVHLSsNAFD2N7/po1YWKG7EorsqNCBZXghuXVk0r+ChJHHVomoQkLWjxB9y4VHGlICJ+hht/wEU/QV0quHHhTRoQFfUOM3PmzD13zswYriX9gKiRUFpa29o7OruS3T29fal0/0DBd6qeKTTTsRxvzdB9YUlbaIEMLLHmekKvGJYoGuWFcL9YE54vHXs12HfFZkXfteWONPWAKa1Yoq18KZ2hLEUx9hOoMcggjiUnfY0NbMOBiSoqELARMLagw+e2DhUEl7lN1JnzGMloX+AQSdZWOUtwhs5smcddXq3HrM3rsKYfqU0+xeLusXIME/RAN/RC93RLj/T+a616VCP0ss+z0dQKt5Q6Gl55+1dV4TnA3qfqT88BdpCLvEr27kZMeAuzqa8dnLyszC1P1Cfpkp7Z/wU16I5vYNdezau8WD5Hkj9A/f7cP0FhOqtSVs3PZOZz8Vd0YhTjmOL3nsU8FrEEjc+VOMYpzhJPSloZUkaaqUoi1gziSyjjH8Y6izM=</latexit> は学⽣です <latexit sha1_base64="AJE8rUsaXLacBURzeoRgWDI0rwc=">AAACaHichVFNLwNBGH66vuujxQFxkTbEqXlXJBqnJi4SF1RVUjS7azDpdnezu21SjT/g4og4kYiIn+HiDzj0J+BI4uLg7XYTQfBOZuaZZ97nnWdmdMeUnk/UiCht7R2dXd090d6+/oFYfHBo3bMrriFyhm3a7oauecKUlsj50jfFhuMKraybIq+XFpr7+apwPWlba37NEVtlbc+Su9LQfKZy+aK6vVSMJylFQUz8BGoIkghj2Y5fYxM7sGGggjIELPiMTWjwuBWgguAwt4U6cy4jGewLHCLK2gpnCc7QmC3xuMerQshavG7W9AK1waeY3F1WTmCSHuiGXuiebumR3n+tVQ9qNL3UeNZbWuEUY0ej2bd/VWWefex/qv707GMX6cCrZO9OwDRvYbT01YOTl+z86mR9ii7pmf1fUIPu+AZW9dW4WhGr54jyB6jfn/snWJ9JqZRSV2aTmXT4Fd0YRwLT/N5zyGARy8jxuRLHOMVZ5EmJKyPKWCtViYSaYXwJJfEBvDyLLg==</latexit> <latexit sha1_base64="bgxT8+AzShHd7Xfx0uD29itKIKc=">AAACaHichVG7SgNBFD1Z3/GRVQsVm2BQrMJdERQrwUaw8RUT0Bh211EH98XuJqDBH7CxVLFSEBE/w8YfsPAT1FLBxsKbzYJoUO8wM2fO3HPnzIzhWTIIiR4TSlNzS2tbe0eys6u7J6X29q0Fbtk3Rc50LdcvGHogLOmIXChDSxQ8X+i2YYm8sTdX289XhB9I11kN9z1RtPUdR25LUw+ZyuVLtLlQUjOUpSjSjUCLQQZxLLrqNTawBRcmyrAh4CBkbEFHwG0dGggec0VUmfMZyWhf4BBJ1pY5S3CGzuwejzu8Wo9Zh9e1mkGkNvkUi7vPyjRG6YFu6JXu6Zae6OPXWtWoRs3LPs9GXSu8UupocOX9X5XNc4jdL9WfnkNsYzryKtm7FzG1W5h1feXg5HVlZnm0OkaX9ML+L+iR7vgGTuXNvFoSy+dI8gdoP5+7EaxNZDXKakuTmdnp+CvaMYwRjPN7T2EW81hEjs+VOMYpzhLPiqoMKEP1VCURa/rxLZSRT7o6iy0=</latexit> (⼊⼒との差分を学習するようになる) 私は学⽣⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) です <latexit sha1_base64="XiPRn8pKGaDYkQX6oHLhxH2Qa6g=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyuRNvZUixJaQoi3g7UECQRxqodu8EWdmDDQBUVCFjwGZvQ4HErQAXBYa6IOnMuIxnsCxwhytoqZwnO0Jgt87jHq0LIWrxu1vQCtcGnmNxdVsaRoke6pQY90B0908evtepBjaaXA571llY4peHjiY33f1UVnn3sf6n+9OxjFwuBV8nenYBp3sJo6WuHp42NxfVUfZqu6JX9X9IT3fMNrNqbcb0m1i8Q5Q9Qfz53O8jOplVKq2tzyaWF8Ct6MYUEZvi957GEFawiw+dKnOAM55EXJaaMK5OtVCUSasbwLZTEJ9A6izg=</latexit> 私は学⽣です 60 <latexit sha1_base64="VwQ3W67gjLVKUn7muWPcpiK8FeM=">AAACaHichVG7SgNBFD1Z3/EVtVCxCQkRq3BXBMVKsLH0lQfEGHbXUYdsdpfdTUCDP2BjqWKlICJ+ho0/YOEnqGUEGwtvNguiQb3DzJw5c8+dMzO6Y0rPJ3qKKB2dXd09vX3R/oHBoeHYyGjWs6uuITKGbdpuXtc8YUpLZHzpmyLvuEKr6KbI6eXl5n6uJlxP2tamf+CIYkXbs+SuNDSfqUyupG5nS7EkpSmIeDtQQ5BEGKt27AZb2IENA1VUIGDBZ2xCg8etABUEh7ki6sy5jGSwL3CEKGurnCU4Q2O2zOMerwoha/G6WdML1AafYnJ3WRlHih7plhr0QHf0TB+/1qoHNZpeDnjWW1rhlIaPJzbe/1VVePax/6X607OPXSwEXiV7dwKmeQujpa8dnjY2FtdT9Wm6olf2f0lPdM83sGpvxvWaWL9AlD9A/fnc7SA7m1Ypra7NJZcWwq/oxRQSmOH3nscSVrCKDJ8rcYIznEdelJgyrky2UpVIqBnDt1ASn9I8izk=</latexit>

61.

student Transformerの全体像 decoder #6 FFN encoder #6 encoder-decoder attention FFN self-attention decoder #1 … FFN FFN encoder-decoder attention self-attention self-attention encoder #1 私 self-attention … は学⽣です EOS I ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) am a 61

62.

I Transformerの全体像 am decoder #6 FFN encoder #6 encoder-decoder attention FFN self-attention decoder #1 … FFN FFN encoder-decoder attention self-attention self-attention encoder #1 私 self-attention … は学⽣です EOS I ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) am a 62

63.

LSTM vs Transformer FFN self-attention … FFN self-attention 私は学⽣です⼀単語ずつしか情報を伝えることができない何層積み重ねても同じ伝え⽅しかできない⼀歩ずつしか計算できない精度は数層で頭打ち私は学⽣です遠くの単語の情報を⾒ることができる各層で異なることができる並列計算可能数⼗層にしてもまだまだ上がる⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 63

64.

機械翻訳がなぜうまくいったのか? • 深層学習はData Hungry • 機械翻訳: 数百万〜数千万ペア • すでに存在しているデータを使える • ラベル: ⾃然⾔語増やせば解決、というわけにはいかない • 京⼤コーパス: 新聞記事約4万⽂ • ラベル: (⼈⼯的な)カテゴリ → ⼀貫したラベル付与が難しい九四年度の「減収減益」社数は .. 名詞接尾辞助詞特殊名詞名詞特殊接尾辞名詞助詞⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 64

65.

本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題ライブラリ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 65

66.

単⾔語解析 (2017-18年) 深層学習古典的機械学習転移学習単語 word2vec Glove ベクトル⾔語モデル単⾔語解析 ELMo GPT-2 LSTM RoBERTa GPT BERT ALBERT T5 FFN encoder- attention decoder 翻訳 2013 14 15 GPT-3 Transformer 16 17 18 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 19 20 66 21

67.

単⾔語解析 (2017-18年) Pre-training 下流タスク単語ベクトルの学習ネガティブ (word2vec [Mikolov+ ⽂脈レベルの情報の学習は 13]) 下流タスクの学習データのみ = 通常数万⽂電池初期値が … ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) すぐ Bi-LSTMで⽂脈を考慮切れる 67

68.

Self-Supervised Learning (⾃⼰教師あり学習) • ⾃分⾃⾝(⼊⼒データ)からラベルを⾃動⽣成 word2vec GPT-n BERT りんご正例昨⽇彼はりんごを⾷べた負例昨⽇彼はりんごを⾷べたツバメ → ⼤規模データが使える昨⽇彼は [MASK] を⾷べた⾔語モデル⽇本語Wikipedia 約2,000万⽂⽇本語Webテキスト 1〜100億⽂⽬的はこれらのタスクを解くことによってよいベクトル表現を得ること⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 68

69.

転移学習 (Transfer Learning) タスク: ⾔語モデルソーストレーニングデータタスク: 評判分析ターゲットトレーニングデータ Self-supervised Learning モデルソースで学習したモデルのパラメータを初期値としてターゲットで微調整モデル Pre-training Fine-tuning (事前学習) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 69

70.

71.

これまでの深層学習 vs 転移学習これまでの深層学習転移学習 GPT-1, BERT ⼤規模テキストで事前学習固有表現解析固有表現解析 word2vec, ELMo ⼤規模テキストで事前学習機械読解機械読解 Published as a conference paper at ICLR 2017 Start End Dense + Softmax LSTM + Softmax Query2Context Softmax uJ m2 mT u2 u1 LSTM m1 Max Output Layer LSTM Modeling Layer h1 h2 g2 g1 Attention Flow Layer gT hT モデル Context2Query uJ u1 uJ u2 u1 LSTM LSTM hT Softmax Attention h2 h1 h2 Word Embed Layer • 事前学習したベクトルを素性として⽤いる • タスクごとにモデルが異なるモデル Query2Context and Context2Query h1 Contextual Embed Layer モデル Character Embed Layer x1 x2 x3 Context xT qJ q1 hT Word Embedding Character Embedding GLOVE Char-CNN Query BiDAF [Seo+ 2016] Figure 1: BiDirectional Attention Flow Model (best viewed in color) query-aware context representation (the output of the attention layer). It also allows the attention at each time step to be unaffected from incorrect attendances at previous time steps. Our experiments show that memory-less attention gives a clear advantage over dynamic attention. Third, we use attention mechanisms in both directions, query-to-context and context-to-query, which provide complimentary information to each other. … Our B I DAF model1 outperforms all previous approaches on the highly-competitive Stanford Question Answering Dataset (SQuAD) test set leaderboard at the time of submission. With a modification to only the output layer, B I DAF achieves the state-of-the-art results on the CNN/DailyMail cloze test. We also provide an in-depth ablation study of our model on the SQuAD development set, vi- すべてのタスクで同じモデルを⽤いる⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) … 71

72.

BERT [Devlin+ 2018] (Bidirectional Encoder Representations from Transformers) 1. Pre-training 2. Fine-tuning (学習データ: 数千万⽂〜) “2⽂が隣接しているかどうか” “⽳うめ問題” 放電正例 (学習データ: 数万⽂) をタスク: 評判分析 negative BERT BERT [CLS] 電池が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう⽂B [CLS] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) この電池はすぐ 72 切れる

73.

Transformerという箱を学習⽂脈を考慮した「電池」のベクトル negative ⽂全体を表すベクトル FFN BERT [CLS] この電池は⼊⼒サブワード列 self-attention すぐ切れる⽂脈を考慮しない「電池」のベクトル⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 73

74.

BERT [Devlin+ 2018] ポイント1 (Bidirectional Encoder Representations from Transformers) 1. Pre-training ポイント2 2. Fine-tuning (学習データ: 数千万⽂〜) “2⽂が隣接しているかどうか” “⽳うめ問題” 放電正例 (学習データ: 数万⽂) をタスク: 評判分析 negative BERT BERT [CLS] 電池が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう⽂B [CLS] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) この電池はすぐ 74 切れる

75.

機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 14] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 75 student 2層の LSTM 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

76.

BERT [Devlin+ 2018] ポイント1 (Bidirectional Encoder Representations from Transformers) ポイント4 1. Pre-training (学習データ: 数千万⽂〜) “2⽂が隣接しているかどうか” ポイント3: Self-supervised Learning “⽳うめ問題” 放電正例ポイント2 を 2. Fine-tuning (学習データ: 数万⽂) タスク: 評判分析 negative BERT BERT [CLS] 電池が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう⽂B [CLS] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) この電池はすぐ 76 切れる

77.

1. Pre-training GPT-1[Radford+ 2018.8] の消耗が negative 激しい (Generative Pre-Training) タスク: ⾔語モデル (decoderと同じ) タスク例: 評判分析 2. Fine-tuning … … GPT-1 GPT-1 … … 電池の消耗がこの … 電池はすぐ … 前しか参照できない negative 消耗 BERT [Devlin+ 2018.10] … … BERT タスク: ⽳埋め問題 BERT … [CLS] 電池の [MASK] が … … [CLS] 前も後ろも参照できる! (マスクした単語が⼊⼒にないので) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) この電池はすぐ … 77

78.

BERT [Devlin+ 2018] ポイント1 (Bidirectional Encoder Representations from Transformers) ポイント4 1. Pre-training (学習データ: 数千万⽂〜) “2⽂が隣接しているかどうか” 2. Fine-tuning ポイント3: ⾃⼰教師あり学習 “⽳うめ問題” 放電正例ポイント2 を (学習データ: 数万⽂) タスク: 評判分析 negative BERT BERT [CLS] 電池が [MASK] ⽂A で … [SEP] 機能 [MASK] 損なう [CLS] この電池ポイント5: 同じモデルを使い回す⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) ⽂B はすぐ 78 切れる

79.

negative ⼊⼒表現 BERT ⼊⼒全体のベクトル⽤ Segment Embeddings Position Embeddings [CLS] この電池はすぐ切れる⼊⼒サブワード列セグメントの句切れ⽬もともと⼀単語 (後述) subword 電池が放電で消耗する機能を損 ##なう E[CLS] E電池 Eが E放電 Eで E消耗 Eする E[SEP] E機能 Eを E損 E##なう E[SEP] [CLS] Token Embeddings ⽂章A と⽂章B 質問と段落など ※ 必ずしも1⽂ではない [SEP] [SEP] ＋＋＋＋＋＋＋＋＋＋＋＋＋ EA EA EA EA EA EA EA EA EB EB EB EB EB ＋＋＋＋＋＋＋＋＋＋＋＋＋ E0 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 79 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

80.

768 ⼊⼒表現 [CLS] 電池 [CLS] [SEP] 放電でがのが消耗する [SEP] 機能を損 ##なう Eを E損 E##なう E[SEP] ＋＋＋＋ [SEP] 32,000 … Token Embeddings Segment Embeddings Position Embeddings E[CLS] E電池 Eが E放電 Eで E消耗 Eする E[SEP] E機能電池 … ＋＋＋＋＋＋＋＋＋ EA EA EA EA EA EA EA EA EB EB EB EB EB ＋＋＋＋＋＋＋＋＋＋＋＋＋ E0 E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 80 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

81.

モデルパラメータ数: 約1億パラメータ数: 約3億 BERTBASE BERTLARGE … L=24 BERT … L=12 BERT H=768 A=16 A=12 (ヘッドの数) 512 token (約10⽂) H=1024 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 512 token 81

82.

パラメータ数の詳細 (主要なパラメータのみ) パラメータ数: 約1億 BERTBASE 7.2M x 12層 = 84M L=12 FFN BERT self-attention word embedding H=768 3072 x 768 = 2.4M 768 x 3072 = 2.4M 768 x 768 x 3 = 1.8M Q, K, V position embedding 768 768 [CLS] 0 [SEP] がの 32,000 … 電池 … 768 x 32000 = 23M ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 1 2 3 512 … 768 x 512 = 0.4M 82 7.2M

83.

Pre-training • 以下の2つのタスクでpre-training 1. Masked Language Model 2. Next Sentence Prediction • どちらもself-supervised learning • 2つのタスクは同時に⾏う⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 83

84.

1. Masked Language Model • ⼊⼒⽂においてランダムに選んだトークンをマスク (⼊⼒の15%) • マスクされたトークンを⽂脈から推測 • 統語・意味的な表現を学習することが求められる放電 [CLS] 電池 ※正確にはどちらも数⽂が [MASK] で消耗する [SEP] 機能⽂A ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) を [MASK] ⽂B 損 ##なう [SEP] 84

85.

2. Next Sentence Prediction ただし、これは後の研究であまり有効ではないとされている • 含意関係認識や質問応答では2⽂間の関係を捉える必要がある • ⽂Aと後続する⽂B(正例)、または、ランダムに選んだ⽂(負例) を連結し、これらを識別する問題を解く正例 [CLS] 電池 ※正確にはどちらも数⽂が [MASK] ⽂A で消耗する [SEP] 機能⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) [MASK] ⽂B 損 ##なう [SEP] 85

86.

Pre-Training (英語) 256 sequences • コーパス … • BookCorpus (800M words) • English Wikipedia (2,500M words) • バッチサイズ • 256 sequences * 512 tokens • トレーニング時間 • BERTBASE: 4 TPUS Pod (16 TPU chips) → 4⽇ • BERTLARGE: 16 TPUS Pod (64 TPU chips) → 4⽇ 512 tokens • 40 ‒ 70 days with 8 GPUs 誰かが⼀度⾏えばよいだけ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 86

87.

Fine-Tuning (1/2) 含意含意⽭盾中⽴ • 解きたいタスクに応じた最終層を追加 • 最終層のパラメータとTransformerのパラメータを更新⽂ペア分類問題 (例: 含意関係認識) 3, 4エポック, 数⼗分から数時間 [CLS] 彼はバナナ⽂A を⾷べた [SEP] 彼は⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 果物⽂B を⾷べた [SEP] 87

88.

Fine-Tuning (2/2) ⽂ペア分類問題 (例: 含意関係認識) 1⽂分類問題 (例: 極性判定) positive 含意 … … … … … … … … … … … … … … … … … … [CLS] 彼 … ⾷べた [SEP] 彼 … ⾷べた [SEP] [CLS] この PC は丈夫 ##で軽い。 [SEP] スパン抽出 (例: 機械読解) 系列ラベリング (例: 固有表現解析) Start/End Span O B-LOC O O O … … … … … … … [CLS] 東京⼤学⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) は東京にある。 88 [SEP] B-ORG I-ORG … … … … … … … … … [CLS] … どこ？ [SEP] … 東京 … [SEP] … …

89.

実験結果 (GLUE) System MNLI-(m/mm) 392k Pre-OpenAI SOTA 80.6/80.1 BiLSTM+ELMo+Attn 76.4/76.1 OpenAI GPT 82.1/81.4 BERTBASE 84.6/83.4 BERTLARGE 86.7/85.9 QQP 363k 66.1 64.8 70.3 71.2 72.1 QNLI 108k 82.3 79.8 87.4 90.5 92.7 SST-2 67k 93.2 90.4 91.3 93.5 94.9 CoLA 8.5k 35.0 36.0 45.4 52.1 60.5 STS-B 5.7k 81.0 73.3 80.0 85.8 86.5 MRPC 3.5k 86.0 84.9 82.3 88.9 89.3 RTE 2.5k 61.7 56.8 56.0 66.4 70.1 Average 74.0 71.0 75.1 79.6 82.1 ⼤幅な精度向上モデルサイズが⼤きい⽅ Table 1: GLUE Test results, scored by the evaluation server (https://gluebenchmark.com/leaderboard ). が⼀貫して精度が良い The number below each task denotes the number of training examples. The “Average” column is slightly different than the official GLUE score, since we exclude the problematic WNLI set.8 BERT and OpenAI GPT are singlemodel, single task. F1 scores are reported for QQP and MRPC, Spearman correlations are reported for STS-B, and accuracy scores are reported for the other tasks. We exclude entries that use BERT as one of their components. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” [Devlin+ 18]より引⽤ We use a batch size of 32 and fine-tune for 3 Wikipedia containing the answer, the task is to ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 89

https://gluebenchmark.com/leaderboard

90.

実験結果: 機械読解 SQuAD [Rajpurkar+ 2016] Start End Dense + Softmax LSTM + Softmax Query2Context Softmax uJ m2 mT u2 u1 LSTM m1 Max BiDAF Output Layer LSTM Modeling Layer F1: 77.3 hT Context2Query uJ Attention h2 u1 hT uJ u2 u1 LSTM h1 Contextual Embed Layer gT Query2Context and Context2Query Softmax [Seo+ 2016] h1 h2 g2 g1 Attention Flow Layer LSTM In meteorology, precipitation is any product of the condensation of atmospheric water vapor that falls under gravity. The main forms of precipitation include drizzle, rain, sleet, snow, graupel and hail... Precipitation forms as smaller droplets coalesce via collision with other rain drops or ice crystals within a cloud. Short, intense periods of rain in scattered locations are called “showers”. Published as a conference paper at ICLR 2017 h1 h2 Word Embed Layer Character Embed Layer Published as a conference paper atx2ICLR x1 x3 2018 xT qJ q1 Context hT Word Embedding Character Embedding GLOVE Char-CNN Query タスク固有のネットワーク (どんどん複雑化) Figure 1: BiDirectional Attention Flow Model (best viewed in color) query-aware context representation (the output of the attention layer). It also allows the attention at each time step to be unaffected from incorrect attendances at previous time steps. Our experiments show that memory-less attention gives a clear advantage over dynamic attention. Third, we use attention mechanisms in both directions, query-to-context and context-to-query, which provide complimentary information to each other. QANet [Yu+ 2018] F1: 89.3 Our B I DAF model1 outperforms all previous approaches on the highly-competitive Stanford Question Answering Dataset (SQuAD) test set leaderboard at the time of submission. With a modification to only the output layer, B I DAF achieves the state-of-the-art results on the CNN/DailyMail cloze test. We also provide an in-depth ablation study of our model on the SQuAD development set, visualize the intermediate feature spaces in our model, and analyse its performance as compared to a more traditional language model for machine comprehension (Rajpurkar et al., 2016). 2 “鰻屋の鰻” M ODEL Our machine comprehension model is a hierarchical multi-stage process and consists of six layers (Figure 1): 1. Character Embedding Layer maps each word to a vector space using character-level CNNs. 2. Word Embedding Layer maps each word to a vector space using a pre-trained word embedding model. 3. Contextual Embedding Layer utilizes contextual cues from surrounding words to refine the embedding of the words. These first three layers are applied to both the query and context. 4. Attention Flow Layer couples the query and context vectors and produces a set of queryaware feature vectors for each word in the context. Q: Where do water droplets collide with ice crystals to form precipitation? A: within a cloud 5. Modeling Layer employs a Recurrent Neural Network to scan the context. BERT F1: 91.8 ⼈間 F1: 91.2 Figure 1: An overview of the QANet architecture (left) which has several Encoder Blocks. We 6. Output Layer provides an answer to the query. use the same Encoder Block (right) throughout the model, only varying the number of convolutional 1 Our code interactive demo are and available at: allenai.github.io/bi-att-flow/ layers for each block. Weanduse layernorm residual connection between every layer in the Encoder Start/End Span Block. We also share weights of the context and question encoder, and of the three output encoders. 2 A positional encoding is added to the input at the beginning of each encoder layer consisting of sin and cos functions at varying wavelengths, as defined in (Vaswani et al., 2017a). Each sub-layer after the positional encoding (one of convolution, self-attention, or feed-forward-net) inside the encoder structure is wrapped inside a residual block. … … … … … … … … … used extensively in Vaswani et al. (2017a), the combination of convolutions and self-attention is novel, and is significantly better than self-attention alone and gives 2.7 F1 gain in our experiments. The use of convolutions also allows us to take advantage of common regularization methods in ConvNets such as stochastic depth (layer dropout) (Huang et al., 2016), which gives an additional gain of 0.2 F1 in our experiments. In detail, our model consists of the following five layers: [CLS] … どこ？ [SEP] … 東京 … 1. Input Embedding Layer. We adopt the standard techniques to obtain the embedding of each word w by concatenating its word embedding and character embedding. The word embedding is fixed during training and initialized from the p1 = 300 dimensional pre-trained GloVe (Pennington et al., 2014) word vectors, which are fixed during training. All the out-of-vocabulary words are mapped to an <UNK> token, whose embedding is trainable with random initialization. The character embedding is obtained as follows: Each character is represented as a trainable vector of dimension ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) [SEP] 汎⽤モデル “コンビニの鰻” 90

91.

BERTのまとめ • ポイント1: Transformerをベースに • ポイント2: Transformerのencoder部分を利⽤ • ポイント3: ⾃⼰教師あり学習 (⽳埋め問題) • ポイント4: Bi-directional • ポイント5: pre-trainingとfine-tuningで同じモデルを使い回す⾼精度かつ汎⽤的かつシンプル⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 91

92.

サブワード (Subword) • 単語と⽂字の間の単位 • 未知語をなるべく減らすため • Subwordを使わない場合、語彙 (例えば3万語)から漏れたものは⼀律 [UNK] • もともとニューラル機械翻訳で考案されたポケモンは⽇本で⽣まれた。→ Pokemon was born in Japan. [UNK] ポケモン • cf. ⽂書分類タスクなどでは未知語があっても⽐較的気楽 • アルゴリズムの1つにByte Pair Encoding (BPE) [Sennrich+ 2016] ややこしい話がたくさんあります⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 92

93.

BPEのアルゴリズム 1. 2. 3. 4. 各⽂字をsubwordとみなす最も頻度の⾼いbi-gram (subwordペア)を⾒つけるそのbi-gramを1subwordとみなすテスト時(=BPE学習以外): 2に戻るマージしたbi-gramリストをもとに分割頻度 4 2 1 6 3 low lower lowest newest widest low lower l o w es t n e w es t w i d es t low lower l o w est n e w est w i d est lo w lo w e r lo w est n e w est w i d est ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) ・・・ 93

94.

サブワード分割 • アルゴリズムややこしいポイント1: wordpieceがサブワード(=分割されたもの) を指すことがある • Wordpiece [Schuster+ 2012] = Google⽇韓⾳声認識で利⽤ (Google社内のみ) ほぼ同じ • Google翻訳でwordpieceという名前がつけられる • BPE (Byte Pair Encoding) [Sennrich+ 2016] • Unigram⾔語モデル [Kudo+ 2018] • ⽂が単語に分割されていなくてもいい → ⽇本語で形態素解析なしで使える • 複数のサブワード分割が⾏えるややこしいポイント2: • ソフトウェアソフトウェアSentencepieceがアルゴリズム「Unigram⾔語モデル」のことを指すことがある • subword-nmt (BPE) • Sentencepiece (BPE, Unigram⾔語モデル, ⽂字) ややこしいポイント3: 「Sentencepieceを使った」といってもアルゴリズムBPEが使われていることがある⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 94

95.

ではBERTでは？ややこしいポイント4: Wordpiece/BPEを使ってサブワードに分割しているわけではない • 論⽂にはWordpieceを使ったと書かれている • Google社外の⼈はたいていBPEを利⽤ Wordpiece/BPEを適⽤サブセットを利⽤ He plays tennis. .. 語彙リスト .. the 100万⽂とか … play … ##s … 単語内の先頭以外は##をつける⼤規模テキスト (pre-training⽤) 各タスクの正解付きテキスト (fine-tuning⽤) I am a student. He plays tennis. This book is good. .. → ポジティブ .. .. .. 数万⽂語彙リストをもとに .. 最⻑⼀致でサブワード分割 .. ややこしいポイント5: これがWordpieceと呼ばれる! 数千万⽂〜⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 95

96.

語彙リスト(vocab.txt, 語彙数: 3万) [PAD] [UNK] [CLS] [SEP] [MASK] … ! " # … the of and … where just ##ing during before ##n do ##o made school through than now … foreigner vet freaks patrice rosewood triassic upstate ##pkins dominate s ata chants ks … ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 96

97.

Wordpiece Tokenizer embeddings vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 97

https://github.com/huggingface/transform

98.

Wordpiece Tokenizer embeddings em vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 98

https://github.com/huggingface/transform

99.

https://github.com/huggingface/transform

100.

Wordpiece Tokenizer embeddings em ##bed 先頭以外は##をつけて照合 vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 100

https://github.com/huggingface/transform

101.

Wordpiece Tokenizer embeddings em ##bed ##ding ##s サブワードは必ずしも意味のある単位でなくてもよい (Transformerがなんとかする) 先頭以外は##をつけて照合 vocab.txt … the of and … em … ##ding … ##s … ##bed … ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) https://github.com/huggingface/transform ers/blob/master/src/transformers/models /bert/tokenization_bert.py より抜粋 101

https://github.com/huggingface/transform

102.

トークナイズ (英語) BertTokenizer He doesnʼt learn word embeddings. (従来の)トークナイズ BasicTokenizer He doesn ʼ t learn word embeddings . サブワード分割 WordpieceTokenizer He doesn ʼ t learn word em ##bed ##ding ##s . 1124 2144 … … 単語IDへの変換⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 102

103.

トークナイズ (英語, ⽇本語) He doesnʼt learn word embeddings. (従来の)トークナイズ英語 He doesn ʼ t learn word embeddings . サブワード分割 He doesn ʼ t learn word em ##bed ##ding ##s . 形態素解析 + サブワード⽇本語形態素解析なしUnigram⾔語モデル彼は昨⽇、京都府に⾏った。形態素解析彼は昨⽇、京都府に⾏った。サブワード分割サブワード分割彼は昨 ##⽇、京都府に⾏った。彼は昨⽇、京都府に⾏った 103 。⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

104.

トークナイズの例 (⽇本語) アメリカ合衆国（アメリカがっしゅうこく）、通称アメリカ（英語：Ａｍｅｒ ##ｉｃａ）は、北アメリカ、太平洋および⼤⻄洋に位置する連邦共和制国家。⾸都はコロンビア特別区（通称・ワシントンＤ．Ｃ．）。５０の州および連邦区などから構成される。うちアメリカ本⼟の４８州はカナダとメキシコの間の北アメリカ中央に位置する。アラスカ州は北アメリカ北⻄部の⾓に位置し、東ではカナダと、⻄ではベー ##リング海峡を挟んでロシアと国境を接している。ハワイ州は中部太平洋における島嶼群である。同国は太平洋とカリブに５つの有⼈の海外領⼟および９つの無⼈の海外領⼟を有する。９８ ##５万平⽅キロメートルの総⾯積は世界第３位または第４位、３億 ##２ ##７０ ##０万⼈の⼈⼝は世界第３位である。同国は世界で最も⺠族的に多様かつ多⽂化な国のひとつである。 ▁アメリカ合衆国（アメリカがっしゅうこく）、通称アメリカ（英語 : ▁A mer ica ）は、北アメリカ、太平洋および⼤⻄洋に位置する連邦共和制国家。⾸都はコロンビア特別区（通称・ワシントン D . C . ）。 50 の州および連邦区などから構成される。うちアメリカ本⼟の 48 州はカナダとメキシコの間の北アメリカ中央に位置する。アラスカ州は北アメリカ北⻄部の⾓に位置し、東ではカナダと、⻄ではベーリング海峡を挟んでロシアと国境を接している。ハワイ州は中部太平洋における島嶼群である。同国は太平洋とカリブに 5 つの有⼈の海外領⼟および 9 つの無⼈の海外領⼟を有する。 98 5 万平⽅キロメートルの総⾯積は世界第 3 位または第 4 位、 3 億 2 700 万⼈の⼈⼝は世界第 3 位である。同国は世界で最も⺠族的に多様かつ多⽂化な国のひとつである。 https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%A1%E3%83%AA%E3%82%AB%E5%90%88%E8%A1%86%E5%9B%BD104 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

https://ja.wikipedia.org/wiki/アメリカ合衆国

105.

⽇本語BERTモデル形態素解析 + サブワード形態素解析なしUnigram⾔語モデル事前学習テキスト形態素解析 Vocabの作り⽅ Subwordへの分割⽅法備考 Kikuta Wikipedia なし SP (unigram) SP 京⼤ Wikipedia Juman++ BPE BERTTokenizer 東北⼤ Wikipedia MeCab SP (BPE) BertJapanese Tokenizer ホットリンク twitter なし SP (unigram) SP ストックマークニュース記事 MeCab Subwordなしなし NICT Wikipedia MeCab BPE BERTTokenizer 精度がよい早稲⽥⼤学 (RoBERTa) Wikipedia + CC Juman++ SP (unigram) BERTTokenizer 精度がよい東⼤医療AI 医療テキスト MeCab BPE BERTTokenizer transformersで利⽤可能 https://github.com/himkt/awesome-bert-japanese に追加⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 105

https://github.com/himkt/awesome-bert-japanese

106.

本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題ライブラリ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 106

107.

BERTの出現以降の話題 a. b. c. d. e. f. g. h. i. j. k. 様々なタスクでの利⽤ (機械読解, 単⾔語解析, 知識ベース, ..) BERT⾃体の改良テキスト変換 (=encoder-decoder) 中⾝の分析ドメイン特化型モデル多⾔語軽量化⽂ベクトルマルチモーダル⾔語モデル .. https://github.com/tomohideshibata/BERT-related-papers 107 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

https://github.com/tomohideshibata/BERT-related-papers

108.

b. BERT⾃体の改良 • Maskの改良: # • Whole Word Masking (WWM) • Maskをスパン単位に: SpanBERT [Joshi+ 2019], PMI-masking [Levine+ 2020] • Maskする確率を15%から40%に [Wettig+ 2022] pre-trainingタスクは • Next Sentence Prediction (NSP)の⾒直しできるだけ難しく • NSPを廃⽌ (RoBERTa [Liu+ 2019]) • NSPは簡単なので⽂ペアの順番を予測する問題に変更 (ALBERT [Lan+ 2019]) • pre-trainingに使うテキストを⼤規模に (RoBERTa [Liu+ 2019]) • マスクするのをやめて、語順をpermutateした⾔語モデル (XLNet [Yang+ 2019]) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 108

109.

c. テキスト変換にPre-trainingを導⼊ Text-to-Text Transfer Transformer (T5) [Raffel+ 2019] 1. Pre-training encoder 電池が [X] した放電で消耗 … こちらで⽣成機能 [Y] … decoder 放電で消耗 [Y] が [X] 放電で消耗 [Y] が同時期に BART (Bidirectional and Auto-Regressive Transformers) [Lewis+ 2019] 109

110.

e. ドメイン特化型モデル (バイオ, 医療..) 語彙の学習⼤規模テキストでの pre-training 下流タスクでの fine-tuning [Gururangan+ 2020]など語彙の学習⼤規模テキストでの pre-training ドメインテキストでの pre-training 下流タスクでの fine-tuning [Lee+ 2020]など弊社での取り組み: 語彙の学習ドメインテキストでの pre-training 下流タスクでの fine-tuning 語彙の学習検索クエリのログでの pre-training カテゴリ分類で fine-tuning 詳しくは「ヤフーにおける⾃然⾔語処理モデルBERTの利⽤」 https://techblog.yahoo.co.jp/entry/2021122030233811/ マリトッツォ: グルメエイペックススイッチ: ゲーム,タイトル名⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 110

https://techblog.yahoo.co.jp/entry/2021122030233811/

111.

medians of 5 runs with different seeds. Model g. 軽量化 ELMo BERT-base DistilBERT Score CoLA MNLI MRPC QNLI QQP RTE SST-2 STS-B WNLI 68.7 77.6 76.8 44.1 48.9 49.1 68.6 84.3 81.8 76.6 88.6 90.2 71.1 89.3 90.2 86.2 89.5 89.2 53.4 71.3 62.9 91.5 91.7 92.7 70.4 91.2 90.7 56.3 43.7 44.4 “DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter” [Sanh+ 2019]より引⽤ Table 2: DistilBERT yields to comparable Table 3: DistilBERT is significantly smaller • 蒸留 (distillation): ⼤きなモデルを教師とし、⼩さなモデル(⽣ performance on downstream tasks. Comwhile being constantly faster. Inference parison on downstream tasks: IMDb (test ac徒)に知識を移す time of a full pass of GLUE task STS-B (sencuracy) and SQuAD 1.1 (EM/F1 on dev set). 分布を近づける timent analysis) on CPU with a batch size of D: with a second2019] step of distillation during 例: DistilBERT [Sanh+ 1. 通常のMLM fine-tuning. Model # param. Inf. time … Model IMDb SQuAD ⽣徒モデル教師モデル (Millions) (seconds) 放電 … (acc.) (EM/F1) ⽕災放電故障原因 ELMo 180 895 ⽕災放電故障原因 BERT-base 93.46 81.2/88.5 放電 BERT-base 110 668 DistilBERT 92.82 77.7/85.8 DistilBERT 66 410 DistilBERT (D) 79.1/86.9 層数を半分 Distillation We applied best practices for training BERT model recently proposed in Liu et al. [2019]. As such, DistilBERT is distilled on very large batches leveraging gradient accumulation (up to 4K examples per batch) using dynamic masking and without the next sentence prediction objective. 電池が Data [MASK] and on theが same[MASK] corpus as で the original 電池消耗 BERT するmodel: でcompute 消耗power するWe train DistilBERT 111 a concatenation of English Wikipedia and Toronto Book Corpus [Zhu et al., 2015]. DistilBERT ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

112.

negative いい⽂ベクトルではない h. ⽂ベクトル Sentence-BERT [Reimers+ 2019] [CLS] u BERT [CLS] Sentence A この電池はすぐ切れる -1 … テキスト含意認識を解くことで⽂ベクトル表現を学習 Softmax classifier 平均 (mean pooling) BERT (u, v, |u-v|) 平均 (mean pooling) v cosine-s u v u pooling pooling pooling BERT BERT Sentence A Sentence B Sentence-BERTの論⽂より引⽤重み共有 BERT BERT [CLS] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) Sentence A Sentence B 112

113.

DPR: Dense Passage Retrieval [Karpukhin+ 2020] FAISS [Johnson+, 17]で類似ベクトル検索 BERT [CLS] question BERT [CLS] paragraph 別々の重み⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 113

114.

i. マルチモーダル⾔語と画像 (動画) 特に出⼒側は離散値としてクラス分類とした⽅が扱いやすい離散値として扱う! (k-meansなど) ⾳声 softmax t1 t1 t1 … tv … tv … tv t3 t4 t5 soft f3 f5 output f9 Transformer Encoder t1 t2 m3 m4 m5 neg t6 Tran discrete tokens quantizer “VideoBERT: A Joint Model for Video and Language Representation Learning” [Sun+ 19]より引⽤など多数 f1 f2 d “Effectiveness of(a)self-supervised pre-training (b Quantized Inputs for speech recognition” [Baevski+ 19]より引⽤ Figure 1: Illustration of BERT pre-training. mi refers to masked time-st pass. (a) Inputs are quantized with a vq-wav2vec quantizer 114 or, for MFCC est centroids and are then used for training a BERT model with a mask ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

115.

機械翻訳のモデル encoder-decoder (seq2seq) [Sutskever+ 14] ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができる encoder decoder I am a student EOS EOS I am a 115 student 2層の LSTM 私は学⽣です⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

116.

パラメータ数: 15億パラメータ数: 1,750億 GPT-2 [Radford+ 2019], GPT-3 [Brown+ 2020] zero-shot (正解を与えない) few-shot (少量の正解を与える) ⾔語モデルを適⽤するのみ 1. Pre-training (Fine-tuningがないのに“Pre-”は少しおかしいが) の消耗が激しい電池の消耗が This battery … … … … … この電池 … 英語で This … パラメータを更新しない GPT-2: ⼿がかりとなる語を与える (転移学習ではない) GPT-3: 例を数⼗個与える⽇本語を英語に翻訳してください: 机 → desk りんご → apple 電池 → [タスク説明] [例] ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) [プロンプト] 116

117.

GPT-2, 3がなぜ可能なのか? 以下のようなテキストがWebにはたくさんある → ここから⾔語モデルを学習 GPT-2 ⽇本語 ⇒ 英語 .. 「元気でね」は英語で、 Take care of yourself と⾔います。.. .. 棚卸しを英語で⾔うと inventoryです。.. .. 翻訳や要約(TL;DR)など、定型句でタスクを指定できるものしか扱えない GPT-3 QA 対話オリンピックに関するトリビア Q: 冬季オリンピックが初めて開催された国は? A: フランス Q: ⽇本で初めて冬季オリンピックが開催された都市は? A: 札幌 .. 店員と客の対話の例です。店員: 何かお探しですか? 客: Tシャツです。 … 店員:こちらの商品は今年トレンドの最新アイテムです。 .. ※注意: 各タスクごとにモデルを学習しているわけではないいくつか例を与えるだけでよいので幅広いタスクを扱える⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 117

118.

arm chair 612 in 84 … 53 … 3192… DALL·E [Ramesh+ 2021] • テキストから画像を⽣成 • 2億5000万のテキスト・画像ペアから学習 • 120億パラメータのGPT-3 • ⾔語と画像を単⼀ストリーム⼊⼒ … … an arm chair … 8356 612 … … … 53 53 語彙数⾔語最⼤256トークン画像 32 x 32画像トークン 16,384 8,192 画像を離散値として扱う https://openai.com/blog/dall-e/ 118 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

https://openai.com/blog/dall-e/

119.

encoder decoder ⼀単語ずつ⽣成 (先を⾒ることができない) ⼊⼒⽂をすべて⾒ることができるタスクとモデルのまとめタスクテキスト変換 (翻訳, 要約, 対話, ..) encoder-decoder ⽣成と呼ぶことも多い encoder こっちと区別する decoder こちらも扱える分類タスク - ⽂・⽂章レベル (⽂書分類, 評判分析) - トークンレベル (固有表現解析, 機械読解) テキスト⽣成⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 私は学⽣です I am a student EOS EOS I am a student モデル (従来の)encoderdecoder T5, BART, .. GPT-1, BERT ⽅式が違う GPT-2, GPT-3 119

120.

モデルのさらなる巨⼤化 & ⼤量のテキスト • 巨⼤なモデルを学習できるのは多⼤な計算パワーを持った⼀部の企業であることは事実 • モデルを公開してくれる • 知⾒を共有してくれる • 性能向上はモデルを巨⼤にするしかないのか? • 巨⼤モデルと同じようなことが⼩さなモデルでもできる • PET (Pattern-Exploiting Training) [Schick+ 2021] • マスク⾔語モデルを使ってfewshot学習ができる • RETRO (Retrieval-Enhanced Transformer) [Borgeaud+ 2021] • 関連するテキストを検索する形にすることによってパラメータ https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train数を1/25にできる megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 120

https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-

121.

⾔語モデル? : 冒頭に説明したこれまでの⾔語モデル(=decoder)との区別汎⽤⾔語モデル? : 汎⽤をつければいいのか事前学習モデル? マスク⾔語モデル? ⾃⼰教師あり学習? 名前問題転移学習 1. Pre-training 転移学習モデル? 2. Fine-tuning negative 消耗 … … BERT BERT BERT … [CLS] 電池の [MASK] が … … [CLS] Pre-training の消耗がこの電池すぐ … ⾔語モデルを適⽤するのみ This battery 激しい … … GPT-2,3 は GPT-2,3 GPT-2,3 … … 電池の消耗が … この電池⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) … 英語で This 121 …

122.

Foundation Model (基盤モデル) • スタンフォードのグループはBERTやGPT-3, DALL-Eのような⼤規模モデルをFoundation Modelと呼んでいる On the Opportunities and Risks of Foundation Models [Bommasani+ 2021] (https://arxiv.org/abs/2108.07258) ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 122

123.

本⽇の内容 1. 2. 3. 4. 5. 6. 導⼊⾔語モデル Transformer: encoder-decoder, attention, Transformer BERT BERTの出現以降の話題ライブラリ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 123

124.

理論を理解することと実際に動かすことにはギャップがあるライブラリ • transformers (pytorch / tensorflow / JAX) • 最新のモデルが⼿軽に試すことができる • ⽂書分類・固有表現解析・機械読解など、サンプルプログラムを動かすだけならまずはこれを試す • tensorflow models (tensorflow) • tensorflowの公式モデル • 現在のところ基本的なモデル (BERT + α)が動かせる • tensorflow servingでデプロイできる • AllenNLP (pytorch) • サンプルプログラム以上のことを⾏うにはこれが⼀番 • モジュール化されていて、LSTMとの⽐較などが簡単 • BERT関係はtransformersで提供されているモジュールを利⽤⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 124

125.

動かし⽅ (transformersの場合) 注意: ネット上の記事ではコードが⻑々と書かれていることが多い → たいていのことはデータを⽤意し、コマンドを実⾏するだけでよい極性分類 $ python run_glue.py --model_name_or_path cl-tohoku/bert-base-japanese-whole-wordmasking --train_file train.json .. 固有表現解析この本はおもしろい, positive この映画はつまらない, negative … 東北⼤学提供の BERTモデル $ python run_ner_old.py --model_name_or_path cl-tohoku/bert-base-japanese-whole-wordmasking --data_dir /somewhere .. ただし O 、O 50 B-DATE 周年 I-DATE ソング O … ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 125

126.

JGLUE: ⽇本語版GLUE [栗原+ NLP2022] • 英語のGLUE, SuperGLUE [Wang+, 2019]に続き、中国語CLUE [Xu+, 2020], フランス語FLUE [Le+, 2020], ..などが構築されているが、⽇本語はない → ヤフー・早稲⽥⼤でJGLUEを構築 • 基本設計:(a)⼀般ドメイン (b)翻訳を介することなく⽇本語で⼀から MARC-ja JSTS JNLI JSQuAD (acc) (Pearson) (acc) (F1) JCommonsenseQA (acc) ⼈間 0.990 0.909 0.917 0.947 0.988 東北⼤BERTBASE 0.957 0.908 0.882 0.945 0.798 東北⼤BERTLARGE 0.961 0.912 0.884 0.950 0.810 NICT BERTBASE 0.960 0.910 0.889 0.950 0.809 早稲⽥⼤ RoBERTaBASE 0.962 0.910 0.887 0.922 0.852 XLM-RoBERTaLARGE 0.965 0.918 0.906 - 0.830 詳しくは • 3⽉17⽇(⽊) 15:00-16:20 JGLUE: ⽇本語⾔語理解ベンチマーク • 3⽉18⽇(⾦) 「ワークショップ２: ⽇本語における評価⽤データセットの構築と利⽤性の向上」で上記の拡⼤版 126 ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉)

127.

⾔語処理において深層学習/転移学習が変えたこと • 単語や⽂の表現を記号(離散値)からベクトル(連続値)へ • 様々な表現のずれを吸収 • 系列の扱いがかなりよくなった • テキスト変換・⽣成において⽣成されるテキストがかなり⾃然 • End-to-end 学習 • 基礎解析/中間タスクを解かない • ⼤規模テキストでpre-trainingしてから各タスクでfine-tuningする枠組みの確⽴ • タスク固有のネットワークではなく、タスク共通のネットワーク (=Transformer) • Pre-trainedモデルやライブラリの整備が進んだ • ⽇本語BERT/GPTモデル (東北⼤, 京⼤, NICT, rinna, 早稲⽥⼤..)の公開 • ユーザが書くコードがかなり少なくなった • BERTで基本的なタスクを解く場合、コマンドを動かすだけで実⾏できる⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 127

128.

まとめ • 転移学習, Transformer, encoder/decoder, 最近の話題について解説 • 初学者: • 本会議中での発表の理解や今後の研究開発に役⽴てば幸い • 中級者: • 頭の整理や誤解の解消に役⽴てば幸い • シニア: • ぜひライブラリを動かしてみてほしい⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 128

129.

厳選おすすめサイト/Youtube • The Illustrated Transformer/BERT • https://jalammar.github.io/illustrated-transformer/ • http://jalammar.github.io/illustrated-bert/ • Instructions on Transformer for people outside NLP field, but with examples of NLP • https://data-science-blog.com/blog/2020/12/30/transformer/ • Fall 2021 CIS6930 Topics in Computing for Data Science • https://github.com/suhara/cis6930-fall2021 • nnabla ディープラーニングチャンネル【Deep Learning研修（発展）】 • https://www.youtube.com/playlist?list=PLbtqZvaoOVPA-keirzqx2wzpujxE-fzyt • Neural Network Console • https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA • Stanford CS224N NLP with Deep Learning | Winter 2021 • https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rOSH4v6133s9LFPRHjEmbmJ • AI Coffee Break with Letitia • https://www.youtube.com/c/AICoffeeBreak ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 129

130.

参考⽂献 (1/3) • [Baykal+ 2020] “Transfer learning with pre-trained deep convolutional neural networks for serous cell classification” • [Devlin+ 2018] “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” • [Wang+ 2018] “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding” • [Ramesh+ 21] “Zero-Shot Text-to-Image Generation” • [Sutskever+ 14] “Sequence to Sequence Learning with Neural Networks” • [Bahdanau+ 14] “Neural Machine Translation by Jointly Learning to Align and Translate” • [Luong+ 15] “Effective Approaches to Attention-based Neural Machine Translation” • [Vaswani+ 2017] “Attention Is All You Need” • [Radford+ 2018] “Improving Language Understanding by Generative Pre-Training” • [Rajpurkar+ 16] “100000+ Questions for Machine Comprehension of Text” • [Seo+ 2016] “Bidirectional Attention Flow for Machine Comprehension” • [Yu+ 2018] “QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension” ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 130

131.

参考⽂献 (2/3) • [Sennrich+ 2016] “Neural Machine Translation of Rare Words with Subword Units” • [Schuster+ 2012] “Japanese and Korean Voice Search” • [Kudo+ 2018] “Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates” • [Joshi+ 2019] “SpanBERT: Improving Pre-training by Representing and Predicting Spans” • [Levine+ 2020] “PMI-Masking: Principled masking of correlated spans” • [Wettig+ 2022] “Should You Mask 15% in Masked Language Modeling?” • [Liu+ 2019] “RoBERTa: A Robustly Optimized BERT Pretraining Approach” • [Lan+ 2019] “ALBERT: A Lite BERT for Self-supervised Learning of Language Representations” • [Yang+ 2019] “XLNet: Generalized Autoregressive Pretraining for Language Understanding” • [Raffel+ 2019] “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer” • [Lewis+ 2019] “BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension” • [Clark+ 2019] “What Does BERT Look At? An Analysis of BERT's Attention” ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 131

132.

参考⽂献 (3/3) • [Gururangan+ 2020] “Don't Stop Pretraining: Adapt Language Models to Domains and Tasks” • [Lee+ 2020] “BioBERT: a pre-trained biomedical language representation model for biomedical text mining” • [Sanh+ 2019] “DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter” • [Reimers+ 2019] “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks” • [Karpukhin+ 2020] “Dense Passage Retrieval for Open-Domain Question Answering” • [Sun+ 19] “VideoBERT: A Joint Model for Video and Language Representation Learning” • [Baevski+ 19] “Effectiveness of self-supervised pre-training for speech recognition” • [Radford+ 2019] “Language Models are Unsupervised Multitask Learners” • [Brown+ 2020] “Language Models are Few-Shot Learners” • [Smith+ 2022] “Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model” • [Schick+ 2021] “Itʼs Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners” • [Borgeaud+ 2021] “Improving language models by retrieving from trillions of tokens” • [Bommasani+ 2021] “On the Opportunities and Risks of Foundation Models” • [栗原+ 2022] “JGLUE: ⽇本語⾔語理解ベンチマーク” ⾔語処理学会第28回年次⼤会チュートリアル資料 (2022年3⽉) 132

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

Kubernetesとカスタムコントローラーを活用したプラットフォーム開発・運用の勘所

各ページのテキスト