【IT Text 自然言語処理の基礎】第5章：言語モデル・系列変換モデル

541 Views

November 30, 23

#系列変換モデル #自然言語処理 #ニューラルネットワーク #機械翻訳 #未知語問題

スライド概要

自然言語処理の基礎の輪読会第7回の発表スライドです。
2023年11月30日(木) 18:30～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.3K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

京都大学人工知能研究会KaiRA 12.4K

各ページのテキスト

2023年度後期輪読会#7 ⽂の変換(系列変換モデル)と評価について学ぼう京都⼤学⼯学研究科栗林雷旗

系列変換モデル ● ● 単語や⽂字列を数値に変換する際はワンホットベクトルを利⽤ 𝑯 = 𝒉𝟏 , … , 𝒉𝑰 : ⼊⼒⽂の𝑖番⽬の単語に対応するベクトル𝒉𝒊 を並べた⾏列

系列変換モデルのフロー Step 1 エンコーダ⼊⼒⽂を読み込み→出⼒⽂⽣成に必要な情報を⽣成 Step 2 デコーダ: 文章を生成 Step 2-1 注意機構(デコーダの中で処理) エンコーダが作成した𝑯をデコーダ側に渡す Step 2-2 単語の⽣成処理(デコーダの中で処理) 注意機構の計算で取得したベクトルを用いて単語を予測

系列変換モデル 1. エンコーダエンコーダの役割: ⼊⼒⽂を読み込み→出⼒⽂⽣成に必要な情報を⽣成 ● エンコーダに再帰型ニューラルネットワーク(RNN)を採⽤する場合は式(4.4)を⽤いて𝒉𝒕 を獲得する。 𝑅𝑁𝑁 𝒙𝒕 , 𝒉𝒕&𝟏 1 ≤ 𝑡 ≤ 𝑇 ● 𝒉𝒕 = ' (4.4) 𝟎 𝑡=0 ● →系列変換モデルといっても、構成要素ごとに切り出すと従来のニューラルネットワークと同じ処理をしていることがわかる。

系列変換モデル 2. デコーダ ● ● デコーダの役割: 受け取った𝑯を⼿掛かりにして⽂章を⽣成。デコーダの処理過程⽂の先頭からデコーダの位置jごとに計算される単語の⽣成確率に基づき、 1単語ずつサンプリングして⽂章を⽣成 (ニューラル⾔語モデル(5.5節)と同様, 確率分布は⾔語モデルと同じ要領) ⾔語モデルとの唯⼀の違い: 系列変換ではモデル化に条件付き確率𝑃 𝒀｜𝑿 を使⽤。 𝑿: ⼊⼒⽂ 𝒀: 出⼒⽂ ●

系列変換モデル 2-1. 注意機構 ● ● 注意機構の役割: エンコーダが作成した𝑯をデコーダ側に渡すベクトル列𝑯 = 𝒉𝟏 , … , 𝒉𝑰 を参照してベクトル𝑧' を再構築再構築されたベクトルを𝑧'̂ とすると、注意機構は 𝑯内の各ベクトル𝒉𝟏 , … , 𝒉𝑰 の重み𝑎( による重み付き和にとして算出。 ●

系列変換モデル 2-2. 単語の⽣成処理 ● ● ● 単語⽣成処理: 注意機構の計算で取得した𝑧'̂ を⽤いて𝑗番⽬の単語を予測⼊⼒として再構築されたベクトルを⽤いる点以外は順伝播型および再帰型ニューラルネットワークと同様あるいは、貪欲法により単語を決定する場合は

⾔語モデルの推定精度評価パープレキシティ: 推定精度が良いと1に近づき, 精度の悪さに応じて増⼤ ! ● 予測したい𝑖番⽬の単語を𝑦 とする →予測したい単語の直前までを”⽂脈”とよび、𝒀 ! と表記 ● 例: 「観客に感動を与える映画」 ● ● $ 評価データから計算される条件付き確率𝑃は経験確率であるから、観測された単語なら1, それ以外の単語なら0 →式(5.39)のように簡略化

未知語問題への対応未知語とは: ニューラル⾔語モデルにおいて、⽣成対象として設定した語彙に含まれない単語 ● 単語の⽋陥は⽂章の品質に⼤きく影響→適切な扱いが必要 ● 未知語問題への対応 1. ⽂字単位の処理 2. 部分単語単位の処理 ●

10.

未知語問題への対応部分単語単位の処理(⽂字と単語の中間) ⽂字単位の処理 ● メリット:事前把握可能&⼀定数 ● バイト対符号化によりルールを定義 ● デメリット: 予測回数の肥⼤ ● メリット: 結合回数を適切に選択できれば性能向上が期待できる →予測誤りの増⼤元データ⽂字列 kyoto k/y/o/t/o 元データ Kyotofu Osakafu Naraken サブワード列を形成⽂字単位に区切り最頻の組を結合 Shigaken 語彙獲得 4. Ken 2. Fu … Hyogoken Wakayamaken 部分単語単位の性質 → ! ⽂字単位(𝑛 → 0) 単語単位(𝑛 → ∞)