【IT Text 自然言語処理の基礎】第5章:言語モデル・系列変換モデル

157 Views

November 30, 23

スライド概要

自然言語処理の基礎の輪読会第7回の発表スライドです。
2023年11月30日(木) 18:30~

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2023年度後期輪読会#7 ⽂の変換(系列変換モデル)と評価について学ぼう 京都⼤学⼯学研究科 栗林 雷旗

2.

系列変換モデル ● ● 単語や⽂字列を数値に変換する際はワンホットベクトルを利⽤ 𝑯 = 𝒉𝟏 , … , 𝒉𝑰 : ⼊⼒⽂の𝑖番⽬の単語に対応するベクトル𝒉𝒊 を並べた⾏列

3.

系列変換モデルのフロー Step 1 エンコーダ ⼊⼒⽂を読み込み→出⼒⽂⽣成に必要な情報を⽣成 Step 2 デコーダ: 文章を生成 Step 2-1 注意機構(デコーダの中で処理) エンコーダが作成した𝑯をデコーダ側に渡す Step 2-2 単語の⽣成処理(デコーダの中で処理) 注意機構の計算で取得したベクトルを用いて単語を予測

4.

系列変換モデル 1. エンコーダ エンコーダの役割: ⼊⼒⽂を読み込み→出⼒⽂⽣成に必要な情報を⽣成 ● エンコーダに再帰型ニューラルネットワーク(RNN)を採⽤する場合は 式(4.4)を⽤いて𝒉𝒕 を獲得する。 𝑅𝑁𝑁 𝒙𝒕 , 𝒉𝒕&𝟏 1 ≤ 𝑡 ≤ 𝑇 ● 𝒉𝒕 = ' (4.4) 𝟎 𝑡=0 ● →系列変換モデルといっても、構成要素ごとに切り出すと従来のニューラルネット ワークと同じ処理をしていることがわかる。

5.

系列変換モデル 2. デコーダ ● ● デコーダの役割: 受け取った𝑯を⼿掛かりにして⽂章を⽣成。 デコーダの処理過程 ⽂の先頭からデコーダの位置jごとに計算される単語の⽣成確率に基づき、 1単語ずつサンプリングして⽂章を⽣成 (ニューラル⾔語モデル(5.5節)と同様, 確率分布は⾔語モデルと同じ要領) ⾔語モデルとの唯⼀の違い: 系列変換ではモデル化に 条件付き確率𝑃 𝒀|𝑿 を使⽤。 𝑿: ⼊⼒⽂ 𝒀: 出⼒⽂ ●

6.

系列変換モデル 2-1. 注意機構 ● ● 注意機構の役割: エンコーダが作成した𝑯をデコーダ側に渡す ベクトル列𝑯 = 𝒉𝟏 , … , 𝒉𝑰 を参照してベクトル𝑧' を再構築 再構築されたベクトルを𝑧'̂ とすると、注意機構は 𝑯内の各ベクトル𝒉𝟏 , … , 𝒉𝑰 の重み𝑎( による重み付き和にとして算出。 ●

7.

系列変換モデル 2-2. 単語の⽣成処理 ● ● ● 単語⽣成処理: 注意機構の計算で取得した𝑧'̂ を⽤いて𝑗番⽬の単語を予測 ⼊⼒として再構築されたベクトルを⽤いる点以外は順伝播型および再帰 型ニューラルネットワークと同様 あるいは、貪欲法により単語を決定する場合は

8.

⾔語モデルの推定精度評価 パープレキシティ: 推定精度が良いと1に近づき, 精度の悪さに応じて増⼤ ! ● 予測したい𝑖番⽬の単語を𝑦 とする →予測したい単語の直前までを”⽂脈”とよび、𝒀 ! と表記 ● 例: 「観客 に 感動 を 与える 映画」 ● ● $ 評価データから計算される条件付き確率𝑃は経験確率であるから、 観測された単語なら1, それ以外の単語なら0 →式(5.39)のように簡略化

9.

未知語問題への対応 未知語とは: ニューラル⾔語モデルにおいて、⽣成対象として 設定した語彙に含まれない単語 ● 単語の⽋陥は⽂章の品質に⼤きく影響→適切な扱いが必要 ● 未知語問題への対応 1. ⽂字単位の処理 2. 部分単語単位の処理 ●

10.

未知語問題への対応 部分単語単位の処理(⽂字と単語の中間) ⽂字単位の処理 ● メリット:事前把握可能&⼀定数 ● バイト対符号化によりルールを定義 ● デメリット: 予測回数の肥⼤ ● メリット: 結合回数を適切に選択で きれば性能向上が期待できる →予測誤りの増⼤ 元データ ⽂字列 kyoto k/y/o/t/o 元データ Kyotofu Osakafu Naraken サブワード列を形成 ⽂字単位に区切り 最頻の組を結合 Shigaken 語彙獲得 4. Ken 2. Fu … Hyogoken Wakayamaken 部分単語単位の性質 → ! ⽂字単位(𝑛 → 0) 単語単位(𝑛 → ∞)