【IT Text 自然言語処理の基礎】第8章：系列ラベリング

1.5K Views

December 28, 23

#自然言語処理 #系列ラベリング #点予測 #条件付き確率場 #ビタビアルゴリズム

スライド概要

自然言語処理の基礎の輪読会第10回の発表スライドです。
2023年12月21日(木) 18:30～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.3K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

京都大学人工知能研究会KaiRA 12.4K

各ページのテキスト

自然言語処理の基礎 8章系列ラベリング宮前明生 0

8章：系列ラベリング目次 1. 系列ラベリングとは 2. モデル①点予測 3. モデル②線形連鎖に基づく条件付き確率場 1

1. 系列ラベリングとは要素が一次元に並べられた系列データを入力として、ラベル列を推定する。 ● 自然言語の構造を解析するアプローチの1つ例①品詞タグ付け例②チャンキング…単語列から名詞句や動詞句の塊(チャンク)を推定する。チャンク先頭はB-、先頭以外はI-をつける。(IOB2記法) 例③固有表現認識…人名や場所、組織名などの固有表現を抽出する。 ● 単語 Play Yellow Submarine Of the Beatles 品詞動詞固有名詞固有名詞前置詞限定詞固有名詞チャンク B-VP B-NP I-NP B-PP B-NP I-NP 固有表現 O B-SONG I-SONG O B-ARTIST I-ARTIST 動詞句(VP: verb phrase) 名詞句(NP: noun phrase) 前置詞句(PP: prepositional phrase) 2

2. モデル①点予測点予測では、ラベル𝑦1 , … , 𝑦𝑇 をそれぞれ独立していると仮定する。 𝑇 𝑃 𝒚 𝒙; 𝜃 = ෑ 𝑃 𝑦𝑡 𝒙; 𝜽 𝑦1 𝑦2 𝑦3 𝑥1 𝑥2 𝑥3 𝑡=1 ෝ = (argmax 𝑃 𝑦1 𝒙; 𝜽 , … , argmax 𝑃(𝑦𝑇 |𝒙; 𝜽)) 𝒚 𝑦1 ∈𝕐 𝑦𝑇 ∈𝕐 これは𝑇個のラベルごとに|𝕐|個の要素を検討するので、計算量は𝒪(𝑇|𝕐|)で、指数オーダーから線形オーダーに削減される。 𝑃(𝑦𝑡 |𝒙; 𝜃)モデルの1つとして、ラベル𝑦𝑡 のスコア𝜓(𝑡, 𝒙, 𝑦𝑡 ; 𝜽)にソフトマックス関数を用いる手法がある。スコアはニューラルネットワークなどで表現できる。 𝑒𝑥𝑝𝜓(𝑡, 𝒙, 𝑦𝒕 ; 𝜽) 𝑃 𝑦𝑡 𝒙; 𝜽 = σ𝑦`∈𝕐 𝑒𝑥𝑝𝜓(𝑡, 𝒙, 𝑦`; 𝜽) 4

2:モデル①点予測素性関数を用いたスコア付けニューラルネットワーク以前のスコア𝜓(𝑡, 𝒙, 𝑦𝑡 ; 𝜽)は素性関数𝑓𝑘 の重み𝑤𝑘 の和で表現されていた。 𝐾 𝜓 𝑡, 𝒙, 𝑦𝑡 ; 𝜽 = ෍ 𝑤𝑘 𝑓𝑘 (𝑡, 𝒙; 𝑦𝒕 ) 𝑘=1 素性関数とは入力と出力が条件を満たすときに1を返し、条件を満たさないとき0を返す。例①単語𝑥𝑡 が’Brown’で、その品詞𝑦𝑡 が固有名詞と予測する素性関数は 𝑓1 𝑡, 𝒙; 𝑦𝒕 = 𝟏𝑥𝑡 =𝐵𝑟𝑜𝑤𝑛⋀𝑦𝑡 =𝑁𝑁𝑃 例②単語𝑥𝑡 の先頭が大文字で、その品詞𝑦𝑡 が固有名詞と予測する素性関数は 𝑓2 𝑡, 𝒙; 𝑦𝒕 = 𝟏𝑥 の先頭が大文字⋀𝑦 =𝑁𝑁𝑃 𝑡 𝑡 素性関数を生成するルールを人力で設計するのは大変だった 5

3. モデル②線形連鎖に基づく条件付き確率場線形連鎖に基づく条件付き確率場では、点予測のモデルに加えて、ラベルの隣接するもの同士の影響も考える。 𝑦0 スコア𝑠(𝒙, 𝒚; 𝜽)は以下のように表せる。BOS 𝑇 定式化は 𝑦2 𝑦3 𝑡=1 𝑦4 EOS 𝑇+1 𝑠 𝒙, 𝒚; 𝜽 = ෍ 𝜓(𝑡, 𝒙, 𝑦𝑡 ) + ෍ 𝜙(𝑦𝑡−1 , 𝑦𝑡 ) 𝑡=1 𝑦1 𝑥1 𝑥2 𝑥3 𝑒𝑥𝑝𝑠(𝒙, 𝒚; 𝜽) ෝ = argmax 𝑃(𝒚|𝒙) = argmax 𝒚 = argmax 𝑠(𝒙, 𝒚; 𝜽) 𝒚∈𝕐𝑻 𝒚∈𝕐𝑻 σ𝒚`∈𝕐𝑇 𝑒𝑥𝑝𝑠(𝒙, 𝒚`; 𝜽) 𝒚∈𝕐𝑻 計算量はしらみつぶしに検討すると、 𝒪(|𝕐|𝑇 )だが… 6

3. モデル②線形連鎖に基づく条件付き確率場ラベル列のラティス（グラフ）表現 “Brown promises change”に対する、品詞の割り当てをラティス（グラフ）で表現した。位置t-1におけるノードiと位置tにおけるノードjを結ぶエッジの重みを𝑀𝑡,𝑖,𝑗 とすると 𝜙 𝐵𝑂𝑆, 𝑗 + 𝜓 1, 𝒙, 𝑗 (𝑡 = 1, 𝑖 = 𝐵𝑂𝑆) (1 < 𝑡 ≤ 𝑇) 𝑀𝑡,𝑖,𝑗 = ൞𝜙 𝑖, 𝑗 + 𝜓 𝑡, 𝒙, 𝑗 𝜙 𝑖, 𝐸𝑂𝑆 (𝑡 = 𝑇 + 1, 𝑖 = 𝐸𝑂𝑆) ラベル系列𝒚の全体のスコア𝑠 𝒙, 𝒚; 𝜽 は品詞ノード𝑦1 , 𝑦2 , … , 𝑦𝑇 を経由したときのエッジ重みの和で表せる。 𝑻 𝑠 𝒙, 𝒚; 𝜽 = ෍ 𝑀𝑡,𝑖,𝑗 𝒕=𝟏 7

3. モデル②線形連鎖に基づく条件付き確率場ビタビアルゴリズム ෝ = argmax 𝑠(𝒙, 𝒚; 𝜽) に対する、動的計画法。 𝒚 𝒚∈𝕐𝑻 位置tにおいて、BOSからノードjに至る経路のスコアの最大値を𝑉𝑡,𝑖 とすると、 𝑀1,𝐵𝑂𝑆,𝑗 (𝑡 = 1) 𝑉𝑡,𝑖 = ቐ max 𝑉𝑡−1,𝑖 + 𝑀𝑡,𝑖,𝑗 (1 < 𝑡 ≤ 𝑇) 𝑖∈𝕐 経路のスコアの最大値は max𝑻 𝑠(𝒙, 𝒚; 𝜽) = max 𝑉𝑇,𝑖 + 𝑀𝑡,𝑖,𝑗 𝒚∈𝕐 𝑖∈𝕐 tそれぞれで、位置t-1におけるノードiと位置tにおけるノードjを結ぶ経路の総数を検討するので、計算量は𝒪(𝑇|𝕐|2 ) 8

10.

3. モデル②線形連鎖に基づく条件付き確率場学習するには負の対数尤度は、 𝑙 𝒙,𝒚 𝜽 = −𝑙𝑜𝑔𝑃 𝒚 𝒙; 𝜽 = −𝑠 𝒙, 𝒚; 𝜽 + 𝑙𝑜𝑔 ෍ exp 𝑠 𝒙, 𝒚; 𝜽 𝒚∈𝕐 これを計算した後、自動微分して、勾配を求める必要がある。第1項はビタビアルゴリズムから求まる。第2項は後述する前向き、後ろ向きアルゴリズムから求まる。 𝑍(𝒙; 𝜽) = σ𝒚∈𝕐𝑇 exp 𝑠 𝒙, 𝒚; 𝜽 とおく。これも、計算量はしらみつぶしに検討すると、 𝒪(|𝕐|𝑇 )だが… 9

11.

3. モデル②線形連鎖に基づく条件付き確率場後ろ向きアルゴリズム 𝑇+1 𝑍 𝒙; 𝜽 = ෍ 𝒚∈𝕐𝑇 = ෍ 𝑦1 ∈𝕐 exp 𝑠 𝒙, 𝒚; 𝜽 = ෍ 𝒚∈𝕐𝑇 exp(𝑀1,𝐵𝑂𝑆,𝑦𝑇 ) ෍ 𝑦2 ∈𝕐 ෑ exp(𝑀𝑡,𝑖,𝑗 ) 𝑡=1 exp(𝑀2,𝑦1,𝑦2 ) … ෍ 𝑦𝑇 ∈𝕐 exp(𝑀𝑇,𝑦𝑇−1,𝑦𝑇 ) exp(𝑀𝑇+1,𝑦𝑇,𝐸𝑂𝑆 ) 共通因数を𝑦1 から𝑦𝑇 に向かって括り出した。 exp(𝑀𝑇+1,𝑦𝑇 ,𝐸𝑂𝑆 ) (𝑡 = 𝑇) 𝐵𝑡,𝑖 = ൞ ෍ exp(𝑀𝑡+1,𝑖,𝑗 ) 𝐵𝑡+1,𝑗 (1 ≤ 𝑡 < 𝑇) 𝑗∈𝕐 𝑍 𝒙; 𝜽 は次式で求められる 𝑍 𝒙; 𝜽 = ෍ 𝑗∈𝕐 exp(𝑀1,𝐵𝑂𝑆,𝑗 ) 𝐵1,𝑗 t、ノードiそれぞれで、|𝕐|回 exp(𝑀𝑡+1,𝑖,𝑗 ) × 𝐵𝑡+1,𝑗 を行うので、計算量は𝒪(𝑇|𝕐|2 ) コンピュータ上ではlog𝐵𝑡,𝑖 を記録しながら計算する。 10

12.

3. モデル②線形連鎖に基づく条件付き確率場前向きアルゴリズム 𝑇+1 𝑍 𝒙; 𝜽 = ෍ 𝒚∈𝕐𝑇 = ෍ 𝑦𝑇 ∈𝕐 exp 𝑠 𝒙, 𝒚; 𝜽 = ෍ 𝒚∈𝕐𝑇 exp(𝑀𝑇+1,𝑦𝑇,𝐸𝑂𝑆 ) ෍ ෑ exp(𝑀𝑡,𝑖,𝑗 ) 𝑦𝑇−1 ∈𝕐 𝑡=1 exp(𝑀𝑇,𝑦𝑇−1 ,𝑦𝑇 ) … ෍ 𝑦1 ∈𝕐 exp(𝑀2,𝑦1,𝑦2 ) exp(𝑀1,𝐵𝑂𝑆,𝑦1 ) 共通因数を𝑦𝑇 から𝑦1 に向かって括り出した。 exp(𝑀1,𝐵𝑂𝑆,𝑗 ) (𝑡 = 1) 𝐴𝑡,𝑗 = ቐ ෍ exp(𝑀𝑡,𝑖,𝑗 ) A𝑡−1,𝑖 (1 < 𝑡 ≤ 𝑇) 𝑖∈𝕐 𝑍 𝒙; 𝜽 は次式で求められる 𝑍 𝒙; 𝜽 = ෍ exp(𝑀𝑇+1,𝑖,𝐸𝑂𝑆 ) 𝐴 𝑇,𝑖 𝒊∈𝕐 t、ノードiそれぞれで、|𝕐|回 exp(𝑀𝑡,𝑖,𝑗 ) × 𝐴𝑡−1,𝑖 を行うので、計算量は𝒪(𝑇|𝕐|2 ) コンピュータ上ではlog𝐴𝑡,𝑖 を記録しながら計算する。 11

13.

3. モデル②線形連鎖に基づく条件付き確率場ラベル෦ 𝒚𝒕 がiと予測される周辺確率 BOSから位置tにおいてラベルiのノードを通過する経路上のエッジ重みの総和は𝐴𝑡,𝑖 位置tにおいてラベルiのノードからEOSを通過する経路上のエッジ重みの総和は𝐵𝑡,𝑖 これらを利用すると、𝑃 𝑦෥𝑡 = 𝑖 𝒙 = 𝐴𝑡,𝑖 𝐵𝑡,𝑖 𝑍 𝒙;𝜽 12

14.