線形識別モデル

581 Views

March 27, 23

スライド概要

大学院生向けの線形識別モデルのスライドです.

profile-image

コンピュータを使って色々計算しています.気が向いた時に資料を修正しています. 公立小松大学臨床工学科准教授

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

線形識別モデル 公⽴⼩松⼤学 藤⽥ ⼀寿 Ver.20230329 BishopのPRMLを参考にしています. 途中式は書いてあります.

2.

導⼊

3.

分類 訓練データ • 分類とは入力を離散クラスに選り分けるこ とである. 覚えた B A • 予めクラスに分けられたデータ(答えが分 かっているデータ)を用い機械はデータを 分類するルールを学習する . A A A • 機械は分類ルールをデータを分ける線 (面)として獲得する.データを分ける線 を決定境界という. B B B データを分ける線(決定境界) Bだと思う • 分類ルールを獲得した機械は未知のデータ に対しても,正しく分類できるかもしれな い. 未知のデータ

4.

線形識別モデル • ここで線形識別モデルを考える. • 線形識別モデルとは,𝐷 次元⼊⼒空間に対して,⼊⼒ベクトル𝒙を未知数 とする⽅程式で表される決定⾯(決定境界)が,𝐷−1次元の超平⾯で定義 されるものである. • 要するに決定境界を線形関数で表現する. • 線形決定⾯により正しく識別できるデータ集合を線形識別可能という. • ⼊⼒ベクトルから直接クラスを推定する関数を識別関数という. B A A データは2次元 A A B B B 決定境界は1次元

5.

⼀般化線形モデル • 最も簡単な線形モデルは次のように書ける. • 𝑦 𝒙 = 𝒘! 𝒙 + 𝑤" • 分類問題では,離散値であるクラスラベルを予測する(もしくは0から 1のクラスに所属する確率を予測する)ため,線形関数を⾮線形関数 𝑓(⋅)によって変換するように⼀般化する. • 𝑦 𝒙 = 𝑓 𝒘! 𝒙 + 𝑤" • 𝑓(⋅)を活性化関数という. • この式で表現されるモデルのクラスを⼀般化線形モデルと呼ぶ(PRLM p178). 決定境界は 𝑦 𝒙 = 定数で書ける.つまり 𝒘! 𝒙 + 𝑤" = 定数となる.つまり,⾮線 形な活性化関数を使おうとも決定境界は線形関数となる.

6.

データ • データ𝑋はデータ点𝑥# で構成される.𝑋 = {𝒙$ , … , 𝒙# , … , 𝒙% } • データ点𝑥# は𝑑次元ベクトルである.𝑥# ∈ 𝑅& • データ点𝑥# それぞれ⼀つの離散クラス𝐶' に割り当てられる.ただし, 𝑘 = 1, … , 𝐾である. クラス 𝐶! A A 𝒙! クラス B𝐶" B 𝒙 # A A 𝒙" B B

7.

所属クラスの表し⽅(2クラス問題) • データ点𝑥# が所属するクラスを𝑡# で表す. • 𝑡# は2値変数である. • 2クラス分類問題(クラスが2つしかない)の場合,データ点𝑥# がク ラス𝐶$ に所属しているとき𝑡# = 1であり,クラス𝐶( に所属していると き𝑡# = 0と表現できる. クラス𝐶" クラス𝐶! B A 𝑡# = 1 A 𝒙! A A 𝒙" B 𝒙# B B 𝑡# = 0

8.

所属クラスの表し⽅(Kクラス問題, 𝑲 > 𝟐) • クラスが𝐾個ある場合は所属するクラスを 𝐾次元ベクトル𝒕# で表す. • 所属するクラスが𝐶' ならば𝒕% の𝑘番⽬の要素が1で,それ以外は0とす る.このような表記法を1-of-𝐾 codingという. • 例えば,3クラス分類問題の場合,データ点𝑥# がクラス𝐶$ に所属して いるとき 𝒕# = 1,0,0 ) となる.

9.

𝒕𝒏 と⽬標変数 • 𝒕# の要素の総和は1で規格化されているため,確率と解釈することがで きる. • 識別問題では⼊⼒𝒙𝒏 に対し𝒕𝒏 を予測することになる. • つまり,𝒕𝒏 が⽬標変数となる. • 学習データは𝒙𝒏 と対となる𝒕𝒏 となっており, 識別問題では𝒙𝒏 から𝒕𝒏 を 推定する識別関数を構築することが⽬的となる.

10.

2クラス問題

11.

2クラス問題 • データを2つのクラスに分ける問題を考える. • 最も簡単な線形識別関数は次のように与えられる. • 𝑦 𝒙 = 𝒘! 𝒙 + 𝑤" • 𝒘は重みベクトルと呼ばれ,𝑤" はバイアスパラメタと呼ばれる. • 𝑦 𝒙 ≥ 0なら,𝒙はクラス𝐶$ に割り当てられ,それ以外の場合はクラス 𝐶( に割り当てられる. • 𝑦 𝒙 = 0の直線が決定境界となる. 𝑦 𝒙 =0 クラス 𝐶" クラス 𝐶! 決定境界

12.

重みベクトルの⽅向 • 識別関数𝑦 𝒙 = 𝒘! 𝒙 + 𝑤" の重みベクトルはどの⽅向に向いているか. • 𝑦 𝒙 = 0の直線上の2点𝒙$ , 𝒙( を考える. 𝑥" 決定境界 • 当然𝑦 𝒙$ = 𝑦 𝒙( = 0であるから, • 𝒘)𝒙$ + 𝒘" = 𝒘)𝒙( + 𝒘" • よって 𝒙% − 𝒙& 𝒙! 𝒘 𝒙" • 𝒘) 𝒙$ − 𝒙( = 0 • ベクトル𝒙$ − 𝒙( は決定境界と同じ向きなので,𝒘と𝒙$ − 𝒙( の内積が0 ということは𝒘は決定境界に対し垂直であることを意味する.. 𝑥!

13.

原点から決定境界までの距離 • 𝒘と同じ⽅向で𝑦 𝒙 = 𝒘' 𝒙 + 𝑤" = 0 の直線上の点𝒙は次のように表せる. 𝑥" • 𝒙 = 𝑎𝒘 • これを直線の式に代⼊すると • 𝑎𝒘' 𝒘 + 𝑤" = 0 • 𝑎𝒘' 𝒘 = −𝑤" • 𝑎=− (# 𝒘 𝒘 $ • よって 𝒙 は • 𝒙 =− • 𝐰 ‖𝒘‖ (# 𝒘 ( 𝐰 # $ 𝐰 = − ‖𝒘‖ ‖𝒘‖ は単位ベクトルなので,𝒙の⼤きさ,すなわち原点から直線への距離𝑑は ( # • 𝑑 = − ‖𝒘‖ • よって, バイアスパラメタ𝑤" は決定境界の位置を決める. 𝒙 = 𝑎𝒘 −𝑤% ‖𝒘‖ 𝑥! 𝒘# 𝒙 + 𝑤% = 0

14.

任意の点𝒙と線形識別関数 • 点𝒙を考える.𝒙を識別境界に射影した点を𝒙$とすると𝒙は次のように書ける. • 𝒙 = 𝒙$ + 𝑟 𝒘 ‖𝒘‖ 𝑥" • 𝑦 𝒙$ = 𝒘' 𝒙$ + 𝑤( = 0より • 𝒘' 𝒙 − 𝑟 • 𝒘' 𝒙 − 𝒘 ‖𝒘‖ 𝒘0𝒘 𝑟 + ‖𝒘‖ + 𝑤( = 0 𝒙 𝑟 𝑤( = 0 • 𝒘' 𝒙 + 𝑤( = 𝑦 𝒙 = 𝑟 𝒘 𝟐 𝒘 ‖𝒘‖ 𝒙2 • よって • 𝑟= 𝒘 ‖𝒘‖ ) 𝒙 𝒘 • つまり, 𝑦 𝒙 を 𝒘 で割ったものは識別境界から𝒙までの距離を表す. −𝑤% ‖𝒘‖ 𝑥! 𝒘# 𝒙 + 𝑤% = 0

15.

線形識別関数のより簡単な表現 • ダミー⼊⼒𝑥" = 1を導⼊すると線形識別関数は次のように書ける. • 𝑦 𝒙 = 𝒘! 𝒙 + 𝑥" 𝑤" = ∑+,$ 𝑤+ 𝑥+ +𝑥" 𝑤" = ∑+," 𝑤+ 𝑥+ > = 𝑤" , 𝒘 とし,⼊⼒をダミー⼊⼒を含めた • 重みをバイアスを含めた𝒘 > = 𝑥" , 𝑥 とすると線形識別関数は次のように簡単になる. 𝒙 >) 𝒙 > •𝑦 𝒙 =𝒘

16.

おまけ:ベクトルの計算 内積と余弦 ピタゴラスの定理より 𝒂 − 𝒃 " = ‖𝒂‖ − 𝒃 𝒂−𝒃 ' 𝒂−𝒃 = 𝒂 "−2 𝒂 𝒃 𝒂' 𝒂 − 2𝒂' 𝒃 + 𝒃' 𝒃 = 𝒂 " − 2 𝒂 𝒂 " − 2𝒂' 𝒃 + 𝒃 " = 𝒂 −2𝒂' 𝒃 = −2 𝒂' 𝒃 = 𝒂 cos 𝜃 " + 𝒂 " sin" 𝜃 cos 𝜃 + 𝒃 " cos " 𝜃 + 𝒃 " sin" 𝜃 𝒃 cos 𝜃 + 𝒃 " sin" 𝜃 + cos " 𝜃 " − 2 𝒂 𝒃 cos 𝜃 + 𝒃 " 𝒂 𝒃 cos 𝜃 𝒃 cos 𝜃 𝑏 𝑎−𝑏 𝑏 sin 𝜃 ベクトル𝑏のベクトル𝑎への射影𝑏∥5 𝒂 𝒂' 𝒃 𝒂 𝒂7 𝒃 𝒂 𝒃∥𝒂 = 𝒃 cos 𝜃 = 𝒃 = ‖𝒂‖ 𝒂 ‖𝒃‖ ‖𝒂‖ 𝒂 ‖𝒂‖ よって𝒃∥𝒂の⼤きさは 𝒂4𝒃 𝒂 = 𝒂 𝒃7 𝒂 𝜃 𝒃∥𝒂 𝑏 cos 𝜃 𝑎

17.

多クラス問題

18.

多クラス問題 • 𝐾 = 2の2クラス問題では,⼊⼒ベクトルが決定境界のどちら側にあ るかで⼊⼒ベクトルのクラスを分けることができた. • 𝐾 > 2の多クラス問題の場合どうするか? • 2クラス識別関数の組み合わせで𝐾クラスの識別をする.

19.

1対他分類器 • データがクラス𝐶' であるか,そうでないかを分類する2クラス分類問 題を解く分類器を考える. • 𝐾クラス分類問題は,この2クラス分類器を𝐾 − 1個利⽤すれば解ける かもしれない. • この⼿法は1対他分類器として知られている. • しかし,この⽅法では曖昧な分類領域が⽣じてしまう. 図は3クラス問題の例. クラス𝐶% であるかないかを分類する分類 器とクラス𝐶& であるかないかを分類する 分類器で構成されている. ?領域はクラス𝐶% でもあるがクラス𝐶& で もある謎領域となっている. ? R1 C1 R2 R3 not C1 not C2 C2

20.

1対1分類器 • データがクラス𝐶' であるか,そうでないかを分類する2クラス分類問 題を解く分類器を考える. • 前スライドと異なり,すべての可能なクラスの組の2クラス問題を考 える. • この⼿法は1対1分類器として知られている. • この場合も曖昧領域が出来てしまう. 図は3クラス問題の例. クラス𝐶% か クラス𝐶& を分類する分類器, クラ ス𝐶& か クラス𝐶7 を分類する分類器 , クラス𝐶% か クラス𝐶7 を分類する分類器 で構成されてい る. ?領域はクラス𝐶% ,クラス𝐶& ,クラス𝐶7 のいず れにも分類されない謎領域となっている. C3 C1 R1 C1 ? C2 R3 C3 R2 C2

21.

うまいやり⽅ • 𝐾個の線形関数で構成される単独の𝐾クラス識別を考えることで曖昧領域 が⽣じる問題を回避できる. • 次の線形関数を考える. • 𝑦. 𝒙 = 𝒘/. 𝒙 + 𝑤.0 • すべての𝑗 ≠ 𝑘に対し𝑦. 𝒙 > 𝑦1 𝒙 である場合,データ点𝒙はクラス𝐶. に割 り当てるとする. • このように考えた場合,決定境界は 𝑦. 𝒙 = 𝑦1 𝒙 で与えられる. • 𝒘/. 𝒙 + 𝑤.0 = 𝒘1/ 𝒙 + 𝑤10 • 𝒘. − 𝒘1 𝒙 + 𝑤.0 − 𝑤10 = 0 • つまり,この式が決定境界を表す. Rj Ri Rk xA b x xB

22.

フィッシャーの線形識別

23.

フィッシャーの線形識別 • フィッシャーの線形識別は線形識別を実現する⼿法の⼀つである. • まず2クラス問題を考える. • 𝐷次元の⼊⼒ベクトル𝒙を次の式で1次元に射影するとする. • 𝑦 = 𝒘/ 𝒙 • 𝑦に閾値𝑤0 を設定し,𝑦 ≥ −𝑤0 のとき⼊⼒ベクトルをクラス𝐶2 とし,そう でない場合はクラス𝐶3 とする. • 𝑦 ≥ −𝑤0 • 𝑦 + 𝑤0 = 𝒘/ 𝒙 + 𝑤0 ≥ 0 • となるので,この式は先程出てきた識別関数になっている.

24.

射影と重みベクトル 𝒘 • 図のようにデータは元々⻘と⾚の2つのクラスに分 離されていると考えてみよう. • 図のヒストグラムは棒の場所に射影されたデータ 点の数を表す. • 上図のベクトル𝒘に射影した場合と下の図のベクト ル𝒘に射影した場合を考える. • 上図の場合,射影された⻘クラスと⾚クラスに所 属するデータ点の分布が重なり合っている. • 下図の場合, 射影されたクラスの分布が分離され ている. • どちらの𝒘が良いかと⾔えば,射影した後のクラス の分布が明確に分離されている⽅が良いだろう. 4 2 𝒘 𝒙 0 −2 −2 射影先 2 6 それぞれのクラスの分 布が重なっている. 4 2 0 𝒘 それぞれのクラスの分 布が重なっていない. −2 −2 2 6

25.

フィッシャーの線形識別の⽬標 • 射影した後のデータ点の分布がクラスごとに明確に分離されていれば 閾値を適切に設定すれば正確な識別が可能となる. • よって,フィッシャーの線形識別の⽬標は,クラスの分布が最も分離 されている𝒘を求める問題となる.

26.

クラスの平均 • クラス𝐶2 には𝑁2 個の点が所属し,クラス𝐶3 には𝑁3 個の点が所属していると すると,それぞれのクラスに所属する点の平均ベクトルは • 𝒎2 = 2 ∑ 𝒙 , 𝒎3 4$ 5∈7$ 5 = 2 ∑ 𝒙 , 4% 5∈7% 5 • である. 𝑛 ∈ 𝐶2 はクラス𝐶2 に所属する点の番号である. • 射影されたクラスの分離度合いを射影されたクラスの平均の差で測るとす る. • 𝑚3 − 𝑚2 = 𝒘8 𝒎3 − 𝒎2 = 𝒘8 𝒎3 − 𝒘8 𝒎2 • ただし,𝑚. = 𝒘8 𝒎. • この値は 𝒘 の⼤きさにも依存しているので, 𝒘は単位ベクトルであると する.つまり,𝒘/ 𝒘 = 𝒘 3 = ∑9 𝑤93 = 1とする.

27.

𝑚: − 𝑚; を最⼤化する𝒘 • 𝑚3 − 𝑚2 を最⼤化する𝒘をラグランジュの未定乗数法で求める. • ラグランジュ関数は • 𝐿 = 𝒘8 𝒎3 − 𝒎2 + 𝜆(𝒘/ 𝒘 − 1) • これを𝒘について微分すると • 𝐿: = 𝒎3 − 𝒎2 + 𝜆𝒘 = 0 • よって •𝒘=− 2 ; 𝒎3 − 𝒎2 • つまり • 𝒘 ∝ 𝒎3 − 𝒎2 • である.

28.

𝑚: − 𝑚; を最⼤化する𝒘で良いのか? • 𝑚( − 𝑚$ を最⼤化する𝒘が識別に良いかというと,そうではない. • 左図と右図を⽐べてみてほしい. • 左図は平均は離れているが,射影された分布は重なっている. • ⼀⽅,右図は平均は近いが,射影された分布は重なっていない. • つまり,𝑚( − 𝑚$ を最⼤化するだけでは不⼗分なのである. 平均は離れているが分布は重なっている 平均は近いが分布は別れている 4 4 2 2 0 0 −2 −2 −2 2 6 −2 2 6

29.

𝒘を求める指標 • フィッシャーは,射影されたデータのクラスの平均の差を⼤きくすると同 時に各クラスの分布の分散を⼩さくする𝒘を求める⽅法を提案した. • 射影されたクラス𝐶. の分布の分散は • 𝑠.3 = ∑5∈7& 𝒘8 𝒙5 − 𝑚. 3 = ∑5∈7& 𝑦5 − 𝑚. 3 • である.さらに,各クラスの分散の総和は𝑠23 + 𝑠33 である. • 射影されたデータのクラスの平均の差を⼤きくなると⼤きくなり,同時に 各クラスの分布の分散を⼩さくなると⼤きくなるような基準を考えた場合 ,単純に次のように書けるだろう. •𝐽 𝑤 = 𝒎% =𝒎$ >$% ?>%% % • これがフィッシャーの判別規準である.

30.
[beta]
判別規準の式変形
𝑚& − 𝑚%
=

𝒎& − 𝒎% ! 𝒘

&
!

= 𝒘' 𝒎& − 𝒘' 𝒎%

'

𝒘' 𝒎& − 𝒘' 𝒎%

𝒎& − 𝒎% ' 𝒘 = 𝒘' 𝒎& − 𝒎% 𝒎& − 𝒎% ' 𝒘
= 𝒘' 𝑺@ 𝒘

• ここで 𝑺9 = 𝒎" − 𝒎! 𝒎" − 𝒎! 7 とする.𝑺9 はクラス間共分散⾏列と呼ぶ.
𝑠%& + 𝑠&& = A 𝒘' 𝒙< − 𝑚%
'

&

<∈>&

+ A 𝒘' 𝒙< − 𝑚&
'

<∈>$

&

= A 𝒘' 𝒙< − 𝒘' 𝒎%
<∈>&

'

&

+ A 𝒘' 𝒙< − 𝒘' 𝒎&

'

= ∑<∈>& 𝒘 𝒙< − 𝒎% 𝒙< − 𝒎% 𝒘 + ∑<∈>$ 𝒘 𝒙< − 𝒎& 𝒙< − 𝒎& 𝒘
= 𝒘' A 𝒙< − 𝒎% 𝒙< − 𝒎%
<∈>&

• ここで𝑺𝑾 = ∑#∈<8 𝒙# − 𝒎! 𝒙# − 𝒎!

'

+ A 𝒙 < − 𝒎& 𝒙 < − 𝒎&

<∈>$

'

𝒘

<∈>$

= 𝒘' 𝑺𝑾 𝒘
7

+ ∑#∈<9 𝒙# − 𝒎" 𝒙# − 𝒎" 7 とする. 𝑺𝑾

は総クラス内共分散⾏列と呼ぶ.よってフィッシャーの判断基準は 𝐽 𝒘 =
と書ける.

&

𝒘 4 𝑺: 𝒘
𝒘 4 𝑺; 𝒘

31.

最適な𝒘 • 𝐽 𝒘 = • 𝐽> = 𝒘4𝑺:𝒘 𝒘4𝑺;𝒘 を𝒘で微分し,これが0のとき 𝐽 𝒘 が最⼤となる. 𝒘4𝑺;𝒘 "𝑺:𝒘? 𝒘4𝑺:𝒘 "𝑺;𝒘 𝒘4𝑺;𝒘 9 =0 • よって,次の式を満たすとき 𝐽 𝒘 が最⼤となる. • 𝒘7 𝑺 @ 𝒘 𝑺 9 𝒘 = 𝒘7 𝑺 9 𝒘 𝑺 @ 𝒘 • 次のように式変形する. • 𝒘= 𝒘4𝑺;𝒘 𝒘4𝑺:𝒘 𝑺?! @ 𝑺9 𝒘 • 𝒘は⽅向だけが重要なので,スカラーである𝒘7 𝑺@ 𝒘及び 𝒘7 𝑺@ 𝒘は無視できる. ?! 7 • 𝒘 ∝ 𝑺?! @ 𝑺9 𝒘 = 𝑺@ 𝒎" − 𝒎! 𝒎" − 𝒎! 𝒘 • 𝒎" − 𝒎! 7 𝒘もスカラーなので無視する.その結果次のような関係が得られる. • 𝒘 ∝ 𝑺?! @ 𝒎" − 𝒎!

32.

フィッシャーの線形判別 • 𝒘 ∝ 𝑺/$ . 𝒎( − 𝒎$ はフィッシャーの線形判別として知られている. • しかし, 𝒘は次元を1次元へ削減する際のデータの射影⽅向を表して いるだけである. • 適切な閾値𝑦" を設定することで,𝑦 𝒙 ≥ 𝑦" のときクラス𝐶$ に分類され それ以外ではクラス𝐶( に分類されるような識別関数を構成できる. 4 𝒘 2 0 −2 ここで分ければ正確に分類できるだろう. −2 2 6

33.

パーセプトロン

34.

パーセプトロンの簡単な紹介 • 2クラス問題が解ける(ラベルが2種類のみ) . • ⼊⼒層と出⼒層からなるニューラルネットワークである. • ⼊⼒層は⼊⼒の値そのものを出⼒層のニューロンに送る. • 出⼒層は閾値素⼦である. 出⼒層 ⼊⼒層 x0 x1 w0 w1 y 出⼒ wi 重みベクトル 𝒘 = 𝑤! , 𝑤" , … , 𝑤# , … , 𝑤$ xi 入力ベクトル 𝒙 = 𝑥! , 𝑥" , … , 𝑥# , … , 𝑥$ % %

35.

パーセプトロンの数式表現 • ⼊⼒ベクトルを𝒙 = 𝑥" , 𝑥$ , … , 𝑥+ , … , 𝑥% ! とする. • ただし𝑥+ = 1である.𝑤+ 𝑥+ をバイアスという. パーセプトロンは,入力ベクトルと重みベクトルの内積 (𝒘! 𝒙 = 𝑤 𝑥 cos 𝜃)が正か負かを基準に,入力ベクト ルを分ける.言い換えれば,入力ベクトルと重みベクト ルがおおよそ同じ方向を向いている(入力ベクトルが重 みベクトルに対し, 90度)かどうか調べている. • 重みベクトルを𝒘 = 𝑤" , 𝑤$ , … , 𝑤+ , … , 𝑤% ! とする. • 次の⼀般化線形モデルを構成する. ! ⋅ 𝒙) • 𝑦 = 𝑓 ∑% 𝑤 𝑥 = 𝑓(𝒘 + + +," ⼊⼒層 出⼒層 x0 • ここで⾮線形活性関数𝑓(⋅)を w0 w1 y 出⼒ x1 1 if 𝑢 ≥ 0 •𝑓 𝑢 =F −1 otherwise • とする.これをステップ関数と呼ぶ. wi 重みベクトル 𝒘 = 𝑤! , 𝑥" , … , 𝑤# , … , 𝑤$ xi 入力ベクトル 𝒙 = 𝑥! , 𝑥" , … , 𝑥# , … , 𝑥$ % %

36.

パーセプトロンの学習 • パーセプトロンでは,学習により出力と𝑡を一致させることが目的となる. • データ点𝒙# に対し,ラベル𝑡, が付属するとする.𝑡, ∈ {−1,1}である. • 例えば,データ点がクラス𝐶!に所属するとき𝑡# = 1,クラス𝐶"に所属するとき𝑡# = − 1とする. • あるデータ点𝒙5 を入力したとき,出力がラベルと一致しなければ次の式で重 みを更新する. • 𝒘 ← 𝒘 + 𝜆𝒙# 𝑡# • 𝜆は学習率である. ⼊⼒層 出⼒層 x0=1 w0 更新式は次のように次のような意味を持つ.𝑡$ = 1のときは,𝒘を 𝒙$ に少し向 ける. 𝑡$ = −1のときは,𝒘を少し𝒙$ の反対に向ける. また,𝜆は⼩さな数値である.𝜆があるため1回の学習で 𝒘が⼤きく変化しない. 𝜆の値が⼤き場合,𝒘が更新のたび⼤きく変わってしまう.これは,1回の学習 ごとに⼊⼒に対し過剰に適応してしまうことを意味するだろう.つまり, 最適 な𝒘 がいつまでも求まらない可能性が⾼くなる.また,最適な𝒘が求まってい たとしても,次の学習で最適な𝒘から⼤きくずれる可能性が⾼くなる. 出⼒ w1 x1 wi xi y

37.

重み修正の様⼦ 1. 出力を1でなければならないところ を−1になってしまったため,𝒘に 𝜆𝒙を足した. 2. 決定境界が更新された. 3. 出力を1でなければならないところ を−1になってしまったため,𝒘に 𝜆𝒙を足した. 4. 決定境界が更新された.その結果, 赤丸と青丸が境界で正しく区分け された. 1 2 3 4

38.

パーセプトロン規準と更新式 • パーセプトロンでは正しく分類された場合誤差を0とし,誤分類された⼊⼒𝒙# に対 しては−𝒘' 𝒙# 𝑡# の最⼩化を試みる. • つまり,誤差の総和は • 𝐸A 𝒘 = − ∑#∈B 𝒘7 𝒙# 𝑡# • これをパーセプトロン規準という.𝑀は誤分類された⼊⼒の集合を表す. • これの𝒘についての微分をとると • ∇𝐸A 𝒘 = − ∑#∈B 𝒙# 𝑡# • 勾配法を⽤いてパーセプトロン規準を最⼩にする𝒘を求める.各ステップでデータ 点が⼀つしか⼿に⼊らないため ∇𝐸C 𝒘 = −𝒙# 𝑡# となる.よって • 𝒘#DE = 𝒘 − 𝜆∇𝐸A 𝒘 = 𝒘 + 𝜆𝒙# 𝑡# • となり,先の更新式が得られる.

39.

パーセプトロンの学習例 • ⼊⼒層は3つのユニット,出⼒層は1つのユニットで構成されるネット ワークを考える. • このネットワークでAND演算を実現してみよう. ネットワークに覚えさせる⼊ 出⼒の関係(AND演算) x0 x1 x2 t 1 0 0 -1 1 0 1 -1 1 1 0 -1 1 1 1 1 ここではTrueを1,Falseを-1としている. 出⼒層 ⼊⼒層 x0 x1 w0 w1 wi xi y 出⼒

40.

パーセプトロンの学習例 • 初期値:𝑤" = 0, 𝑤$ = 1, 𝑤( = 1, 𝜆 = 0.5とする. • このとき,出⼒は𝑦 = 𝑓(𝑥$ + 𝑥( )と書ける. • ネットワークにそれぞれの⼊⼒を代⼊してみる. • 𝑥" = 1, 𝑥$ = 0, 𝑥( = 0を⼊⼒すると,𝑦 = 1となり不正解 • 𝒘 + 𝜆𝒙𝑡 = 0,1,1 + 0.5× 1,0,0 × −1 = (−0.5, 1, 1) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−0.5𝑥" + 𝑥$ + 𝑥( )

41.

パーセプトロンの学習例 • 𝑦 = 𝑓(−0.5𝑥" + 𝑥$ + 𝑥( ) • 𝑥" = 1, 𝑥$ = 0, 𝑥( = 1を⼊⼒すると,𝑦 = 1となり不正解なので学習す る. • 𝒘 + 𝜆𝒙𝑡 = −0.5,1,1 + 0.5× 1,0,1 × −1 = (−1, 1, 0.5) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−𝑥" + 𝑥$ + 0.5𝑥( )

42.

パーセプトロンの学習例 • 𝑦 = 𝑓(−𝑥" + 𝑥$ + 0.5𝑥( ) • 𝑥" = 1, 𝑥$ = 1, 𝑥( = 0を⼊⼒すると,𝑦 = 1となり不正解なので学習す る. • 𝒘 + 𝜆𝒙𝑡 = −1,1,0.5 + 0.5× 1,1,0 × −1 = (−1.5, 0.5, 0.5) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−1.5𝑥" + 0.5𝑥$ + 0.5𝑥( )

43.

パーセプトロンの学習例 • 𝑦 = 𝑓(−1.5𝑥" + 0.5𝑥$ + 0.5𝑥( ) • 𝑥" = 1, 𝑥$ = 1, 𝑥( = 1を⼊⼒すると,𝑦 = −1となり不正解なので学習す る. • 𝒘 + 𝜆𝒙𝑡 = −1.5,0.5,0.5 + 0.5× 1,1,1 × 1 = (−1, 1, 1) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−𝑥" + 𝑥$ + 𝑥( )

44.

パーセプトロンの学習例 • 𝑦 = 𝑓(−𝑥" + 𝑥$ + 𝑥( ) • 𝑥" = 1, 𝑥$ = 0, 𝑥( = 0を⼊⼒すると,𝑦 = −1となり正解 • 𝑥" = 1, 𝑥$ = 0, 𝑥( = 1を⼊⼒すると,𝑦 = 1となり不正解なので学習す る. • 𝒘 + 𝜆𝒙𝑡 = −1,1,1 + 0.5× 1,0,1 × −1 = (−1.5, 1, 0.5) • この学習により,出⼒は次のようになる. • 𝑦 = 𝑓(−1.5𝑥" + 𝑥$ + 0.5𝑥( )

45.

パーセプトロンの学習例 • 𝑦 = 𝑓(−1.5𝑥" + 𝑥$ + 0.5𝑥( ) • 𝑥" = 1, 𝑥$ = 1, 𝑥( = 0を⼊⼒すると,𝑦 = −1となり正解 • 𝑥" = 1, 𝑥$ = 1, 𝑥( = 1を⼊⼒すると,𝑦 = 1となり正解 • 𝑥" = 1, 𝑥$ = 0, 𝑥( = 0を⼊⼒すると,𝑦 = −1となり正解 • 𝑥" = 1, 𝑥$ = 0, 𝑥( = 1を⼊⼒すると,𝑦 = −1となり正解 • よって,すべての⼊⼒に対し正解したので学習を終了する. 出⼒層 ⼊⼒層 x0 AND演算ができ るニューラルネッ トワーク x1 xi 𝑤! = −1.5 𝑤" = 1 y 𝑤& = 0.5 出⼒

46.

よく⾔われるパーセプトロンの⽋点 • 線形分離不可能な問題は解けない • 例:XOR問題が解けない • これは2層のパーセプトロンの問題である. • 活性化関数(Activation function)の連続関数化とBackpropagationにより多層 化が可能となり解消したと⾔われる. • MinskyとPapertによる指摘によりニューラルネットワークブームが終 わったと⾔われることが多い. (0, 1) (1, 1) (0, 0) (1, 0) (0, 1) (1, 1) (0, 0) (1, 0) XOR AND XORの場合,直線で分けられない(線形分離不可能). ANDの場合,直線で分けられる(線形分離可能). 入力を座標,出力を白黒(それぞれ0,1に対応)で 表現している. MinskyとPapertのPerceptronsでは,パーセプトロンはx=yを判別 することができないことを示している.

47.

確率的⽣成モデル

48.

確率的⽣成モデル • 分類を確率的な視点で考えてみる. • データ点𝒙が与えられたとき,それがクラス𝐶2 である事後確率は次のよう に書ける. • 𝑝 𝐶2 𝒙 • テータ点𝒙のとき時のクラスが𝐶! である確率 • ベイズ定理から 𝑝 𝐶2 𝒙 は 𝑝 𝒙 𝐶% 𝑝 𝐶% 𝑝 𝒙 = 𝑝 𝒙 𝑝 𝒙 ∣ 𝐶% 𝑝 𝐶% 1 = = 𝑝 𝒙 ∣ 𝐶% 𝑝 𝐶% 𝑝 𝒙 ∣ 𝐶& 𝑝 𝐶& 𝑝 + 1+ 𝑝 𝒙 𝐶% 𝑝 𝐶% 𝑝 𝒙 𝐶% 𝑝 𝐶% 𝑝 𝑝 𝐶% 𝒙 = • となる. 𝐶% 𝑝 𝐶% + 𝑝 𝒙 ∣ 𝐶& 𝑝 𝐶& 1 𝒙 ∣ 𝐶& 𝑝 𝐶& 𝒙 𝐶% 𝑝 𝐶%

49.

ロジスティックシグモイド関数 • 5 𝒙∣7F 5 7F 5 𝒙 𝐶$ 5 7G • 𝑝 𝐶$ 𝒙 = = exp −𝑎 とおくと $ $89:;(/=) = 𝜎(𝑎) • と書ける. • 𝜎(𝑎)をロジスティックシグモイド関数という.

50.

他クラス問題とソフトマックス関数 • 𝐾 > 2の他クラス問題を考える.このときの事後確率𝑝 𝐶. 𝑥 は • 𝑝 𝐶. 𝑥 = 𝑥 𝐶. H 7& ∑' H 𝑥 𝐶1 H 7' H • ここで 𝑝 𝑥 𝐶. 𝑝 𝐶. = exp(𝑎. )とおくと IJK L& ' IJK L' • 𝑝 𝐶. 𝑥 = ∑ • となる.𝑎. = ln 𝑝 𝑥 𝐶. 𝑝 𝐶. である. • この関数は正規化指数関数として知られ,ロジスティックスシグモイド関 数の多クラスへの⼀般化とみなせる. • また,この関数はソフトマックス関数としても知られている. • 緩やかなマックスを取ることができるためである.

51.

ロジスティック回帰 回帰と銘打ってあるが分類⼿法である.

52.

事後確率とロジスティックシグモイド関数 • ⼊⼒ベクトル𝒙を特徴ベクトル𝝓に変換する. • 特徴ベクトルがクラス𝐶$ に所属する確率(事後確率)は • 𝑝 𝐶$ 𝝓 = 𝑦 𝝓 = 𝜎 𝒘! 𝝓 • と書ける. 𝜎(⋅)はロジスティックスシグモイド関数である. • このモデルをロジスティック回帰という.

53.

最尤推定によるパラメタの決定 • ロジスティック回帰モデルを⽤い正しく分類するためには最適な重み ベクトル(パラメタ)を求める必要がある. • 最尤推定を⽤いパラメタを決定する.

54.

最尤推定によるパラメタの決定 • ここでは2クラス問題を取り扱う. • データ集合𝑋 = 𝝓# , 𝑡# , 𝑡 ∈ 0,1 , 𝑛 = 1, … , 𝑁があるとする.このとき の尤度関数は 𝑝 𝒕 𝒘 = 𝑝 𝐶! 𝒘, 𝝓! H8 I = G 𝑝 𝐶# 𝒘, 𝝓# #J! 1 − 𝑝 𝐶! 𝒘, 𝝓! HE !?H8 1 − 𝑝 𝐶! 𝒘, 𝝓# ⋯ 𝑝 𝐶! 𝒘, 𝝓I !?HE HD 1 − 𝑝 𝐶! 𝒘, 𝝓I HE 1 − 𝑦 𝝓# I = G 𝑦 𝝓# !?HD !?HE #J! I H = G 𝑦#E 1 − 𝑦# !?HE #J! • となる.ここで𝒕 = 𝑡$ , … , 𝑡% ), 𝑦# = 𝑦 𝝓# = 𝜎 𝒘! 𝝓# とした. !&%" なぜ𝑝 𝐶! 𝒘, 𝝓! %" 1 − 𝑝 𝐶! 𝒘, 𝝓! なのか. 𝝓! がクラス𝐶! である場合𝑡! = 1となる.このとき𝑡! − 1 = 0となる.よって, 𝝓! がクラス𝐶! で ある場合は𝑝 𝐶! 𝒘, 𝝓! が残り, 𝝓! がクラス𝐶" である場合は𝑝 𝐶" 𝒘, 𝝓! = 1 − 𝑝 𝐶! 𝒘, 𝝓! が残る. 𝑝 𝐶! 𝒘, 𝝓! は 𝝓! がクラス𝐶! である確 率を表す.つまり,𝑝 𝐶! 𝒘, 𝝓! = 𝑝 𝑡! = 1 𝒘, 𝝓! となる. また, 𝑦 𝝓 = 𝜎 𝒘' 𝝓 だから,最終的に𝒘は⾒えなくなる(𝑦$ の中に⼊っている).

55.

最尤推定によるパラメタの決定 • 誤差関数を負の対数尤度とする.これをクロスエントロピー誤差関数とい う. 𝑑𝜎 𝒘3 𝝓1 𝑑 1 M 𝑦2 = = N 𝐸 𝒘 = − ln 𝑝 𝒕 𝒘 = − A ln 𝑦<0 1 − 𝑦< M 1 𝑑𝒘 𝑑𝒘 1 + exp −𝒘3 𝝓1 −𝝓1 exp −𝒘3 𝝓1 = 1 + exp −𝒘3 𝝓1 " 𝝓1 − exp −𝒘3 𝝓1 = 1 + exp −𝒘3 𝝓1 1 + exp −𝒘3 𝝓1 = 𝝓1 𝜎 −𝒘3 𝝓1 1 − 𝜎 −𝒘3 𝝓1 = 𝝓1 𝑦1 1 − 𝑦1 %ON0 <L% = − A 𝑡< ln 𝑦< + 1 − 𝑡< ln 1 − 𝑦< <L% • これを𝒘について微分すると M ∇𝐸 𝒘 = A 𝑦< − 𝑡< 𝝓< <L% • となる. ) ∇𝐸 𝒘 = − R ) =−R $(! ) $(! 𝑡$ 𝑦$* −𝑦$* + 1 − 𝑡$ 𝑦$ 1 − 𝑦$ 𝑡$ 𝝓$ 𝑦$ 1 − 𝑦$ −𝝓$ 𝑦$ 1 − 𝑦$ + 1 − 𝑡$ 𝑦$ 1 − 𝑦$ ) = − R 𝑡$ 𝝓$ 1 − 𝑦$ − 1 − 𝑡$ 𝝓$ 𝑦$ = − R 𝑡$ − 𝑡$ 𝑦$ − 𝑦$ + 𝑡$ 𝑦$ 𝝓$ $(! ) ) $(! = − R 𝑡$ − 𝑦$ 𝝓$ = R 𝑦$ − 𝑡$ 𝝓$ $(! $(! • データが⼀つづつ提供される場合(online学習する場合),⼊⼒𝒙5 に対応す る勾配の𝑛番⽬の項を⽤いた勾配法を使えば最適な𝒘が求まる.

56.

ニュートン-ラフソン法 • wを尤度関数から解析的に求めるのは難しい.そこでニュートン-ラフ ソン法(ニュートン法)を⽤いた反復最適化法を⽤い,batch学習に より最適なwを求めることにする. • 関数𝐸(𝑤)を最⼩化するニュートン-ラフソン法の𝒘の更新式は • 𝒘[email protected] = 𝒘 − 𝐇 /$ ∇𝐸 𝒘 • と書かれる.𝐇は𝒘に関する𝐸(𝒘)の2階微分を要素とするヘッシアンで ある.

57.

クロスエントロピーのヘッシアン • ロジスティック回帰におけるクロスエントロピー誤差関数の勾配は次 のように書ける. ) • ∇𝐸 𝒘 = ∑% #,$ 𝑦# − 𝑡# 𝝓# = 𝚽 (𝒚 − 𝒕) • ここで𝚽は𝑁×𝑀の⾏列であり,𝑛番⽬の⾏は𝝓)# で与えられる. 途中式 𝑦" − 𝑡" M ∇𝐸 𝒘 = A 𝑦< − 𝑡< 𝝓< = 𝑦% − 𝑡% 𝝓% + ⋯ + 𝑦M − 𝑡M 𝝓M = 𝝓% , … , 𝝓M <L% 𝜙%% ⋮ = 𝜙%S ⋯ ⋱ ⋯ 𝜙M% ⋮ 𝜙MS 𝑦% ⋮ 𝑦2 𝑡% − ⋮ 𝑡2 𝜙%% ⋮ = 𝜙M% ⋯ ⋱ ⋯ 𝜙%S ⋮ 𝜙MS ' ⋮ 𝑦$ − 𝑡$ 𝒚 − 𝒕 = 𝚽 ' (𝒚 − 𝒕)

58.

クロスエントロピーのヘッシアン • ヘッシアンは勾配の微分なので • 𝐇 = ∇∇𝐸 𝒘 = 𝚽 )𝐑𝚽 • となる.𝐑は𝑁×𝑁の対⾓⾏列を表し,𝑅## = 𝑦# 1 − 𝑦# である. • 𝐑を重み付け⾏列という. 途中式 ' 𝐇 = ∇∇𝐸 𝒘 = ∇ 𝚽 𝒚 − 𝒕 ' = 𝚽 diag 𝑦% 1 − 𝑦% diagは対⾓⾏列を表す. ⋯ = ∇𝚽 𝒚 = ∇𝚽 7 ' 𝑦M 1 − 𝑦M 𝑦! ⋮ 𝑦M =𝚽 𝝓" ⋮ = 𝚽 ' 𝐑𝚽 𝝓$ ' 𝑦% 1 − 𝑦% 𝝓% ⋮ 𝑦$ 1 − 𝑦$ 𝝓'

59.

更新式 • ニューロン-ラフソン法による𝒘の更新式は次のようになる. 𝒘345 = 𝒘 − 𝐇 6! ∇𝐸 𝒘 = 𝒘 − 𝚽7 𝐑𝚽 6! 𝚽7 𝒚 − 𝒕 = 𝚽7 𝐑𝚽 6! 𝚽7 𝐑𝚽𝒘 − 𝚽7 𝒚 − 𝒕 = 𝚽7 𝐑𝚽 6! 𝚽7 𝐑𝚽𝒘 − 𝒚 − 𝒕 = 𝚽7 𝐑𝚽 6! 𝚽7 𝐑 𝚽𝒘 − 𝐑6! 𝒚 − 𝒕 = 𝚽7 𝐑𝚽 6! 𝚽7 𝐑𝐳 • ここで,𝐳は次の式で表される𝑁次元ベクトルである. • 𝐳 = 𝚽𝒘 − 𝐑=2 𝒚 − 𝒕 • 𝑤を求める正規⽅程式が求まったが,𝑤を求めるためには繰り返し計算を する必要がある. • 𝐑も𝒘に依存しているため,繰り返し計算し直さねばならない. • このことから,このアルゴリズムを反復再重みつけ最⼩⼆乗法(IRLS: Iterative Reweighted Least Squares method)と呼ばれる.

60.

多クラスロジスティック回帰 • 多クラス分類においては,事後確率がソフトマックス関数で与えられ ることを以前述べた. 9:; =Q R 9:; =R • 𝑝 𝐶' 𝝓 = 𝑦' 𝝓 = ∑ • ここで𝑎' = 𝒘)' 𝝓である. • 分類を正確に⾏うためには最適なパラメタ𝒘' を求める必要がある. • ここでも最尤推定を⽤いパラメタ𝒘' を求める.

61.

多クラスロジスティック回帰 • データ集合𝑋 = 𝝓5 , 𝒕5 , 𝒕5 = 𝑡52 , … , 𝑡5. , … , 𝑡5d , 𝑡5. ∈ 0,1 , 𝑛 = 1, … , 𝑁があ るとする. • 𝝓5 が所属しているクラスを𝐶. とした場合,⽬的変数𝒕5 の𝑘番⽬の要素が1 でそれ以外は0となる(1-of-k coding). • 尤度関数は d • 𝑝 𝐓 𝒘 𝟏 , … , 𝒘 . = ∏4 5f2 ∏.f2 𝑝 𝐶. 𝝓5 g4& g d 4& = ∏4 5f2 ∏.f2 𝑦5. g • ここで𝑦hi4& = 𝑦g 𝝓5 , 𝐓 = 𝒕2 , … , 𝒕5 , … , 𝒕4 とする. • ⽬的関数(負の対数尤度)は d • 𝐸 𝒘𝟏 , … , 𝒘. = − ln 𝑝 𝐓 𝒘𝟏 , … , 𝒘. = − ∑4 5f2 ∑.f2 𝑡5. ln 𝑦5. • となる.これは多クラス分類問題におけるクロスエントロピーである.

62.

⽬的関数の勾配 • 𝒘B に関する⽬的関数の勾配は • ∇𝒘R 𝐸 𝒘𝟏 , … , 𝒘' = ∑% #,$ 𝑦#B − 𝑡#B 𝝓# • となる.これを使ったonline学習を⾏うことができる. ) . よって ∇𝒘# 𝐸 𝒘𝟏 , … , 𝒘- = −∇𝒘# R R 𝑡$- ln 𝑦$まず,∇𝒘# ln 𝑦$/ = ∇𝒘# 𝑦$/ ! 0$# ) ∇𝒘# 𝑦$/ を求める. ∇𝒘# exp 𝑎/ exp 𝑎/ = ∇𝒘 # = ∑- exp 𝑎- ∇𝒘# 𝑦$1 = ∇𝒘# ! 0$% . = − R 𝑡$/ 𝝓$ 1 − 𝑦$/ + R 𝑡$- −𝝓$ 𝑦$/ ∑- exp 𝑎- − exp 𝑎/ ∇𝒘# exp 𝑎/ ∑- exp 𝑎- " 𝝓$ exp 𝑎/ ∑- exp 𝑎- − 𝝓$ exp 2𝑎/ 𝝓$ exp 𝑎/ exp 𝑎/ = = − 𝝓$ " ∑- exp 𝑎∑- exp 𝑎∑- exp 𝑎= 𝝓$ 𝑦$/ 1 − 𝑦$/ 1 ∇𝒘# ln 𝑦$/ = ∇ 𝑦 = 𝝓$ 1 − 𝑦$/ 𝑦$/ 𝒘# $/ 次に, ∇𝒘# ln 𝑦$1 = ∇𝒘# 𝐸 𝒘𝟏 , … , 𝒘- $(! -(! " ∇𝒘# 𝑦$1 を求める. − exp 𝑎1 ∇𝒘# exp 𝑎/ −𝝓$ exp 𝑎1 exp 𝑎/ exp 𝑎1 = = = −𝝓$ 𝑦$/ 𝑦$1 " ∑- exp 𝑎∑- exp 𝑎∑- exp 𝑎- " 1 ∇𝒘# ln 𝑦$1 = ∇ 𝑦 = −𝝓$ 𝑦$/ 𝑦$1 𝒘# $1 $(! -2/ ) . = − R 𝝓$ 𝑡$/ 1 − 𝑦$/ − 𝑦$/ R 𝑡$$(! ) -2/ ) = − R 𝝓$ 𝑡$/ + −𝑦$/ = R 𝝓$ 𝑦$/ − 𝑡$/ $(! $(! 1-of-K codingなので ∑. -(! 𝑡$- = 1となることを利⽤した.

63.

ヘッシアン • 𝒘' に関する⽬的関数のヘッシアンは ) • ∇𝒘Q ∇𝒘R 𝐸 𝒘𝟏 , … , 𝒘' = ∑% #,$ 𝑦#' 𝐼'B − 𝑦#B 𝝓# 𝝓# • となる.𝐼'B は𝐾×𝐾の単位⾏列の要素である. • ヘッシアンが求まれば,Newton-Raphson法を⽤いたbatch学習が可 途中式 能となる. ) ) ∇𝒘& ∇𝒘# 𝐸 𝒘𝟏 , … , 𝒘- = ∇𝒘& R 𝑦$/ − 𝑡$/ 𝝓#$ = R ∇𝒘& 𝑦$/ 𝝓#$ 𝑘 = 𝑗のとき $(! $(! ) ∇𝒘& ∇𝒘# 𝐸 𝒘𝟏 , … , 𝒘- = R 1 − 𝑦$/ 𝝓$ 𝝓#$ $(! 𝑘 ≠ 𝑗のとき ) ∇𝒘& ∇𝒘# 𝐸 𝒘𝟏 , … , 𝒘- = R −𝑦$/ 𝝓$ 𝝓#$ $(! 𝑘 = 𝑗のとき1,𝑘 ≠ 𝑗のとき0となるような変数は 𝐾×𝐾の単位⾏列の要素あるから, ) ∇𝒘& ∇𝒘# 𝐸 𝒘𝟏 , … , 𝒘- = R 𝑦$- 𝐼-/ − 𝑦$/ 𝝓$ 𝝓#$ となる. $(!

64.

補⾜:正規⽅程式 • ⼊⼒𝑋 = {𝒙2 , … , 𝒙4 }と対応する⽬標値𝐭 = 𝑡2 , … , 𝑡4 8 からなるデータ集合を 考える. • ⼊⼒ベクトル𝒙は特徴ベクトル𝝓(𝒙)に変換されるとし, ⽬標値は関数 𝑦 𝒙, 𝒘 = 𝒘8 𝝓(𝒙)を中⼼としたガウス分布から⽣成されるとする. • このときの対数尤度は 8 =2 = • ln 𝑝 𝐭 𝒘, 𝛽 = ∑4 5f2 ln 𝑁 𝑡5 𝒘 𝝓 𝒙5 , 𝛽 • となる.𝐸j (𝒘)は 2 3 8 • 𝐸j 𝑤 = ∑4 5f2 𝑡5 − 𝒘 𝝓 𝒙5 3 • であり,⼆乗誤差関数となっている. 4 ln 𝛽 3 − 4 3 2𝜋 − 𝛽𝐸j 𝒘

65.

補⾜:正規⽅程式 • 対数尤度の勾配は ) • ∇ ln 𝑝 𝐭 𝑤, 𝛽 = 𝛽 ∑% #,$ 𝑡# − 𝒘 𝝓 𝒙# 𝝓 𝒙# ) • 勾配を0とおけば, ! • ∑% #,$ 𝑡# − 𝒘 𝝓 𝒙# 𝝓 𝒙# • ∑% #,$ 𝑡# 𝝓 𝒙# ) ) =0 − 𝑤 ! ∑% #,$ 𝝓 𝒙# 𝝓 𝒙# ) =0 • が得られる.これを𝑤について解くと, •𝑤= /$ ) ) 𝚽 𝚽 𝚽 𝑡 • が得られる.これは最⼩⼆乗法の正規⽅程式として知られる.また𝚽 は計画⾏列と呼ばれる.