フリーソフトでつくる音声認識システム(第2版) 第6章

309 Views

August 10, 23

#パターン認識 #svm #サポートベクトルマシン #学習アルゴリズム #線形分離 #高次元写像 #カーネル法

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.9K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.2K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.7K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.7K

各ページのテキスト

6. 限界は破れるか（１）－サポートベクトルマシン－ 𝛟 もとの次元で線形分離不可能なデータ線形分離可能性の⾼い⾼次元へ 6.1 識別面は見つかったけれど 6.2 サポートベクトルマシンの学習アルゴリズム 6.3 線形分離可能にしてしまう荒木雅弘: 『フリーソフトでつくる音声認識システム（第2版）』（森北出版，2017年）スライドとJupyter notebook サポートページ

6.1 識別面は見つかったけれどパーセプトロンの学習規則の2つの限界 1. 学習データが線形分離可能ならば識別面が見つかるが、信頼できる識別面とは限らない 2. 学習データが線形分離不可能である場合は、学習が停止しない限界1について（学習データは線形分離可能と仮定）パーセプトロンの学習規則は全学習データが識別可能となった段階で停止するので、どの識別面が見つかるかわからない未知データに強そう未知データに弱そう

6.2 サポートベクトルマシンの学習アルゴリズム 6.2.1 サポートベクトル線形サポートベクトルマシン(SVM) : マージン最大となる線形識別面を求めるマージン : 識別面と最も近いデータ（サポートベクトル）との距離マージンサポートベクトル (a) マージンの⼩さい識別⾯ (b) マージンの⼤きい識別⾯

6.2.2 マージンを最大にする (1/4) マージン最大化問題の定式化 {(xi , yi )} i = 1, … , N 線形識別面の式 : w T x + w0 = 0 学習データ : yi = 1 or − 1 係数に関する制約の導入（係数を定数倍しても平面は不変） : mini ∣wT xi + w0 ∣ = 1 最大化の対象 : データと識別面との距離 (Dist) の最小値（＝マージン） ∣wT xi + w0 ∣ 1 = min Dist(xi ) = min i i ∥w∥ ∥w∥ 参考）2次元平面での点と直線の距離の公式 r= ∣ax + by + c∣ a 2 + b2

6.2.2 マージンを最大にする (2/4) 目的関数の置き換え : min 12 ∥w∥2 最大化対象の分母の最小化最小化問題として解きやすいように、2乗しておく制約条件 : yi (w T xi + w0 ) ≥ 1 i = 1, … , n 解法 : ラグランジュの未定乗数法例題（2変数、等式制約）: min f (x, y) s.t. g(x, y) = 0 L(x, y, α) = f (x, y) − αg(x, y) ラグランジュ係数の制約 α ≥ 0 x, y, α で偏微分して0になる値が目的関数の極値ラグランジュ関数 : ∂L ∂L ∂L = = =0 ∂x ∂y ∂α

6.2.2 マージンを最大にする (3/4) より解きやすい問題への変換 L(α) の最小化は αi ≥ 0 についての2次計画問題なので極値をとる α が容易に求まる n 1 L(w, w0 , α) = ∥w∥2 − ∑ αi (yi (wT xi + w0 ) − 1) 2 i=1 ∂L =0 ∂w0 ∂L =0 ∂w n ⇒ ∑ αi y i = 0 i=1 n ⇒ w = ∑ α i y i xi i=1 n n 1 → L(α) = ∑ αi αj yi yj xTi xj − ∑ αi 2 i,j=1 i=1

6.2.2 マージンを最大にする (4/4) 定数項 w0 は各クラスのサポートベクトルから求める wT x+ + w0 = 1, wT x− + w0 = −1 1 T → w0 = − (w x+ + wT x− ) 2 マージンが最大の識別関数サポートベクトルに対応する αi のみが正の値、残りは 0 マージン最大の識別面の決定にはサポートベクトルしか関与しない g(x) = wT x + w0 n = ∑ αi yi xTi x + w0 i=1

（補足）演習問題6.1 少数のデータが線形分離可能性を満たさない場合 i 番目のデータが制約を破っている度合いを表す変数 ξi (≥ 0) を導入し，制約式を変更 yi (wT xi + w0 ) ≥ 1 − ξi (i = 1, … , n) 目的関数に ξi の総和に重みを表す C を掛けて加える n 1 min ∥w∥2 + C ∑ ξi 2 i=1 解には 0 ≤ αi ≤ C という制約が加わるだけ

6.3 線形分離可能にしてしまう 6.3.1 高次元空間への写像限界2の問題（線形分離不可能なデータ）への対処クラスが複雑に入り交じった学習データを、線形分離可能性が高まる高次元空間に写像ただし、もとの空間でのデータ間の近接関係は保持する 𝛟 もとの次元で線形分離不可能なデータ線形分離可能性の⾼い⾼次元へ

10.

6.3.2 カーネル法 (1/2) 高次元空間への変換関数： 2つのベクトル ϕ(x) x, x′ の近さを表すカーネル関数 K(x, x′ ) を導入元の空間での近さを変換後の空間の内積に対応させる K(x, x′ ) = ϕ(x)T ϕ(x′ ) カーネル関数の例 K(x, x′ ) = (xT x′ + r)d ガウシアンカーネル K(x, x′ ) = exp(−γ∥x − x′ ∥2 ) 多項式カーネルこれらのような、正定値性とよばれる性質を満たすカーネルであれば、対応する変換関数が存在することが数学的に保証されている

11.

6.3.2 カーネル法 (2/2) g(x) = wT ϕ(x) + w0 n サポートベクトルマシンを適用し、w = ∑i=1 αi yi ϕ(xi ) を代入高次元空間での識別関数： n g(x) = ∑ αi yi ϕ(xi )T ϕ(x) + w0 i=1 n = ∑ αi y i K ( x i , x ) + w 0 i=1 変換関数が不要になった（＝カーネルトリック）変換後の空間での線形識別面は、もとの空間での複雑な非線形識別面に対応

12.

6.3.3 具体的なカーネル関数 d = 2, r = 1）の展開多項式カーネル（特徴が2次元ベクトルで加算項が1, K(x, x′ ) = (xT x′ + 1)2 = (x1 x′1 + x2 x′2 + 1)2 = x21 x′1 2 + x2 2 x′2 2 + 2x1 x2 x′1 x′2 + 2x1 x′1 + 2x2 x′2 + 1 ′2 ′ ′ ′ ′ = (x21 , x22 , 2x1 x2 , 2x1 , 2x2 , 1) ⋅ (x′2 1 , x2 , 2x1 x2 , 2x1 , 2x2 , 1) 6次元空間に写像されている

13.

（補足）演習問題6.2 2クラス分類器を用いた多クラス分類 (1/2) one-versus-rest法各クラスについて、そのクラスに属するか、他のクラスかを識別する SVM を作る 2つ以上のクラスに属すると判定された場合は、識別面からの距離が大きいものに分類

14.

2クラス分類器を用いた多クラス分類 (2/2) ペアワイズ法クラス対ごとに SVM を作る判定は多数決を取る

15.

まとめサポートベクトルマシンの特徴学習は2次計画問題なので、必ず最適解が見つかる求めるパラメータ αi の大半が 0 となるので，この状況に特化した最適化アルゴリズム（たとえば SMO）で高速化が可能カーネル関数を用いて、特徴ベクトルを線形分離可能性が高い高次元空間に非線形写像することができる 2つのデータ間にカーネル関数さえ定義できれば，元のデータはグラフや木構造のような特徴ベクトルの形で表現されていないものでもよい 2クラスの分類器なので、多クラスの分類には工夫が必要 Jupyter notebook

https://github.com/MasahiroAraki/SpeechRecognition/blob/master/Python/chap06.ipynb