フリーソフトでつくる音声認識システム(第2版) 第5章

755 Views

August 09, 23

#パターン認識 #勾配降下法 #誤差最小化法 #誤差最小化 #確率的勾配降下法 #解析的解法 #パーセプトロンの学習規則 #ミニバッチ法

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.9K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.2K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.7K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.7K

各ページのテキスト

5. 誤差をできるだけ小さくしよう 5.1 誤差評価に基づく学習とは 5.2 解析的な解法 5.3 勾配降下法 5.4 パーセプトロンの学習規則との比較荒木雅弘: 『フリーソフトでつくる音声認識システム（第2版）』（森北出版，2017年）スライドとJupyter notebook サポートページ

5. 誤差をできるだけ小さくしようパーセプトロンの学習規則の欠点学習データが線形分離不可能である場合には適用できない学習データが高次元である場合、線形分離可能性を事前に確認するのは一般には困難誤差最小化法評価関数で定義される「識別器の出力」と「正解」との誤差を最小化する学習データが線形分離不可能な場合にも適用可能

5.1 誤差評価に基づく学習とは (1/3) χ = {x1 , … , xn } あるデータ xp ∈ χ に対する線形識別関数 gi (xp ) = w Ti xp (i 学習データ: = 1, … , c) の出力 (g1 (xp ), … , gc (xp ))T xp に対する教師ベクトル（教師信号） (b1p , … , bcp )T 正解クラスの要素が 1、他は 0 入力 xp に対する「識別関数の出力」と「教師信号」との差が最小となるように、識別関数の重みベクトル w i を定める

5.1 誤差評価に基づく学習とは (2/3) i に関する誤差 : ϵip = gi (xp ) − bip ϵip の全クラス (i = 1, … , c) に対する二乗和を評価関数 Jp とするクラス c 1 Jp = ∑ ϵ2ip 2 i=1 c 1 = ∑{gi (xp ) − bip }2 2 i=1 c = 1 ∑(wTi xp − bip )2 2 i=1

5.1 誤差評価に基づく学習とは (3/3) 全データに対する二乗誤差 J n J = ∑ Jp p=1 n c 1 = ∑ ∑{gi (xp ) − bip }2 2 p=1 i=1 n c 1 = ∑ ∑(wTi xp − bip )2 2 p=1 i=1 w1 , … , wc を求める以後2クラス問題として、g(x) = g1 (x) − g2 (x) = w T x とするこの値を最小にする教師信号 b : クラス1は1、クラス2は-1

5.2 解析的な解法 (1/2) n × d 行列） : X = (x1 , … , xn )T 教師信号ベクトル（全教師信号をまとめた n 次元ベクトル） : b = (b1 , … , bn )T パターン行列（全特徴ベクトルをまとめた二乗誤差を評価関数とする 1 J = ∥Xw − b∥2 2 評価関数の勾配が 0（極小値）となる w を求める ∂J = X T (Xw − b) = 0 ∂w

5.2 解析的な解法 (2/2) 解くべき式 : X T Xw = X T b 最小二乗法 X T X が正則であるとき、以下のように解（識別関数の重み）が求まる w = (X T X)−1 X T b 解が求まらない可能性 X T X が正則であるとは限らない n, d が大きい場合は逆行列を求める計算が大変

5.3 勾配降下法 5.3.1 勾配降下法による最適化 w を J の傾き（微分係数）の逆方向に、学習系数 ρ で徐々に修正する ∂J w =w−ρ ∂w ′ 勾配降下法のイメージ

5.3.2 Widrow-Hoffの学習規則 (1/2) 勾配ベクトルの定義重みベクトル w = (w0 , … , wd ) の関数 J(w) に対して、勾配ベクトルを以下のように定義 ∂J ∂J ∂J T =( ,…, ) ∇J = ∂w ∂w0 ∂wd

10.

5.3.2 Widrow-Hoffの学習規則 (2/2) 修正式の導出 n ∂J ∂Jp =∑ ∂w ∂w p=1 n = ∑(wT xp − bp )xp p=1 w′ = w − ρ ∂J ∂w n = w − ρ ∑ ( w xp − b p ) xp T p=1 全データを用いた重みの修正を1エポックとよぶ Widrow-Hoff の学習規則は1エポックで1回の重み修正が行われる

11.

5.3.3 確率的勾配降下法 (1/3) 勾配降下法の問題点データ数やパラメータ数が多いと、1回の重み更新（=1エポック）に時間がかかる誤差最小に収束するには、多くのエポックが必要確率的勾配降下法個々のデータの識別結果に基づき重みを更新 1エポックで n 回重み修正が行われるデータは1エポック毎に順番をシャッフルし、出現順序をランダム化するデータが来る毎に学習するオンライン学習に適用が可能更新式 w′ = w − ρ(wT xp − bp )xp

12.

5.3.3 確率的勾配降下法 (2/3) ミニバッチ法全データの誤差を用いて修正方向を決める方法をバッチ法とよぶこれに対して確率的勾配降下法は、1つのデータだけで修正方向を決める解への収束が安定しないこれらの中間的手法として、数十～数百個のデータで誤差を計算し、修正方向を決める方法をミニバッチ法とよぶデータは1エポック毎に順番をシャッフルし、エポック毎にミニバッチを構成するデータが異なるようにするバッチサイズを s とすると、1エポックで n/s 回重み修正が行われる確率的勾配降下法よりも収束が安定する GPU (graphics processing unit) を用いた行列の一括演算と相性がよい

13.

5.3.3 確率的勾配降下法 (3/3) デモ： https://playground.tensorflow.org/ HIDDEM LAYERS:0, Activation:Linear, DATA:Gaussian, Noise:25, Batch size:10

https://playground.tensorflow.org/

14.

5.4 パーセプトロンの学習規則との比較 5.4.1 パーセプトロンの学習規則を導く更新式の導出確率的勾配降下法において教師信号 b を正解のときは1、不正解は0とする識別関数 g(x) = wT x の後ろに閾値論理ユニットを置き、出力を0または1に制限する誤識別のパターン重みの更新規則 → 誤差評価に基づく学習は、パーセプトロンの学習規則を特別な場合として含む

15.

5.4.2 着目するデータの違いパーセプトロンの学習規則識別関数、教師信号ともに２値全学習データに対して、識別関数の出力と教師信号が一致するまで重みの修正を繰り返す学習データが線形分離不可能な場合は収束しない誤識別を起こすデータに着目している誤差評価に基づく学習識別関数の出力を連続値とし、教師信号との二乗誤差の総和を最小化学習データが線形分離不可能な場合でも収束が保証されている学習データが線形分離可能な場合でも誤識別が 0 になるとは限らない全学習データに着目している

16.

まとめ誤差評価に基づく学習識別関数の出力と教師信号の二乗誤差の総和を最小化解析的な解法データ数が多くなると、計算量が膨大になる勾配降下法さまざまな工夫により、解析的な解法と同等の精度で短時間で解を求めることができる Jupyter notebook

https://github.com/MasahiroAraki/SpeechRecognition/blob/master/Python/chap05.ipynb