フリーソフトではじめる機械学習入門 (第2版) 第11章

1.1K Views

October 28, 23

#機械学習 #教師なし学習 #モデル推定 #クラスタリング #異常検知

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.9K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.2K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.7K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.7K

各ページのテキスト

11. モデル推定 11.1 数値特徴に対する「教師なし・モデル推定」問題の定義 11.2 クラスタリング 11.3 異常検出 11.4 確率密度推定荒木雅弘: 『フリーソフトではじめる機械学習入門（第2版）』（森北出版，2018年）スライドとJupyter notebook サポートページ

11.1 数値特徴に対する「教師なし・モデル推定」問題の定義(1/3) 問題設定教師なし学習正解なし数値ベクトル → クラスモデルデータ全体を説明するモデルを見つける機械学習教師あり学習教師なし学習中間的学習モデル推定応用例顧客セグメンテーション異常検知パターンマイニング

11.1 数値特徴に対する「教師なし・モデル推定」問題の定義(2/3) データセット（正解なし）（密な）d次元数値ベクトルの集合 {xi } i = 1, … , N モデル推定とはクラスタリング個々のデータを生じさせた共通の性質をもつクラスを見つける確率密度推定クラスの統計的性質を推定する与えられたデータを1クラスとみなすと、異常検知が行える

11.1 数値特徴に対する「教師なし・モデル推定」問題の定義(3/3) 正解なしデータ、クラスタリング結果、確率密度推定結果

11.2 クラスタリングクラスタリングとは「共通の性質をもつクラス」= 「特徴空間上で近い値をもつデータの集まり」と考え、データのまとまりを見つけるまとまり：「内的結合の小ささ」と「外的分離の大きさ」が同時に満たされる集合内的結合: 同じ集合内のデータ間の距離外的分離: 異なる集合間の距離クラスタリング手法の分類階層的手法ボトムアップ的にデータをまとめてゆく分割最適化手法トップダウン的にデータ集合を分割し、最適化してゆく

11.2.1 階層的クラスタリング (1/5) 階層的クラスタリングの手順 1. 1データ1クラスタからスタート 2. 距離(linkage)が最小のクラスタ対を求めて、1つにまとめる 3. 2.を繰り返し、全データが1クラスタになれば終了

11.2.1 階層的クラスタリング (2/5) 距離(linkage)の定義とできるクラスタの傾向単連結法(single) 定義：最も近いデータ対の距離傾向：クラスタが一方向に伸びやすくなる完全連結法(complete) 定義：最も遠いデータ対の距離傾向：直径の小さいクラスタが優先的に形成される群平均法(average) 定義：すべてのデータ対の距離の平均傾向：単連結と完全連結の中間的な形 Ward法(ward) 定義：融合前後の「クラスタ内のデータと平均との距離の二乗和」の差傾向：極端な形になりにくく、よく用いられる基準

11.2.1 階層的クラスタリング (3/5) irisデータの0, 1次元目から2次元の教師なしデータを作成してクラスタリング import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.cluster import AgglomerativeClustering, KMeans, AffinityPropagation from sklearn.mixture import GaussianMixture from sklearn.neighbors import LocalOutlierFactor iris = load_iris() X = iris.data[:,0:2] # データ表示用関数 def result_plot(X, y): for t in set(y): plt.scatter(X[y==t,0], X[y==t,1]) plt.legend(set(y))

11.2.1 階層的クラスタリング (4/5) `AgglomerativeClustering` のパラメータ `linkage`: 距離の基準。デフォルトは `ward` `n_clusters`: 結果のクラスタ数。デフォルトは2 メソッド `fit`: 正解なしデータを引数として呼び出すと、`labels_` 属性にクラスタリング結果が得られる # クラスタ数を3に指定して階層的クラスタリング ac = AgglomerativeClustering(n_clusters=3) ac.fit(X) result_plot(X, ac.labels_)

10.

11.2.1 階層的クラスタリング (5/5) 距離の基準とクラスタリング結果 single complete average ward

11.

11.2.2 分割最適化クラスタリング (1/5) 分割最適化クラスタリングとはデータ分割の良さを評価する関数を定め、その評価関数の値が最適となる分割を求めるただし、すべての可能な分割に対して評価値を求めることは、データ数不可能例：2分割で 2N 通り従って、適切な初期値から探索によって準最適解を求める N が大きくなると

12.

11.2.2 分割最適化クラスタリング (2/5) k-meansアルゴリズム 1. 分割数 k を予め与え、乱数で k 個のクラスタ中心を設定 2. 各データについて、クラスタ中心との距離に基づいて所属クラスタを決定 3. 各クラスタについて、クラスタ中心を所属データの平均ベクトルの位置に移動する 4. クラスタ中心の変化がなくなるまで 2, 3を繰り返し × × × × × × × × 初期クラスタ中⼼の配置所属クラスタの決定クラスタ中⼼の計算所属クラスタの決定 × × クラスタ中⼼の計算

13.

11.2.2 分割最適化クラスタリング (3/5) `KMeans` のパラメータ `init`: 初期クラスタの決め方デフォルトは初期クラスタが散らばるようにする `kmeans++` `n_clusters`: クラスタ数。デフォルトは8 km = KMeans(n_clusters=3) km.fit(X) result_plot(X, km.labels_)

14.

11.2.2 分割最適化クラスタリング (4/5) k-means法の問題点 1 分割数 k を予め決めなければならない解決法エルボーメソッドデータとクラスタ中心との平均二乗距離 (inertia) を結果の評価値として、その値の減り方が inertia 鈍るところを見つける k 2 3 4 5 6 7 8

15.

11.2.2 分割最適化クラスタリング (5/5) k-means法の問題点 2 得られる結果が初期値に大きく依存する解決法 ⇒ Affinity Propagation アルゴリズムすべてのデータがクラスタ中心の候補クラスタ中心らしさ (responsibility)とクラスタへの属しやすさ(availability) をデータ間で伝達して収束させるクラスタ数を予め決める必要がない

16.

Affinity Propagation (1/3) データ i とデータ k の間に定義される3つの関数 s(i, k) : データ i とデータ k の類似度。距離の反数がよく用いられる r(i, k) : データ k がデータ i が属するクラスタの代表点となるべき証拠の累積値 ′ ′ r(i, k) ← s(i, k) − max {a(i, k ) + s(i, k )} ′ ∀k  =k a(i, k) : データ i がデータ k を代表点とするクラスタに所属するべき証拠の累積値 a(i, k) ← min{0, r(k, k) + ∑ max(0, r(i′ , k))} f or i  =k i′ ∈{i,k} / a(k, k) ← ∑ max(0, r(i′ , k)) i′ ∈{i,k} /

17.

Affinity Propagation (2/3) Affinity Propagationのアルゴリズム 1. r, aの値を0で初期化 2. r を以下の式で更新(λは学習率) rt+1 (i, k) = λrt (i, k) + (1 − λ)rt+1 (i, k) 3. aを以下の式で更新 at+1 (i, k) = λat (i, k) + (1 − λ)at+1 (i, k) 4. 2,3 を収束するまで繰り返し、r(i, i) + a(i, i) > 0 となるものが代表点

18.

Affinity Propagation (3/3) `AffinityPropagation` のパラメータ `preference`: 各点の代表点としての選ばれやすさ。負にするとクラスタ数が少なくなるメソッド `fit`: `labels_`属性にクラスタリング結果、`cluster_centers_`属性に代表点のリストが得られる ap=AffinityPropagation() ap.fit(X) result_plot(X, ap.labels_)

19.

11.3 異常検知 (1/4) 異常検知とは外れ値検知：データ中で、他のデータから値が外れているものを検知変化点検知：時系列信号等で観測値の振舞いの変化点を検知（例：心電図データの異常）外れ値検知（静的異常検知）データの分布から大きく離れている値を見つける手法観測値 x と、データの確率分布（平均 μ、共分散行列 Σ）とのマハラノビス距離 a(x) に基づいて判断する a(x) = (x − μ)T Σ−1 (x − μ) 近傍のデータ密度の違いに基づいて判断する（局所異常因子）

20.

11.3 異常検知 (2/4) 局所異常因子による外れ値検知周辺密度あるデータの周辺の他のデータの集まり具合局所異常因子(LOF: local outlier factor) あるデータの周辺密度と、その近くの k 個のデータの周辺密度の平均との比 : 周辺密度が⾼いデータｋから⾒て3番⽬までに近いデータから⾒て3番⽬までに近いデータ : 周辺密度が低いデータ

21.

11.3 異常検知 (3/4) 局所異常因子の計算到達可能距離（x(k) は x に k 番目に近いデータ） RDk (x, x′ ) = max(∥x − x(k) ∥, ∥x − x′ ∥) 局所到達可能密度 k 1 LRDk (x) = ( ∑ RDk (x(i) , x))−1 k i=1 局所異常因子 LOFk (x) = 1 k ∑ki=1 LRDk (x(i) ) LRDk (x)

22.

11.3 異常検知 (4/4) `LocalOutlierFactor` のパラメータ `n_neighbors`: 近傍とするデータ数。デフォルトは20 `novelty`: 新規性検出に用いるか。デフォルトは`False` X, _ = load_iris(return_X_y=True, as_frame=True) X['petal width (cm)'][0] = 2.5 + 0.76 # 異常値(最大値+1標準偏差)の混入 lof = LocalOutlierFactor() lof.fit(X) X['lof'] = lof.negative_outlier_factor_ X.hist(column='lof')

23.

11.4 確率密度推定 (1/5) 教師なし学習で識別器を作る問題クラスタリング結果からは、1クラス1プロトタイプの単純な識別器しかできない各クラスの事前確率や確率密度関数も推定したいガウス混合分布モデルデータの広がりを複数の正規分布の混合で表す k 個の初期分布を与え、EMアルゴリズムで最適化してゆく分布分布

24.

11.4 確率密度推定 (2/5) k-means法からガウス混合分布モデルへ（EMアルゴリズム） k 個のクラスタ中心を乱数で決める ⇒ k 個の正規分布を乱数で決めるクラスタ中心との距離を基準に各データをいずれかのクラスタに所属させる ⇒ データが分布から生成される確率に基づき、データを各クラスタに緩やかに所属させる所属させたデータをもとにクラスタ中心を再計算 ⇒ データのクラスタへの所属度に基づき、分布のパラメータ(平均、共分散行列)を再計算

25.

11.4 確率密度推定 (3/5) E (Expectation) ステップ：確率計算 p(cm )p(xi ∣ cm ) p(xi ) p(cm )p(xi ∣ cm ) = k ∑j=1 p(cj )p(xi ∣ cj ) p(cm ∣ xi ) = = p(cm )ϕ(xi ; μm , Σm ) ∑kj=1 p(cj )ϕ(xi ; μj , Σj ) M (Maximization) ステップ：分布の最尤推定 μm = 1 ∑ p(cm ∣ xi ) xi ∣D∣ x ∈D i Σm = 1 ∑ p(cm ∣ xi )(xi − μm )(xi − μm )T ∣D∣ x ∈D i

26.

11.4 確率密度推定 (4/5) ガウス混合分布モデルの問題点分割数 k を予め決めなければならない情報量規準の最小化 2分割から始めて、分割数を適応的に決定する分割の妥当性の判断：BIC (Bayesian Information Criterion)が小さくなれば分割を継続 BIC = −2 log L + q log N L: モデルの尤度 q : モデルのパラメータ数 N : データ数

27.

11.4 確率密度推定 (5/5) `GaussianMixture` のパラメータ `n_clusters`: 分布の混合数。デフォルトは1 `covariance_type`: 共分散行列のタイプ指定。デフォルトは`full` メソッド `fit`: `means_`属性に平均ベクトル、`covariances_`属性に共分散行列が得られる gmm = GaussianMixture(n_components=3, covariance_type='full') gmm.fit(X)

28.

11.5 まとめモデル推定データのまとまりを発見するプロセス階層的クラスタリング類似度に基づいてボトムアップにデータをまとめてゆく分割最適化クラスタリングトップダウンでのデータの分割を最適化確率密度推定分割最適化クラスタリングの一般化