２０２２年度マテリアルズ・インフォマティクス連続セミナー：次元圧縮・分類・クラスタリング

9.7K Views

December 20, 22

#データ解析学 #機能分解木 #セミナー #マテリアルズ・インフォマティクス #次元圧縮 #分類 #クラスタリング

スライド概要

マテリアルズ・インフォマティクス連続セミナー第二回
動画（音量修正版、2022, Dec. 27修正）：https://youtu.be/wrANu-Cqv_0 .
ソースコード（2023, Jan. 9 改定）：https://bitbucket.org/kino_h/python_mi_seminar_2023/src/master/ .

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 71.1K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

マテリアルズ・インフォマティクスセミナーデータ解析学基礎機能分解木

木野日織 46.5K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナープログラミング大規模言語モデル

木野日織 46.3K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 44.7K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

マテリアルズ・インフォマティクスデータ解析学ベイズ最適化推薦システム

木野日織 24.9K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

マテリアルズ・インフォマティクスデータ解析学セミナー機能分解木回帰

木野日織 17.8K

各ページのテキスト

２０２２年度マテリアルズ・インフォマティクス連続セミナー第三回木野日織（きのひおり）

データ解析学手法の四過程（再）データから知見を得る 1. データを収集する 2. データを加工する 3. データから学習する 4. 結果の解釈を行う (階層構造の一例)

Scikit-learnの使い方（再）基本的な使い方が統一されています。回帰・分類・クラスタリング X: (N,P) reg = LinearRegression(…) y: (N) reg.fit(X,y) yp: (N) yp =reg.predict(X) 規格化・次元圧縮 Xtransformed: (N,P) dr = PCA(…) dr.fit(X) Xtransformed =dr.transform(X) dr.fit_transform(X) としか呼べないモジュールもあります。

ディレクトリとファイル 010.regression/ 020.dimentionality_reduction/ 030.classification/ 040.clustering/ 110.hea4_dos_clustering/ 120.tomography/ 130.descriptor_importance/ 140.exhaustive_search/ 150.Bayesian_optimization/ 160.recommender_system/ 500.itemset_mining/ 510.ERS/ 900.misc/ README.md data/ data_calculated/ 020.050.text.dimentionality_reduction_carbon8.ipynb 020.110.answer.PCA_sample.ipynb 020.120.answer.PCA_sample2.ipynb dimred_misc.py image_executed/

データの紹介 3D-000 3D-001 炭素構造データ元論文ではGRRM法により炭素８原子による結晶構造の構造探索を行っています。説明変数 Behlerの二体symmetry functionによる変換した量を説明変数とする。著作権のため構造は本ハンズオンに含まれません。 3D-003 3D-004 目的変数著作権のため全エネルギーをsiestaでPBE+D2で計算し直しています。このため論文の値が一致しません。 1. Makito Takagi, Tetsuya Taketsugu, Hiori Kino, Yoshitaka Tateyama, Kiyoyuki Terakura, and Satoshi Maeda, “Global search for low-lying crystal structures using the artificial force induced reaction method: A case study on carbon”, Phys. Rev. B 95, 184110, (2017) 2. Jörg Behler and Michele Parrinello, "Generalized Neural-Network Representation of High-Dimensional Potential-Energy Surfaces", Phys. Rev. Lett. 98, 146401(2007)

データの紹介炭素結晶構造観測データ sp, sp2-edge, sp2, sp2-cube, sp3 結晶内元素環境ラベル付き観測データラベル無し全データ Carbon8_descri ptor_selected_s p.csv Carbon8_descri ptor.csv

scikit-learnクラスの説明 X: (N,P) 三次元に次元圧縮する場合の例を示します。 PCA X_pca: (N,3) from sklearn.decomposition import PCA pca = PCA(3) pca.fit(X) X_pca = pca.transform(X) t-SNE X_red: (N,3) from sklearn.manifold import TSNE red = TSNE(3) X_red = red.fit_transform(X)

データ取得 Jupyter notebookのcellの実行番号データ収集カテゴリー名がついているデータを観測データとして読み込む。全観測データを未知データと読み込む説明変数カラムと原子環境カラムの定義。次元圧縮なのでy は無い。

データ取得（つづき）とデータ加工目的：観測データと新規データの取得データ収集観測生データ取得データ規格化データ加工新規生データ取得同じ規格化関数を用いたデータ規格化で規格化した新規データ Xraw: (N,P) X: (N,P) Xraw_new: (Nnew,P) X_new: (Nnew,P)

10.

データからの学習目的：寄与率、累積寄与率の評価寄与率：pca.explained_variance_ratio_：リストそのサイズ＝len(pca.explained_variance_ratio_) 累積寄与率：ある次元までの寄与率の和説明変数の全次元を用いて PCA変換を行う。データからの学習 indx: (P) esum: (P) 累積寄与率のインデックスのリスト累積寄与率のリスト変数の中身は以下でご確認ください。 print(indx, esum)

11.

結果解釈寄与率累積寄与率累積寄与率 plot_expratio:（次元 vs 寄与率もしくは累積寄与率）の下の図を書くユーザー定義外部関数分かること：一次元で説明変数空間の～80% 二次元までで説明変数空間の～90% を表現できている。寄与率一次元で十分かもしれませんが、以降の図では二次元で説明変数空間の次元圧縮を行い可視化します。

12.

結果解釈目的：二次元に次元圧縮すること。（2以上の数で変換して２次元目までを用いても良い。）データからの学習観測データの次元圧縮新規データの次元圧縮 X_rd : (N,ndim) X_rd_new: (N,ndim)

13.

結果解釈二次元に次元圧縮した観測データ、その原子カテゴリー名、新規データを用いる。可視化するユーザー定義外部関数 PCAの二軸目観測データはラベル付きで大きな symbolで示される。新規データは薄い点で示される。 PCAの一軸目

14.

結果解釈分かること： 1. ラベルは結晶構造を可視化し目視で人がつけたが、この説明変数である程度妥当な分離ができているらしい。 2. 二次元でそれなりに分離ができているだろう。 3. 二次元でなく一次元目だけでもそれなりに分離ができている。 sp2と sp2_tube: 周りに3原子ある原子環境 sp3: 周りに4原子ある原子環境 sp2_edgeとsp: 周りに2原子ある原子環境推測できること： 3.高次元で可視化ができない新規データ（薄い点）も原子環境を妥当に表現できていることが期待される。

15.

ラベル毎に分離した分布を得る結果低次元表現を可視化する観測データを収集するデータを加工するデータから学習する炭素結晶構造を得る加工済み説明変数を得る PCAで次元圧縮をする物理的に考えてもそうだろうという結果。原因ある原子からの距離依存性を用いて変換するベーラーの二体対称性関数で変換する規格化する PCA変換次元数を定義する ndim=2 分かったこと：炭素結晶構造では、ベーラーの二体対称性関数で変換し、更にPCA により変換された二次元説明変数空間で、𝑠𝑝𝑛 原子環境をある程度妥当に分離した分布が得られた。 PCAで変換する

16.

次元圧縮：多様体学習 T-SNE 目的：毎回同じ結果を与える距離 t-SNE: 類似度に変換してから次元圧縮を行う。距離間の関係を低次元で保つよう変換する際に距離を制限する。元の次元で無いと完全に距離関係を保つことは(多分)できないので、低次元で確率的にデータ点を置く。この際に乱数が入る。確率的な配置 metric={文字列} 考慮する近傍点の数 Default, metric=‘euclidean’ Perplexity={実数} 観測データ数以下、5-50を考えよ、とある。 random_state={整数}

17.

距離を制限した多様体学習の利点スイスロールの展開距離を制限した方法考慮外距離考慮する距離近い距離を制限しない方法遠い TECHNICAL COMMENTS, Nature, Eric L. Schwartz, Nature 295 (2002).

18.

次元圧縮：多様体学習目的：t-SNEを用いた次元圧縮と可視化。 TSNEは.fit_transform()の形しかない。新規データを変換できる表式になっていないから。警告メッセージを消すため。次元圧縮をして random_state, perplexityで結果がかなり変わる。教師なし学習なのでどのパラメタが妥当ということは無い。後で示すカテゴリー分離ができていなくても、失敗というわけでは無い。ユーザー定義外部関数で可視化する。

19.

多様体学習結果の可視化分かること：この場合も近接原子数環境の分布が分離しているらしい。

20.

次元圧縮 Q. 次元圧縮は低次元で可視化するため？ A. 次元圧縮はかなり広い概念を含みます。ニューラルネットワークのオートエンコーダーで潜在空間に変換することも次元圧縮手法の一つです。また、160.recommender_system/は教師なし学習の次元圧縮を用いた探索手法です。データインスタンス数が少ない場合は次元圧縮を用いた方が高速に探索を行える場合があります。

21.

参考分散が小さい軸に目的変数依存している例 020.050.text.dimentionality_reduction_carbon8.ipynb 020.110.answer.PCA_sample.ipynb 020.120.answer.PCA_sample2.ipynb dimred_misc.py image_executed/

22.

分散が小さい軸に目的変数依存している例それぞれの点が色に対応した値を持っているとします。二次元変換後データ二次元元データ意味すること：説明変数{𝑥Ԧ }で寄与率が大きい空間を切り出し、{𝑥Ԧ ′ }としても、妥当なモデル 𝑦~𝑓(𝑥Ԧ ′ ) ができるわけではない。 PCAで変換では、どういう場合に妥当なのか？短軸側に目的変数が依存しているとする。目的変数を参照しているわけではないので、当然長軸側が一軸目となる。新機能法なので、妥当かどうかは実際に適用し、評価しないと判断できない。

23.

回帰(classification)

24.

ディレクトリとファイル 010.regression/ 020.dimentionality_reduction/ 030.classification/ 040.clustering/ 110.hea4_dos_clustering/ 120.tomography/ 130.descriptor_importance/ 140.exhaustive_search/ 150.Bayesian_optimization/ 160.recommender_system/ 500.itemset_mining/ 510.ERS/ 900.misc/ README.md data/ data_calculated/ delete_markdown_cell.py* 030.050.text.logistic_regression.ipynb 030.110.answer.ZB_WZ_logreg-cv.ipynb 030.120.answer.mono_structure_logisticregressionCV.ipynb image_executed/

25.

データの紹介閃亜鉛鉱構造とウルツ鉱構造のエネルギー差データ説明変数二元合金の元素説明変数, IP（イオン化ポテンシャル）,EA（電子親和力）, Highest_occ state energy, Lowest_unocc state energy, s,p の原子半径目的変数二元合金の閃亜鉛鉱構造とウルツ鉱構造のエネルギー差dE Luca M. Ghiringhelli, Jan Vybiral, Sergey V. Levchenko, Claudia Draxl, and Matthias Scheffler, "Big Data of Materials Science: Critical Role of the Descriptor“, Phys. Rev. Lett. 114, 105503 (2015)

26.

交差検定の予測値分類モデルを得るハイパーパラメタを与えてモデル当てはめを行うハイパーパラメタを最適化して予測モデルを作る cls=LogisticRegressio n(…) cls=LogisticRegressio nCV(…) 分類モデルの予測値を得る与えれた予測モデルの予測値交差検定過程での複数予測モデルに対する予測値 y=cls.predict(X) y= cross_val_predict(c ls,X,y)

27.

交差検定の予測値分類モデルの予測値を得るここでは与えれた予測モデルの予測値交差検定過程での複数予測モデルに対する予測値 y=cls.predict(X) y= cross_val_predict( cls,X,y) 曖昧に「交差検定の予測値」というとこちらの意味であることが多い。１．最適なハイパーパラメタを得る。２．「交差検定の予測値」を得る。３．「交差検定の予測値」を用いて各種評価指標値を得る。４．観測データ全てを用いて学習した予測モデルの予測値を得る。を行う。

28.

Scikit-learnの関数 * ロジスティック回帰 from sklearn.linear_model import LogisticRegression cls = LogisticRegression(penalty="L1",C=C) cls.fit(X,y) C: スカラー、ハイ ypred = cls.predict(X) パーパラメタ * 交差検定ロジスティック回帰 from sklearn.linear_model import LogisticRegressionCV kf = KFold(5, shuffle=True) cls = LogisticRegressionCV(penalty="L1",cv=kf) cls.fit(X,y) ypred = cls.predict(X) X:(N,P) y: (N) ypred:(N) 分類モデルを得るハイパーパラメタを与えてモデル当てはめを行うハイパーパラメタを最適化して予測モデルを作る cls=LogisticRegressio n(…) cls=LogisticRegressio nCV(…)

29.

Scikit-learnの関数分類評価指標目的変数観測値： y(N) ,目的変数予測値：ypred(N) * 混同行列 from sklearn.metrics import confusion_matrix cm = confusion_matrix(y,ypred) # np.ndarrayが返る。 (K,K) * それぞれの評価指標値 from sklearn.metrics import accuracy_score from sklearn.metrics import precision_score, recall_score, f1_score score = accuracy_score(y,ypred) average=“weighted” # 加重平均で一つの全体の評価指標値を得る prec = precision_score(y,ypred, average=average) scalar recall = recall_score(y,ypred, average=average) f1 = f1_score(y,ypred, average=average) * classification report from sklearn.metrics import classification_report 文字列 msg = classification_report(y,ypred) # 文字列を返す。 print(msg)

30.

Scikit-learnの関数「交差検定の予測値」を得る関数。 (N) from sklearn.linear_model import LogisticRegression from sklearn.model_selection import cross_val_predict cls = LogisticRegression(C=C_opt) kf = KFold(5, shuffle=True) yp_cv = cross_val_predict(cls, X, y, cv=kf) 分類モデルの予測値を得る与えれた予測モデルの予測値交差検定過程での複数予測モデルに対する予測値 y=cls.predict(X) y= cross_val_predict(c ls,X,y)

31.

データ取得目的：生説明変数と生目的変数の取得ファイルから観測データの読み込み説明変数カラム、目的変数カラムの定義 (N,P) (N) 生説明変数生目的変数の生成

32.

データ加工目的：データ規格化関数生成と加工（規格化）された説明変数の取得目的変数をカテゴリー値に変換 y:（分類の）目的変数、カテゴリー数：K このデータではK=2 (N) データ規格化 (N,P) X: 規格化された説明変数:

33.

データからの学習目的：最適なハイパーパラメタ値を得る五回交差検定、ランダムに分割１．交差検定ロジスティック回帰の定義２．ロジスティック回帰の最適ハイパーパラメタを求める。３．全観測データ（X,y)を用いて一つだけ予測モデルを求める。出力：三角マークは押せる。

34.

交差検定の予測値分類モデルの予測値を得る与えれた予測モデルの予測値交差検定過程での複数予測モデルに対する予測値 y=cls.predict(X) y= cross_val_predict(c ls,X,y) 目的：訓練データ、テストデータ分割による擬似的な（未知データに対する）汎化性能の評価

35.

データからの学習と評価指標目的：「交差検定の予測値」（yp_cv: (N) )の生成と「交差検定の予測値」を用いた分類評価指標値の出力。最適なハイパーパラメタ(cls_cv.C_[0])がすでに求まった。ハイパーパラメタ最適値を用いてロジスティック回帰モデルを定義 (N) 、交差検定の予測値五回「交差検定の予測値」を生成する。「交差検定の予測値」を用いた分類評価指標値の出力

36.

データからの学習：各種評価指標目的：各種評価指標の個別計算値を得る。加重平均スカラー加重平均の場合は全体の指標なのでスカラー

37.

データからの学習：混同行列目的：混同行列の作成。 cls_cv.classes_: (K) クラス数混同行列を作るためのカテゴリー順序はライブラリに与えていない。 (K) (K) (K,K) 行内に収まるように改行した。

38.

交差検定の予測値目的：未知データに適用する予測モデルの生成分類モデルの予測値を得る与えれた予測モデルの予測値交差検定過程での複数予測モデルに対する予測値 y=cls.predict(X) y= cross_val_predict(c ls,X,y) 目的：訓練データ、テストデータ分割による擬似的な（未知データに対する）汎化性能の評価

39.

データからの学習（２）目的：交差検定の予測値と全観測データを用いて生成した予測モデルによる予測値の比較。全観測データを用いて生成した予測モデルによる予測値と予測確率の生成 (N) (N,K) 未知データは無いので、全観測データを用いる。全観測データを用いて生成した予測値を用いた混同行列 (K,K) （行幅に収まるように改行した。）

40.

ディレクトリとファイル 010.regression/ 020.dimentionality_reduction/ 030.classification/ 040.clustering/ 110.hea4_dos_clustering/ 120.tomography/ 130.descriptor_importance/ 140.exhaustive_search/ 150.Bayesian_optimization/ 160.recommender_system/ 500.itemset_mining/ 510.ERS/ 900.misc/ README.md data/ data_calculated/ delete_markdown_cell.py* 030.050.text.logistic_regression.ipynb 030.110.answer.ZB_WZ_logreg-cv.ipynb 030.120.answer.mono_structure_logisticregressionCV.ipynb image_executed/ OvR法による多値分類問題例

41.

クラスタリング

42.

ディレクトリとファイル 010.regression/ 020.dimentionality_reduction/ 030.classification/ 040.clustering/ 110.hea4_dos_clustering/ 120.tomography/ 130.descriptor_importance/ 140.exhaustive_search/ 150.Bayesian_optimization/ 160.recommender_system/ 500.itemset_mining/ 510.ERS/ 900.misc/ README.md data/ data_calculated/ delete_markdown_cell.py* 040.050.text.clustering.ipynb 040.110.answer.fe2_clustering.ipynb clustering_misc.py image_executed/

43.

データ取得炭素構造データを用いる。全観測データ取得 (N,P) カテゴリー名がついている観測データを新規データとして取得 (Nnew,P) 説明変数カラムの定義 (Nnew) カテゴリー名の取得 sp, sp2, sp2_edge, sp2_tube, sp3

44.

データ規格化とデータからの学習目的：X,X_PCA,クラスタ予測値（yp_km）の作成。観測生データ取得 (N,P) (N,2) データ規格化可視化用に二次元に次元圧縮した説明変数クラスター数（K）=3としてk-means法を用いる (N,P) 学習と予測

45.

可視化目的：クラスタリング結果解釈の前にデータそれ自体の可視化して解釈する。新規データの取得 (Nnew,P) (Nnew,P) (Nnew,2) 規格化変換可視化用に二次元に次元圧縮変換 PCA2 ユーザー定義関数による可視化１．データ分布は分離していない。２．右肩下がりの斜めに分布している。 PCA1

46.

結果解釈 k-means法を用いたクラスタリングと予測（再出） (N) 学習は説明変数のみを用いる。 X_PCA: (N,2), yp_km:(N) ユーザー定義関数可視化のalpha channel （答えを知っているので分かるが、）このデータでは妥当にクラスタリングできない。

47.

データからの学習と結果解釈目的：ガウス混合法を用いたクラスタリングと可視化 (NCLUSTERS=3) (N) X_PCA: (N,2), yp_gmm:(N) 可視化のalpha channel （答えを知っているので分かるが、）このデータではk-means法より妥当にクラスタリングできた。

48.

階層クラスタリング目的：（Nneｗでは教材として可視化するためには数が多いので）数を減らす。 (15,P), (15) 15に数を減らした説明変数とそのカテゴリー名ラベル参考）変数の中身を見るには,たとえば、Jupyter notebookのセルにans_list_sampleと入力し実行する。

49.

階層クラスタリング目的：階層クラスタリングと可視化 X_sample: (15,P)とans_list: (15)を用いる。 (15*14/2)、一次元化した上三角行列成分 (14,4) 、 Dendrogram上流の位置情報が入る。ユークリッド距離を用いて類似度距離行列の計算をする。上位のクラスタ間の距離の計算方法としてcomplete法を用いる。上流から下流が左から右になるように書く。

50.

Pdistで使用可能なmetric(距離実装) scipy.spatial.distance.pdistのNotes部分使用可能な距離実装(metric)の名前と定義、使い方例が書いてある。 scipy.spatial.distance.pdist https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist. html

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.

51.

上位クラスター間の距離定義(method) scipy.cluster.hierarchy.linkage https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html?highlight=linkage “complete”は下位クラスターに含まれるデータ点間距離の最大値。

https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html?highlight=linkage

52.

可視化結果近接原子２つ近接原子４つ近接原子３つ階層クラスタリングは対話的なクラスタリング手法です。解析者の目的に応じて、パラメタ（Metric, method）を選択できます。

53.

クラスタリング手法距離実装は Eucleadeanのみ。教師なし学習、カテゴリー分け手法階層クラスタリングクラスタリング sklearn.cluster.K Means sklearn.mixture.G aussianMixture Scipy定義 scipy.spatial.dista nce.pdist 二点間距離実装 metric 二点間距離を得る上位クラスター間の距離を得る独自定義距離行列作成一次元表現への変換 Scipy.spatial.dista nce.squareform scipy.cluster.hier archy.linkage 上位クラスター間距離定義 method

54.

参考 010.regression/ 020.dimentionality_reduction/ 030.classification/ 040.clustering/ 110.hea4_dos_clustering/ 120.tomography/ 130.descriptor_importance/ 140.exhaustive_search/ 150.Bayesian_optimization/ 160.recommender_system/ 500.itemset_mining/ 510.ERS/ 900.misc/ README.md data/ data_calculated/ delete_markdown_cell.py* 鉄構造データを用いたクラスタリング・階層クラスタリング 040.050.text.clustering.ipynb 040.110.answer.fe2_clustering.ipynb clustering_misc.py image_executed/

55.

内容鉄構造データの ⚫ クラスタリング ⚫ 階層クラスタリング ◆ データインスタンスに関して ◆ 説明変数に関して • 独自距離定義方法

56.

微小変位を入れた鉄構造データ BCC構造 FCC構造 HCP構造鉄構造データ１．微小変位を加えた結晶を作る。２．Behlerの二体対称性関数で説明変数に変換する。説明変数：二体対称性関数生成時のパラメタ目的変数：無し観測データ新規データ Fe2_descriptor .csv Fe2_descriptor _newdata.csv

57.

今回のセミナーは以上になります。