（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回（仮）

18.7K Views

July 19, 23

#マテリアルズ・インフォマティクス #データ解析学 #セミナー #次元圧縮 #クラスタリング #分類 #Orange Data Mining #Machine Learning #Dimensionality Reduction #PCA #Classification

スライド概要

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 75.2K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナープログラミング大規模言語モデル

木野日織 49K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

マテリアルズ・インフォマティクスセミナーデータ解析学基礎機能分解木

木野日織 47.7K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 47.2K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

マテリアルズ・インフォマティクスデータ解析学ベイズ最適化推薦システム

木野日織 25.6K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

マテリアルズ・インフォマティクスデータ解析学セミナー機能分解木回帰

木野日織 17.9K

各ページのテキスト

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回木野日織（きのひおり）

今回行うこと分類ワークフロー例 • • • • 回帰次元圧縮分類(classification) クラスタリング(clustering)

次元圧縮多次元のデータをより低次元のデータに変換するための手法の一つ。利点：手法例 1. ノイズの除去: 圧縮プロセス中に無関係な特徴やノイズが取り除かれる。このため機械学習の性能が向上する場合がある。また，説明変数をまとめることで，説明変数数を減らす。代数的な構造（分散，共分散）を用いる。例： PCA 2. データ視覚化: 人間が理解できる次元（2Dまたは3D）にデータを変換することで、データパターンや構造を視覚化できます。データ間の距離を用いる。例：多様体学習

主成分分解（PCA) 分布の長軸から順に回転させた変数の組み合わせ（変数軸）を選ぶ。各軸は直交する。 𝑥𝑥2 PCA2 PCA1 主成分が大きい次元（変換された説明変数）から利用する。主成分の値から  ある次元の寄与率  累積寄与率（=ある次元までの主成分の和/全部の酒精分の和）が評価できる。 𝑥𝑥1

多様体学習データ間の距離をなるべく保持するように低次元表現化を行う。 MDS: 全距離を用いた多様体学習。 t-SNE: 近距離のみを用いた多様体学習など

データファイル Data/Fe2_descriptor_Orange.csv 21データインスタンス materials projectから取得した鉄の構造データ(FCC,BCC,HCP)を 1. 長周期構造に変換し。 2. 原子位置に微小変異を加え， 3. Behlerの二体対称性関数を用いて説明変数に変換した。このデータには目的変数は存在しません。説明変数： Behlerの二体対称性関数のパラメタを用いた 'a0.70_rp2.40', 'a0.70_rp3.00', 'a0.70_rp3.60', 'a0.70_rp4.20', 'a0.70_rp4.80', 'a0.70_rp5.40’ 目的変数ではないが，元構造データ：FCC,BCC,HCP を記載。

２．０１．DR_PCA.ows

PCAを用いるワークフロー作成 [File], [Data Table] [Preprocess] [Scatter Plot] [PCA]

ワークフローの説明 A) 観測データをファイルから読み込む。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化した説明変数を PCAで低次元化する。 B) 観測データを正規化する。 C) 正規化した説明変数をPCAで低次元化する。

10.

詳細の設定 ①[File]で Data/Fe2_descriptor_Orange.csvを選択する。 ① ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。

11.

詳細の設定 [Scatter Plot] window ③説明変数の選択 ②Color: polytype Label: polytype と設定 ①[Preprocess]の後ろの[Scatter Plot]を開く。

12.

説明変数による見え方の違い

13.

[PCA]の設定と結果 [PCA] window ②Componentsを選択 ③累積寄与率（上），寄与率（下）の表示 ①[PCA]を選択二次元ですでに98%の累積寄与率がある。分布の分散からは二次元で十分記述ができている。

14.

PCAによる次元圧縮後の可視化 [Scatter Plot] window ③説明変数の選択，PCA1(PCAの一軸目）,PCA2（PCAの二軸目） ①[Scatter Plot (1)] を開く累積寄与率が98%ある軸の取り方での可視化を行ったことになる。

15.

２．０２．DR_MDS.ows

16.

多様体学習を用いるワークフロー作成ワークフローの作成 [File], [Data Table] [Preprocess] [Scatter Plot] [Manifold learning]

17.

多様体学習 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化した説明変数を多様体学習で低次元化する。 C)正規化した説明変数を多様体学習で低次元化する。 A) 観測データをファイルから読み込む。 B) 観測データをファイルから読み込む。

18.

詳細設定 ①[File]で Data/Fe2_descriptor_Orange.csvを選択する。 ① ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。

19.

[Manifold Learning]の設定 ① ①Manifild: t-SNEを選択 ②Metric: Euclideanを選択 ③Perplexity: 近接データ数を選択する。小さいほど少ない近接データ数を選択する。 ④Output: Components=2を選択。説明変数が二次元の出力になる。 ② ③ ④

20.

[Scatter Plot]の設定と結果 [Scatter Plot] window ①Axis x: t-SNE-x Axis y: t-SNE-y を選択する。 ② Color: polytype, Lable: polytypeを選択する。 ① ② PCAより異なるpolytype間が分離しているように見える（かもしれない）。

21.

分類ロジスティック回帰線形関数𝑓𝑓（𝑥𝑥）に対して、 ⃗ 罰則項を含む 𝐶𝐶 𝑛𝑛 𝑐𝑐𝑐𝑐𝑐𝑐 𝐿𝐿 = 𝑤𝑤 𝑛𝑛 + � log(exp −𝑦𝑦𝑖𝑖 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 )2 𝑁𝑁 𝑖𝑖 を最小化する。 Cはハイパーパラメタで，妥当な分類モデルになるように選択する。二値分類あるクラスと予測される確率 1 𝑃𝑃 𝑥𝑥⃗ = 1 + exp(−𝑓𝑓 𝑥𝑥 ) 別なクラスと予測される確率は1 − 𝑃𝑃 𝑥𝑥⃗ 多値分類 One-vs-Rest法：カテゴリ個モデルを作る。クラス1確率： P1 𝑥𝑥⃗ クラス2確率： P2 𝑥𝑥⃗ クラス3確率： P2 𝑥𝑥⃗ 最も確率が大きいクラス名を予測値とする。

22.

分類評価指標観測値混同行列 bcc fcc hcp misc 評価指標予測値 bcc fcc 8 0 1 5 3 2 1 2 hcp 6 6 17 9 misc 0 8 2 33 正答率(Accuracy)=(8+5+17+33)/103=0.61

23.

分類評価指標観測値混同行列 bcc fcc hcp misc 個別評価指標予測値 bcc fcc 8 0 1 5 3 2 1 2 hcp 6 6 17 9 misc 0 8 2 33 再現率(Recall):fcc再現率=5/(1+5+6+8)=0.25 適合率(Precision):fcc適合率=5/(5+2+2)=0.56 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅×𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 F1スコア＝2 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅+𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

24.

25.

26.

問題単元素からなる基底状態の結晶構造説明変数  min_oxidation_state, max_oxidation_state: min. and max of oxidation state  Row, group: row or group of the periodic table  s p d f: valence electrion occupation  atomic_radius_calculated: calculated atomic radius  X(chi), IP, EA : electronegativity, ionization potential, electron affinity 目的変数 1.misc (black) 2.hcp (red) 3.bcc (blue) 4.fcc (green)

27.

2.03.cls_CV.ows

28.

分類モデルを用いるワークフロー作成以下を作成。 [File] [Proprocess] [Logistic Regression],[Random Forest] [Test and Score]. [Confusion Matrix] 表示の都合で [Random Forest]を追加。

29.

ワークフローの意味 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により正規化関数を含む分類予測モデルを作成し，あるハイパーパラメタの予測値と分類性能を得る。 C) 交差検定の混同行列を得る。 D) 全観測データで正規化関数を含む Logstic回帰モデルを作る。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と分類性能を得る。 C) 交差検定の混同行列を得る。 D) 全観測データでLogstic回帰モデルを作る。

30.

ワークフローの意味 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により正規化関数を含む分類予測モデルを作成し，あるハイパーパラメタの予測値と分類性能を得る。 C) 交差検定の予測値から混同行列を得る。 D) 全観測データで正規化関数を含む Logstic回帰モデルを作る。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と分類性能を得る。 C) 交差検定の混同行列を得る。 D) 全観測データでLogstic回帰モデルを作る。

31.

詳細の設定 ③[Test and Score] Cross Validation Number of folds: 5 を選択 ①[File] Data/mon_structure_descript or_Orange.csvを選ぶ。 ① ③ ⑤ ② ④ ②[Preprocess] Normalize Features: Standarize to μ=0, σ2=1 を選ぶ ⑤[Logistic Regression] Regularization type: Lasso(L1) を選択。 ④[Confusion Matrix] Learners: Logistic Regression を選択

32.

Windowの表示 [Logistic Regression]でハイパーパラメタ（C)を変化させて分類性能を確認する。 [Logistic Regression],[Test and Score],[Confusion Matrix] windowを見えるように配置する。 [Confusion Matrix] window [Test and Score] window [Logistic Regression] window

33.

ハイパーパラメタを変えて分類性能を確認する

34.

ハイパーパラメタを変えて分類性能を確認する

35.

Logistic回帰の係数 C=35での係数の表示

36.

Logistic回帰の係数 C=35での係数の絶対値大きい説明変数を記す。カッコ内が値。 bcc： atomic_radiuc_calculated(3.4),min_oxidation_state(-3.1) fcc: row(2.24), d(1.2) hcp: p(-4.6), IP(1.4), Z(-1.14) それぞれの分類モデルがかなり異なる。例えば仮説：上の説明変数の間に何か関係があるのでは？それに対して，DistanceとDistance Mapなどを用いて説明変数間の関係を見るなどできることはある。

37.

クラスタリング教師データ（ラベル）が存在しないデータから構造やパターンを見つけ出す手法。クラスタ間に関係が無いクラスタ間に関係がある例）K-Means 例）階層クラスタリングデータをk個のクラスタに分ける。クラスタを階層的に分けます。距離を用いる。各クラスタの中心（セントロイド）はそのクラスタ内の全データポイントの平均で計算され、各データポイントは最も近いセントロイドのクラスタに割り当てられます。結果としてクラスタの中心から等方的な分割になる。距離を用いる。全てのデータポイントを個々のクラスタとして始め、最も似ているクラスタを繰り返し結合する。データ間の距離と，クラスタ間の距離の２つの距離定義がある。

38.

2.04.DR_CPA_kMeans.ows

39.

k-Means [File], [Data Table] [Preprocess] [Scatter Plot] ① [PCA,k-Means] ①[PCA]{Transformed Data}-{Data}[k-Means]と接続する。

40.

詳細の設定 ①[File]で Data/Fe2_descriptor_ Orange.csvを選択する。 ③[PCA]で • Normalize Variablesを選択しない。（[PCA]では入力データの正規化が行われない。） • Components:2を選択する。 ③ ① ② ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。 [k-Means]の前に[Preprocess]があるのは[PCA]で変換されると，後ろの ←妥当かどうかを後で確かめる。次元では分散が小さいくなるので，再度正規化している，という意味。

41.

詳細の設定 A) B) C) D) E) 観測データを読み込む。観測データを正規化する。観測データをPCAで低次元化する。低次元化した観測データを正規化する。正規化した低次元化した観測データを k-Means法でクラスタリングする。

42.

k-Meansの設定 ②Number of Clustersを2から5に設定する。（今の場合は答えが3とわかっているのでその範囲に設定する。） ③Normalize columnsをチックしない。チェックされると入力データがStandardizeされる。 ④シルエットスコアからクラスタ数が３と自動選択される。 [k-Means] window ② ③ ①[k-Means]を開く。 ④

43.

[Scatter Plot]の設定 ②Axis x: PC1, Axis y: PC2を選択する。 ③Attributes, Color: Cluster, Label polytypeと選択する。 ④クラスタ（色），と構造類型（文字）が表示される。 [Scatter Plot (1)] window ① ② ④ ③ ①[Scatter Plot(1)]を開く。

44.

[PCA]次元と正規化の関係当たり前と思われるかもしれませんが，[PCA]の次元を変えてみてください。 ③[Scatter Plot]でもPCA1 vs PCA2次元空間で分離されない。 ①[PCA] で5出力次元を選択する。 ②[k-Means] で5クラスターが選択される。

45.

[PCA]次元と正規化の関係この場合はk-Meansの入力の正規化を行わない場合は3クラスターになります。 ① ①[Preprocess (1）]を開く。「ｘ」を押すと具体的な操作が消えて，何も行われない。

46.

[PCA]次元と正規化の関係 →次元圧縮と規格化を適切に行わないと妥当なクラスタリングが行えません。（必ずではありませんが）妥当なクラスタリングが行える説明変数空間では説明変数空間でデータ点が分離している，ということなので，分類問題も問題毎に適切に行った次元圧縮と規格化を使用すると性能が向上します。

47.

2.05.hierarchical_clustering.ows

48.

階層クラスタリングワークフローの作成 [File] [Preprocess] [Distances], [Hierarchical Clustering]

49.

詳細の設定 ①[File]で Data/Fe2_descriptor_ Orange.csvを選択する。 ① ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。

50.

[Distance]の設定 [Distances] window ① [Distances]を開く。 ② ③ ② ②Compare:でRowsを選択 ③Distance Metricで Euclideanを選択。

51.

[Hierarchical Clustering]の設定 [Hierarchical Clustering] window ④ ② ③ ① [Hierarchical Clustering]を開く。 ② LinkageでSingleを選ぶ。 ③ Annotationsで keyを選ぶ。 ④距離が近いデータの順につないだ樹形図が表示される。

52.

Linkageの設定 helpによるLinkageの説明 Linkage=Averageの例 Single linkage computes the distance between the closest elements of the two clusters Average linkage computes the average distance between elements of the two clusters Weighted linkage uses the WPGMA method Complete linkage computes the distance between the clusters' most distant elements Ward linkage computes the increase of the error sum of squares. In other words, the Ward's minimum variance criterion minimizes the total within-cluster variance. 距離の選び方：解析者が見たい見え方になるように距離を選びます。

53.

引用単元素結晶：Wikipediaより。

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回 （仮）