（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回 2023/07/30版

4.3K Views

July 30, 23

マテリアルズ・インフォマティクスデータ解析学セミナークラスタリング次元圧縮分類欠損データ

スライド概要

タスク１：次元圧縮ワークフロー
タスク２：分類ワークフロー
タスク３：クラスタリングワークフロー
タスク４：Orangeにおける欠損データの補間ワークフロー
タスク５：Orange CSVファイルへの変換ワークフロー

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 4.04MB)

関連スライド

各ページのテキスト

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回２０２３/０７/３０版木野日織（きのひおり）

今回行うこと第一回目のワークフローのつくり方や回帰の知識を既知として説明を行ないます。今回は Orange Data Miningを用いて • 回帰 • 次元圧縮 • 分類(classification) • クラスタリング(clustering) を物質データに対して行う。欠損データの扱いとOrange CSVへの変換についても説明する。分類ワークフロー例

教材ファイル Bitbucketからインストールしたフォルダを{prefix}にインストールする。 {prefix}以下には {prefix}/data/ --- 観測データファイル，新規データファイル {prefix}/data_generated/ --- 作成されるデータの保存場所 {prefix}/python/ --- 関連Python script {prefix}/workflow/ --- ワークフロー保存場所サブフォルダが存在するはず。

目次タスク１：次元圧縮ワークフロータスク２：分類ワークフロータスク３：クラスタリングワークフロータスク４：Orangeにおける欠損データの補間ワークフロータスク５：Orange CSVファイルへの変換ワークフロー

次元圧縮多次元のデータをより低次元のデータに変換するための手法の一つ。利点：手法例 1. ノイズの除去: 圧縮プロセス中に無関係な特徴やノイズが取り除かれる。このため機械学習の性能が向上する場合がある。また，説明変数をまとめることで，説明変数数を減らす。代数的な構造（共分散）を用いる手法例： PCA 2. データ視覚化: 人間が理解できる次元（2Dまたは3D）にデータを変換することで、データパターンや構造を視覚化できます。データ間の距離を用いる手法例：多様体学習

主成分分解（PCA) 分布の長軸から順に座標変換した変数の組み合わせ（変数軸）を選ぶ。各軸は直交する。 𝑥𝑥2 PCA2 PCA1 主成分が大きい次元（変換された説明変数）から利用する。主成分の値から  ある次元の寄与率  累積寄与率（=ある次元までの主成分の和/全部の主成分の和）が評価できる。 𝑥𝑥1

多様体学習データ間の距離をなるべく保持するように次元圧縮を行う。 MDS: 全距離を用いた多様体学習。 t-SNE: 近距離のみを用いた多様体学習など ① 多次元空間 ② データ間の距離行列 ③低次元空間

観測データ鉄構造データファイル：{prefix}/data/Fe2_descriptor_Orange.csv 21データインスタンス materials projectから取得した鉄のFCC,BCC,HCP構造を 1. 長周期構造に変換し。 2. 原子位置に微小変異を加え， 3. Behlerの二体対称性関数を用いて説明変数に変換した。このデータには目的変数は存在しません。説明変数： Behlerの二体対称性関数のパラメタを用いた変数名 a0.70_rp2.40, a0.70_rp3.00, a0.70_rp3.60, a0.70_rp4.20, a0.70_rp4.80, a0.70_rp5.40 目的変数ではないが，元構造データ：FCC,BCC,HCP を記載。

観測データファイル ① 元構造名元構造名＋ID ←②meta:メタデータとする ←③元構造から生成 ④微小変異構造から生成 ⑤メタデータ：一般にはデータを説明するデータ。この場合は説明変数でなく，目的変数でもない変数

10.

２．０１．DR_PCA.ows

11.

PCAを用いるワークフロー作成 [File], [Data Table] [Preprocess] [Scatter Plot] [PCA]

12.

ワークフローの説明 A) 観測データをファイルから読み込む。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化した説明変数を PCAで次元圧縮する。 B) 観測データを正規化する。 C) 正規化した説明変数をPCAで次元圧縮する。

13.

詳細の設定 ①[File]で {prefix}/data/Fe2_descriptor_Orang e.csvを選択する。 ① ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。

14.

観測データの可視化 [Scatter Plot] window ③説明変数の選択 ④色分けされた図が表示。 ①[Preprocess]の後ろの[Scatter Plot]を開く。 ②Color: polytype Label: polytype と設定。下の方でShow color regionsをチェック。 ⑤この説明変数の組の場合は BCC,FCC,HCPデータインスタンスが分かれて分布。

15.

説明変数による見え方の違い

16.

[PCA]の設定 [PCA] window ②Componentsを選択（バーを左右に動かせる。） ③累積寄与率（上），寄与率（下）の表示 ①[PCA]をダブルクリック二次元ですでに98%の累積寄与率がある。分布の分散からは二次元でデータ空間が十分記述ができている。

17.

PCAによる次元圧縮後の可視化 [Scatter Plot] window ③説明変数の選択，PCA1(PCAの一軸目）,PCA2（PCAの二軸目） ①[Scatter Plot (1)] ダブルクリック説明変数空間の累積寄与率が98%あるの取り方での可視化を行ったことになる。

18.

２．０２．DR_MDS.ows

19.

多様体学習を用いるワークフロー作成ワークフローの作成 [File], [Data Table] [Preprocess] [Scatter Plot] [Manifold learning]

20.

多様体学習 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化した説明変数を多様体学習で次元圧縮する。 C)正規化した説明変数を多様体学習で次元圧縮する。 A) 観測データをファイルから読み込む。 B) 観測データをファイルから読み込む。

21.

詳細設定 ①[File]で {prefix}/data/Fe2_descriptor_Orang e.csvを選択する。 ① ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。

22.

[Manifold Learning]の設定 ① ①Method：t-SNEを選択 ②Metric: Euclideanを選択 ③Perplexity: 近接データ数を選択する。小さいほど少ない近接データ数を選択する。 ④Output: Components=2を選択。説明変数が二次元の出力になる。 ② ③ ④

23.

[Scatter Plot]の設定 [Scatter Plot] window ① ①Axis x: t-SNE-x Axis y: t-SNE-y を選択する。 ② Color: polytype, Lablel: polytypeを選択する。下の方のShow color regionsをチェックする。 ② PCAより異なるpolytype間が分離しているように見える（かもしれない）。

24.

[Manifold Learning]の設定 ① 各自Manifold Learningの設定を変えて結果を可視化してみてください。 ② ③ ④

25.

26.

分類（classification) 目的変数がカテゴリ変数である場合の予測値を得る問題です。カテゴリ変数：数量的な意味を持たない変数です。問題例） 1. ある閾値以上の性能値を示す材料かどうか。目的変数：「ある閾値以上の性能値」と「ある閾値未満の性能値」 2. 結晶構造がBCC,FCC,HCPかどうか。目的変数：BCC,FCC,HCP

27.

分類二値分類のロジスティック回帰 𝑓𝑓 𝑥𝑥 : 線形回帰モデル, 𝑤𝑤𝑖𝑖 :線形回帰モデルの係数あるクラスと予測される確率 1 𝑃𝑃 𝑥𝑥⃗ = 1 + exp(−𝑓𝑓 𝑥𝑥 ) 別なクラスと予測される確率は1 − 𝑃𝑃 𝑥𝑥⃗ 確率 O, 予測値 O, O, X, X, X しきい値0.5 データインスタンス線形関数𝑓𝑓（𝑥𝑥）に対して、 ⃗ 罰則項を含む 1 𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐 = C ∑𝑖𝑖 −𝑦𝑦𝑖𝑖 log 𝑃𝑃 𝑥𝑥⃗𝑖𝑖 − 1 − 𝑦𝑦𝑖𝑖 log 1 − 𝑃𝑃 𝑥𝑥⃗𝑖𝑖 + 𝑤𝑤 𝑛𝑛 𝑛𝑛 を最小化する。∑𝑖𝑖 は和の規格化を含む。 Cはハイパーパラメタで，妥当な分類モデルになるように選択する。

28.

分類予測値 C1 多値分類 One-vs-Rest法：カテゴリ個のモデルを作る。クラス1(C1)確率： P1 𝑥𝑥⃗ ，それ以外：1 − 𝑃𝑃1 (𝑥𝑥) ⃗ クラス2(C2)確率： P2 𝑥𝑥⃗ ，それ以外：1 − 𝑃𝑃2 (𝑥𝑥) ⃗ クラス3(C3)確率： P3 𝑥𝑥⃗ ，それ以外：1 − 𝑃𝑃3 (𝑥𝑥) ⃗ 最も確率が大きいクラス名を予測値とする。 C1 C2 C2 C3 C3 確率 P3 𝑥𝑥⃗ P2 𝑥𝑥⃗ P1 𝑥𝑥⃗ データインスタンス

29.

分類評価指標観測値混同行列 bcc fcc hcp misc 評価指標予測値 bcc fcc 8 0 1 5 3 2 1 2 hcp 6 6 17 9 misc 0 8 2 33 正答率(Accuracy)=(8+5+17+33)/103=0.61

30.

分類評価指標観測値混同行列 bcc fcc hcp misc 個別評価指標予測値 bcc fcc 8 0 1 5 3 2 1 2 hcp 6 6 17 9 misc 0 8 2 33 再現率(Recall):fcc再現率=5/(1+5+6+8)=0.25 適合率(Precision):fcc適合率=5/(5+2+2)=0.56 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅×𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 F1スコア＝2 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅+𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

31.

32.

33.

観測データ単元素からなる物質の基底状態の結晶構造データファイル:{prefix}/data/ mono_structure_descriptor_Orange.csv 説明変数  min_oxidation_state, max_oxidation_state: min. and max of oxidation state  Row, group: row or group of the periodic table  s p d f: valence electrion occupation  atomic_radius_calculated: calculated atomic radius  X(chi), IP, EA : electronegativity, ionization potential, electron affinity 目的変数 1.bcc (blue) 2.fcc (green) 3.hcp (red) 4.misc (black)

34.

2.03.cls_CV.ows

35.

分類モデルを用いるワークフロー作成以下を作成。 [File] [Proprocess] [Logistic Regression],[Random Forest] [Test and Score]. [Confusion Matrix] [Test and Score]の表示の都合で[Random Forest]を追加。

36.

詳細の設定 ③[Test and Score] Cross Validation Number of folds: 5 を選択 ①[File] {prefix}/data/mono_structure_ descriptor_Orange.csvを選ぶ。 ① ③ ⑤ ② ④ ②[Preprocess] Normalize Features: Standarize to μ=0, σ2=1 を選ぶ ⑤[Logistic Regression] Regularization type: Lasso(L1) を選択。 ④[Confusion Matrix] Learners: Logistic Regression を選択

37.

ワークフローの意味 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と分類性能を得る。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により正規化関数を含む分類予測モデルを作成し，あるハイパーパラメタの予測値と分類性能を得る。 C) 交差検定の予測値から混同行列を得る。 D) 全観測データで正規化関数を含む Logstic回帰モデルを作る。 C) 交差検定の混同行列を得る。 D) 全観測データでLogstic回帰モデルを作る。

38.

39.

Windowの表示 [Logistic Regression]でハイパーパラメタ（C）を変化させて分類性能の変化を確認する。 [Logistic Regression],[Test and Score],[Confusion Matrix] windowを見えるように配置する。 [Confusion Matrix] window [Test and Score] window [Logistic Regression] window

40.

ハイパーパラメタを変えて分類性能を確認する

41.

ハイパーパラメタを変えて分類性能を確認する

42.

Logistic回帰の係数 [Logistic Regression]の後ろの[Data Table] window C=25での係数の表示 ① ② 値がバーで表示される。

43.

２．０４．cls_CV_newfeatures.ows 追加部分

44.

ワークフロー作成追加 widget [Data Tabe] [Feature Constructor], [Select Columns]

45.

[Feature Constructor]の設定 ④ ①newを押す。 ③ ②Numericを選ぶ ⑤ ③X1:=が表示される。 X1は変更可能な変数名です。 ④でX1をabs_bcc<return>で修正。 ⑤abs_bcc:=に修正された。 ④では無く⑤が修正されたことを確認。

46.

関数の定義 abc_bcc:=の具体的な関数を定義します。 ③ ① ①Select Functionで absを選択 ③Select Featureで bccを選択 ② ④ ⑤ ⑥ ②abs()が表示される。 ④abs(bcc)と表示される。 ⑤<return>を押す。 ⑥abs_bcc := abs(bcc)と表示。 ⑦右下のInvalid expressionも消える。 ⑦

47.

全ての関数の定義 ①同様にabs_fcc, abs_hcp,abs_misc変数を定義します。 ① ③Sendを押す。 ② ②エラーが出ていないことを確認してください。

48.

[Select Columns]の設定 ③出力しないカラムを左側に移動させます。 ③ ①出力されないカラム ②出力されるカラム

49.

係数の絶対値の表示 [Select Columns]の後ろの[Data Table] window ①

50.

Logistic回帰の係数 C=25での係数の絶対値が大きい説明変数を以下に記す。カッコ内が符号を含めた値。 Bcc: atomic_radius_calculated(3.3),min_oxidation_state(-2.9) Fcc: row(2.1), d(1.2), Z(1.1) Hcp: p(-4.4) それぞれの分類モデルがかなり異なる。このままでは解釈ができません。回帰モデルの説明時にように上の説明変数間に何か関係があるのでは，と想像することができる。それに対して，データ解析学側からは次に説明する距離を用いた説明変数間の関係を見る，などができます。加えて，物性物理化学の知識を用いた解釈ができれば十分にマテリアルズ・インフォマティクスの研究になるでしょう。しかし，これ以上は立ち入らない。

51.

52.

クラスタリング教師データ（ラベル）が存在しないデータから構造やパターンを見つけ出す手法。 ① クラスタ間に関係が無い ② クラスタ間に関係がある例）K-Means 例）階層クラスタリングデータをk個のクラスタに分ける。クラスタを階層的に分けます。距離を用いる。各クラスタの中心（セントロイド）はそのクラスタ内の全データポイントの平均で計算され、各データポイントは最も近いセントロイドのクラスタに割り当てられます。結果としてクラスタの中心から等方的な分割になる。距離を用いる。全てのデータポイントを個々のクラスタとして始め、最も似ているクラスタを繰り返し結合する。データ間の距離と，クラスタ間の距離の２つの距離定義がある。

53.

クラスタリング教師データ（ラベル）が存在しないデータから構造やパターンを見つけ出す手法。クラスタ間に関係が無いクラスタ間に関係がある例）k-Means 例）階層クラスタリングデータをk個のクラスタに分ける。クラスタを階層的に分けます。距離を用いる。各クラスタの中心（セントロイド）はそのクラスタ内の全データ点の平均で計算され、各データ点は最も近い中心のクラスタに割り当てられます。結果としてクラスタの中心から等方的な分割になる。距離を用いる。全てのデータ点を個々のクラスタとして始め、最も似ているクラスタを繰り返し結合する。このため，データ間の距離と，クラスタ間の距離の２つの距離定義がある。

54.

2.05.DR_CPA_kMeans.ows

55.

ワークフローの作成 ② [File], [Data Table] [Preprocess] [Scatter Plot] ① [PCA],[k-Means] ①②{Transformed Data}-{Data}と接続する。

56.

観測データ次元圧縮で用いた鉄構造データ BCC,FCC,HCPの３つの構造がありました。クラスタリングを行うとどうなるのか。

57.

詳細の設定 ①[File]で {prefix}/data/Fe2_des criptor_Orange.csvを選択する。 ③[PCA]で • Normalize Variablesを選択しない。（正規化は[Preprocess]に任せる。） • Components:2を選択する。 ③ ① ② ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。 ④[k-Means]の前に[Preprocess]があるのは[PCA]で変換されると高次元の説明変数では分散が小さいくなるので，再度正規化する必要があるかもしれない。 ⑤どのような [Preprocess]を行うのが妥当かは後で評価する。

58.

ワークフローの説明 A) 観測データを読み込む。 B) 観測データを正規化する。 C) 正規化した観測データをPCAで次元圧縮する。 D) 次元圧縮した観測データを正規化する。 E) 次元圧縮後正規化した観測データをkMeans法でクラスタリングする。 C) A) B) D) E)

59.

[k-Means]の設定 ①k-Means法ではクラスタ数を予め与えるが， ②シルエットスコアにより妥当なクラスタ数をデータから決定することもできる。ここでは②を用いて妥当なクラスタ数を自動的に決定する。そのために，③Number of ClustersでFromの方をチェックして，2から5に設定する。（鉄結晶データの場合はクラスターが3とわかっているのでその範囲に設定して，クラスター数＝３が選ばれることを確認する。 ④Normalize columnsをチェックしない。（チェックされると入力データがStandardizeされる。今は正規化は[Preprocess]が行ないます。） ⑤シルエットスコアから選ばれたクラスタ数が灰色で表示される。クラスタ数が３が自動選択される。 [k-Means] window ③ ④ ⑤

60.

クラスタリング結果の可視化 ②Axis x: PC1, Axis y: PC2を選択する。 ③Color: Cluster, Label:polytypeと選択，Show color regionsをチェック。 ④クラスタ（色），とpolytype（文字）が同時に表示される。 [Scatter Plot (1)] window ① ② ④ ③ ①[k-Means]の後ろの [Scatter Plot]を開く。 ⑤このデータの場合は元々のpolytypeと各クラスターが一致

61.

[PCA]次元と正規化の関係 [PCA]の次元を変えてクラスタリング結果を調べてください。 ③[Scatter Plot]でもPCA1 vs PCA2次元空間で polytypeがうまく分離できない。 ①[PCA] で5出力次元を選択する。 ②[k-Means] で5クラスターが選択される。 ④クラスタリング結果は観測データの次元にしばしば大きく依存する。

62.

[PCA]次元と正規化の関係この場合はk-Meansの入力の正規化を行わない場合は3クラスターになります。 ② ① ①[PCA]の後ろの[Preprocess (1）]を開く。 ②Normalize Featuresを削除する。 ③ ③３クラスター

63.

次元圧縮と正規化とクラスタリングの関係ワークフロー上の二つの[Preprocess]で正規化を使う/使わないと変化させてクラスタリング結果を各自調べてみてください。次元圧縮と正規化を適切に行ったほうが妥当なクラスタリングが行える場合が多いようです。（必ずではありませんが）分類問題も問題毎に次元圧縮と規格化適切に使用すると性能が向上します。

64.

クラスタリング教師データ（ラベル）が存在しないデータから構造やパターンを見つけ出す手法。クラスタ間に関係が無いクラスタ間に関係がある例）k-Means 例）階層クラスタリングデータをk個のクラスタに分ける。クラスタを階層的に分けます。距離を用いる。各クラスタの中心（セントロイド）はそのクラスタ内の全データポイントの平均で計算され、各データポイントは最も近いセントロイドのクラスタに割り当てられます。結果としてクラスタの中心から等方的な分割になる。距離を用いる。全てのデータ点を個々のクラスタとして始め、最も似ているクラスタを繰り返し結合する。データ間の距離と，クラスタ間の距離の２つの距離定義がある。

65.

2.06.hierarchical_clustering.ows

66.

階層クラスタリングワークフローの作成 [File] [Preprocess] [Distances], [Hierarchical Clustering]

67.

詳細の設定 ①[File]で {prefix}/data/Fe2_descriptor_Orange.csvを選択する。 [Distances] window ③ [Distances]を開く。 ④ ① ⑤ ② ②[Preprocess]で Normalize Features:Standarize to μ=0, σ2=1を選択する。 ④Compare:でRowsを選択（行方向ベクトル間，つまりデータインスタンス間を比較。） ⑤Distance Metricで Euclideanを選択。

68.

[Hierarchical Clustering]の設定 [Hierarchical Clustering] window ④ ② ③ ① [Hierarchical ④距離が近いクラス Clustering]を開く。 ② LinkageでSingleを選ぶ。 ③ Annotationsで keyを選ぶ。ターの順につないだ樹形図が表示される。

69.

階層クラスタリング図全てのデータ点を個々のクラスタとして始め、最も似ているクラスタを繰り返し結合する。 ①図の横軸は距離：右から左へ値が大きくなる。 ②ある距離でそれまで右側にあった二つのクラスターを一つのクラスタに結合した。 ③BCC,FCC,HCPクラスタがそれぞれ，大きな距離で初めて一つになる。 ④データに合ったクラスタリングが行えている。 ①

70.

Linkageの説明 helpによるLinkageの説明 ② Help window ①押す Single linkage computes the distance between the closest elements of the two clusters Average linkage computes the average distance between elements of the two clusters Weighted linkage uses the WPGMA method Complete linkage computes the distance between the clusters' most distant elements Ward linkage computes the increase of the error sum of squares. In other words, the Ward's minimum variance criterion minimizes the total within-cluster variance.

71.

Linkageの設定 Linkage=Weighted Linkage=Average Linkage=Weighted Linkage=Complete

72.

階層クラスタリングの距離の選び方 Q.[Distances]の距離と[Hierarchical Clustering] の距離はどう選べば良いのでしょうか。 Single Linkageのbcc部分を拡大 A.階層クラスタリングはinteractiveな手法です。距離の選び方：解析者が見たい見え方になるように選びます。鉄結晶データの場合はBCC,FCC,HCP構造が最後に一つになりました。これは解析者が見たい見え方です。この見方の元に各構造やクラスタがどれだけ近いのかをデータ解析学の観点で明らかにすることができます。 ③ ① ② 相対的に ①bcc_05が元構造のbccに最も距離が近い構造。 ②bcc_01,02,04間が距離が近い構造。 ③bcc_00,03は距離が遠い構造。

73.

74.

欠損データの扱い [Linear Regression] window 1.03.linear_regression_preprocessed_model.ows ① ①defaultのpreprocessが使われていないという印。 ③説明windwowが開きます。→次ページ ②警告の簡単な説明が表示されます。

75.

[Linear Regression]のdefault preprocess 回帰のdefaultでは • 目的変数値が無い行は除く。 • 説明変数値がなければ説明変数毎に欠損値を平均値とする。 • sklearn.preprocessing.OneHotEn coderはdummy variableのフラグベクトルに変換する。このため，Preprocessorとして [Preprocess]をつないでいなければ，データに欠損が合っても動作する。 defaultのPreprocessを使わない場合は[Preprocess]をつなぐ。

76.

欠損がある観測データ ①欠損が無い元観測データとして {prefix}/data/ReCo_Tc_fix_descriptor_Orange.csv （{prefix}/data/ReCo_Tc_descriptor_Orange.csvを一部修正したデータ） ② 重要な説明変数値が欠けている場合 ④ ファイル： {prefix}/data/missing_major_ReCo_Tc_fix _descriptor_Orange.csv 主として重要な説明変数値が４つ欠損しているデータ。 TCが大きな値C_R,C_T,vol_per_atomが４つ欠損している。 ③ 重要でない説明変数値が欠けている場合 ⑤ ファイル： {prefix}/data/missing_minor_ReCo_Tc_fix_de scriptor_Orange.csv 重要でない説明変数データが４つ欠損しているデータ。 TCが大きな値のZ,Szが４つ欠損している。

77.

欠損の補完方法欠損はあるが大量の観測データがある場合：欠損の補完方法簡単には，列ごとに 1. 平均値を代入する。 2. （正規化後に）ランダムに数値を代入する。欠損をなんとかできれば回帰に使える膨大なデータとなる。この観測データをなんとか利用したい・・・。観測データに対して𝑦𝑦~𝑓𝑓 𝑥𝑥⃗ という「相関」を回帰で求めるように，欠損していない観測値と欠損値の「相関」を𝑥𝑥 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ～𝑔𝑔(𝑥𝑥⃗ 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 )と予測できるのでは？ 3. 回帰モデルを用いる。

78.

２．０7.impute.ows 上部下部

79.

詳細の設定 2.07.impute.owsの上部 ②Standarize ① {prefix}/data/missing_ major_ReCo_Tc_fix_d escriptor_Orange.csv ③Fit interceptをチェック。簡単のためNo regularizationを選択 ④簡単のため[Test and Scores]でなく[Predictions]を選択。

80.

[impute] ①全体設定（上部） ②補完（impute）しない。 ③平均値（回帰），最頻出値（カテゴリ変数） ⑦個別設定（下部） ④今のOrangeでは，欠損値を目的変数にして回帰を行ない最も距離が近いデータインスタンスの値を代入する回帰を行ないます。 ⑤ランダム値 ⑥欠けたセルがある行を削除する。データインスタンス数は減る。

81.

ワークフローの設定 ① ② ①[impute]の条件を変えて ②[Predictions]の回帰評価指標値を比較して結果を表で可視化する。

82.

Model-based imputerの場合残念なことに， ②xが表示される。 [Linear Regression]でモデルはできているのですが，[Predictions]がうまく動作しない。 ① ③一度[Save Data]でCSVに直す。 {prefix}/data_generated/imput ed_major_ReCo_Tc.csv ①

83.

Model-based imputerの評価指標値 2.07.impute.ows下部分 ①[Save Data]で保存したCSVファイル： {prefix}/data_generated/imputed _major_ReCo_Tc.csv ②xが無い。動作している。回帰評価指標値を得ることができる。

84.

結果の見方 [Impute] Method RMSE(K) MAE(K) R2 ① ② 欠けが無い元観測データ Remove instances with unknown values 欠損がある行を削除。データインスタンス数は元より少ない。 ③ ④ ⑤ Average 列の平均値で補完 Random values ランダム値で補完 Model-based 回帰モデルで補完

85.

結果 ① ② C_Rなど重要度が高い説明変数を欠損値にした観測データ ③ ④ S4fなど重要度が比較的低い説明変数を欠損値にした観測データ [Impute] Method RMSE(K) MAE(K) R2 [Impute] Method RMSE(K) MAE(K) R2 欠けが無い 89 66 0.957 欠けが無い 89 66 0.959 Remove instances with 90 unknown values 67 0.953 Remove instances with unknown values 90 67 0.953 Average 129 100 0.910 Average 88 66 0.958 Random values 132 102 0.906 Random values 89 67 0.957 1-NN 91 70 0.955 1-NN 89 67 0.957 ③欠損データインスタンスを除くと評価指標値は悪化しない。 ④重要な説明変数に欠損があると評価指標値が悪化する。どの程度悪化するのかは問題に依存する。 ⑤欠損データインスタンスを除く場合，補完方法が違う場合の影響を受けにくく， ⑥評価指標値が悪化しない。

86.

（参考）[impute]を利用する場合・しない場合の予測値比較 missing_major_... 横軸：全観測データを用いた予測値縦軸：欠損値を補完した予測値赤：欠損値があったデータインスタンスの予測値 missing_minor_... average average Modelbased Modelbased

87.

2.08.impute-comparison.ows 使用したワークフローの上部のみ表示 [Merge Data] を用いている。（説明は行わない。）

88.

[impute]利用について説明変数の重要性の観点でのみ議論しましたが，希土類Co合金の磁気相転移温度𝑇𝑇𝐶𝐶 の文献データの場合は 1. C_R, C_T, vol_per_atomは構造由来の説明変数であり，それられの間には関係がある。 2. Z,S4fなどは希土類元素に対する説明変数であり，同じ希土類元素を用いた他の構造・化学式のデータインスタンスの値と全く同じである，つまり一部欠損していても，他のデータインスタンスの同説明変数を用いることができる。という観測データの特徴も関係しているでしょう。観測データによっては回帰性能が大きく悪化する場合があるということにご注意ください。

89.

90.

Orange CSVファイルへの変換 ① Orangeの識別子が入っていないCSVファイル ② Orangeの識別子が入っているCSVファイル {prefix}/data/x15_sin_Orange.csv {prefix}/data/original_csv/x15_sin.csv ③ ④ ③continuous=連続変数 ③class=目的変数の２つの行が加わっただけ。

91.

CSV変換ワークフロー ②Orangeの識別子を含むcsvファイルに書き出す。 ①Orangeの識別子が入っていないcsvファイルを読み込む。 B_1_File_format.ows フォルダ ①で読み込む：{prefix}/data/original_csv/ --- Orangeの識別子が入っていないcsvファイル ②で書き込む：{prefix}/data --- Orange csvファイル

92.

変数型と役割の変更 [File] window ③ yを連続値の目的変数とするには Type:numeric Role: target と変更する。 ① カテゴリ量連続値文字列時間 ② 説明変数目的変数メタデータ出力しない

93.

変数型と役割の変更 ①設定を変更し終えたら最後に[Apply]ボタンを押す。

94.

引用単元素結晶：WikipediaとPymatgen 鉄結晶：Materials Project Database, Jörg Behler and Michele Parrinello, PRL 98, 14641 (2007).

95.

今回行ったこと Orange Data Miningを用いて • 回帰 • 次元圧縮 • 分類(classification) • クラスタリング(clustering) を物質データに対して行った。欠損データとCSV変換についても説明した。

96.

以上です。お疲れ様でした。