２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

17.9K Views

December 14, 22

#マテリアルズ・インフォマティクス #データ解析学 #セミナー #機能分解木 #回帰 #Python #NumPy #Pandas #Scikit-learn #回帰分析

スライド概要

マテリアルズ・インフォマティクス連続セミナー第二回
動画：https://youtu.be/wrANu-Cqv_0 (音量修正版、2022, Dec 27 修正済み）
2022, Dec. 27修正
ソースコード (2023, Jan. 9改定）：https://bitbucket.org/kino_h/python_mi_seminar_2023/src/master/

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 75.2K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナープログラミング大規模言語モデル

木野日織 49K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

マテリアルズ・インフォマティクスセミナーデータ解析学基礎機能分解木

木野日織 47.7K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 47.2K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

マテリアルズ・インフォマティクスデータ解析学ベイズ最適化推薦システム

木野日織 25.6K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナー次元圧縮クラスタリング分類

木野日織 18.7K

各ページのテキスト

２０２２年度マテリアルズ・インフォマティクス連続セミナー第二回木野日織（きのひおり）

今回の内容二回目内容 Pythonモジュールの紹介データの紹介 Scikit-learn 回帰手法の紹介

今回の内容内容 Pythonモジュールの紹介 numpy データの紹介 Pandas Scikit-learn 回帰手法の紹介

代数計算クラスライブラリ問題点：Pythonのリストは多次元ベクトルを書けるが、四則演算はできない。例えば演算子＋はリストのappendになる。目的：Pythonでの代数ベクトルや高次元行列の基本型を与え、演算を行う。手段：numpy

代数演算 numpy import nump as np # リストからarrayへの変換 Aarray = np.array(Alist) ベクトル演算行列演算手法： numpy.array 手法： numpy.matrix 作成方法 Pythonリストから作成 Pandasデータフレームから作成

numpy 手法： numpy.array 作成方法 import pandas as pd Pandasデータフレームから作成 Pythonリストから作成 # dfがpandasデータフレーム # pandasからarrayへの変換 Aarray = df.values Aarray = df.loc[:, COLUMN_LIST].values 全データから作成カラムを指定して作成

表形式データクラスライブラリ目的：表形式のデータの操作を行う。(“データ解析学のExcel”) 手段：Pandasデータフレームできること：列毎に複数の型を入れる。データ欠如セルの操作。可視化。 Pandasデータフレームカラム名１ヵラム名２カラム名３カラム名４ … CSVファイル numpy array 整数、実数、文字列、・・・

Pandasデータフレーム iImport pandas as pd 目的：表形式データ import pandas as pd # CSVファイルから観測データを読み込む。 df = pd.read_csv(filepath) 手段：Pandas データフレーム作成方法 numpy.array から作成 # CSVファイルへ観測データを保存する。 df = pd.to_csv(filepath) リストから作成辞書から作成保存方法 CSVファイルから読み込む CSVファイルへ保存する

今回の内容内容 Pythonモジュールの紹介 Scikit-learn回データの紹介トイモデル帰手法の紹介希土類コバルト合金𝑇𝐶

10.

今回用いるデータ • トイモデル 𝑥Ԧ = (𝑥, 𝑥 2 , 𝑥 3 , 𝑥 4 , 𝑥 5 , sin 𝑥 ) 𝑦 = sin 𝑥 + 𝑁(0, 𝑠𝑐𝑎𝑙𝑒 2 ) • 希土類コバルト(ReCo)合金磁気相転移温度(𝑇𝐶 ) 説明変数希土類元素：原子番号 (カラム名 Z) d,f 軌道の電子配置 (f4,d5)期待値その射影量 (4f, S4f, J4f,(g-1)J4f, (2-g)J4f) 構造由来説明変数：希土類元素の体積あたり数密度 (C_R) Co の体積あたり数密度 (C_T) 元素あたりの体積（vol_per_atom) （構造はAtomWorkから取得し加工済み。） Re Z 目的変数：磁気相転移温度T_C

11.

今回の内容内容 Pythonモジュールの紹介データの紹介 Scikit-learn 回帰手法の紹介今回の本題

12.

Scikit-learn • 2022/12/13の最新版versin 1.2.0の説明を参照して書いています。 • Versionが変わると動作が変わる可能性があります。ご了承ください。

13.

Scikit-learnの使い方基本的な使い方が統一されています。回帰・分類・クラスタリング reg = LinearRegression(…) reg.fit(X,y) yp =reg.predict(X) 規格化・次元圧縮 dr = PCA(…) dr.fit(X) Xtransformed =dr.transform(X) dr.fit_transform(X) としか呼べないモジュールもあります。

14.

今回の内容今回は • 主として回帰の説明を行いますが、 • 訓練・テストデータ分割、交差検定も同時に行うので、次回以降の次元圧縮・分類・クラスタリングと比べて、説明量が多くなっています。

15.

Scikit-learnの説明に関して説明例 https://scikitlearn.org/stable/modules/generated/sklearn.linear_ model.LassoCV.html#sklearn.linear_model.LassoCV

https://scikit-

16.

回帰モデル：予測モデル学習と未知データへの適用未知データに対して予測する未知データに対して予測値を得る予測モデルを得る観測データを収集する観測データを加工する予測モデルを学習する未知データを収集する未知データを加工する予測モデルで未知データに対して予測値を得る

17.

回帰予測モデル予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV RidgeCV 交差検定で一般的な回帰モデルを作る GridSearchCV

18.

例１レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • トイモデル Z-score Normalization 線形回帰モデル一組の訓練・テストデータに分割

19.

010.050 予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge 目的：これらの関数の利用法を知ること。 KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV RidgeCV 交差検定で一般的な回帰モデルを作る GridSearchCV

20.

回帰モデル：学習未知データに対して予測する予測モデルを得る観測データを収集するファイル x5_sin.csvを読み込む (データ作成) 観測データを加工する未知データに対して予測値を得る予測モデルを学習する結果の解釈を行う生観測データ規格化関数をを得る作成する

21.

22.

観測・未知データ作成 x1 x2 x3 x4 x5 x6 y 𝑥Ԧ = (𝑥, 𝑥 2 , 𝑥 3 , 𝑥 4 , 𝑥 5 , sin 𝑥 ) 𝑦 = sin 𝑥 + 𝑁(0, 𝑠𝑐𝑎𝑙𝑒 2 ) 𝑁(𝜇, 𝑠𝑐𝑎𝑙𝑒 2 ): 平均𝜇, 分散𝑠𝑐𝑎𝑙𝑒 2 の正規分布。観測データ：x5_sin.csv 未知データ：x5_sin_new.csv

23.

24.

データ取得 1 2 3 4 5 6 Filename = f”{ROOT}/data_calculated/x5_sin.csv” DESCRIPTOR_NAMES = [‘x1’, ‘x2’, ‘x3’, ‘x4’, ‘x5’, ‘x6’] TARGET_NAME = “y” df_obs = pd.read_csv(filename) Xraw = df_obs.loc[:, DESCRIPTOR_NAMES].values y = df_obs.loc[:, TARGET_NAME].values 説明変数，目的変数カラムの設定データファイルの読み込み生観測データを得る説明変数 Xraw 目的変数 y

25.

変数名定義（１）説明変数生説明変数 Xraw 加工済み説明変数X 訓練データ Xtrain テストデータXtest

26.

変数名定義（２）目的変数観測データ目的変数訓練データ ytrain テストデータ ytest 目的変数予測値訓練データ ytrainp テストデータ ytestp

27.

データ加工 Scikit-learnのライブラリは黄色表示 1 2 3 4 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() データ加工 scaler.fit(Xraw) Z-score Normalizationによる規格化のみ行う。 X = scaler.transform(Xraw)

28.

予測モデル学習の各過程観測データから学習する 1. 観測データ分割を行う 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

29.

一組の訓練データ、テストデータへの分割 train_test_split テストデータサイズ指定方法 test_size={割合} ランダム分割指定方法 shuffle=True 目的：毎回、同じ結果を得る random_state={整数} スクリプトの毎実行同じ乱数でランダムに分け、テストデータ＝観測データの25%とする。 from sklearn.model_selection import train_test_split Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.25, shuffle=True, random_state=1)

30.

予測値生成回帰モデル学習予測値作成 .fit() .predict()

31.

モデル当てはめ罰則項が無い線形回帰モデル 1 from sklearn.linear_model import LinearRegression 2 reg = LinearRegression() 訓練データを用いて回帰モデルを作成する 3 reg.fit(Xtrain, ytrain) 予測値を生成する。 4 ytrainp = reg.predict(Xtrain) 5 ytestp = reg.predict(Xtest)

32.

回帰係数 reg.fit(Xtrain, ytrain) で回帰係数と切片が求まっている。それらの表示を行う。 print("coef", reg.coef_) print("intercept", reg.intercept_)

33.

予測モデルの性能評価テストデータを用いた評価指標値RMSE, MAE, R2 の値を得る。（RMSEは√𝑀𝑆𝐸 とする。） 1 2 3 4 5 6 7 8 from sklearn.metrics import r2_score from sklearn.metrics import mean_squared_error from sklearn.metrics import mean_absolute_error rmse = np.sqrt(mean_squared_error(ytest, ytestp)) mae = mean_absolute_error(ytest, ytestp) r2 = r2_score(ytest, ytestp) print("RMSE, MAE, R2", rmse, mae, r2)

34.

回帰モデル：未知データへの適用結果の解釈を行う未知データに対して予測する未知データに対して予測値を得る予測モデルを得る観測データを収集するファイル x5_sin.csvを読み込む生観測データを得る観測データを加工する観測データから学習する規格化関数を作成する reg変数未知データを収集するファイル x5_sin_new.csv を読み込む生未知データを得る未知データを加工する予測モデルで未知データに対して予測値を得る規格化関数を適用する reg変数適用 (データ作成) scaler変数 scaler変数適用

35.

新規データへの適用「未知データ」→データがある場合は「新規データ」と読み替える。新規データを含むファイルを読む。 1 2 3 4 5 6 filename_new = f"ROOT/data_calculated/x5_sin_new.csv" df_new = pd.read_csv(filename_new) Xraw_new = df_new.loc[:, DESCRIPTOR_NAMES].values ynew = df_new.loc[:, TARGET_NAME].values Xnew = scaler.transform(Xraw_new) ynewp = reg.predict(Xnew) 新規データ生説明変数 Xraw_new 新規データ目的変数 ynew (答え合わせのために新規データ目的変数がある。) データ加工観測モデル変換と同じ scaler で説明変数を変換する同じ回帰モデルで、新規データ目的変数予測値を生成する

36.

結果解釈未知データに対して予測する予測モデルを得る未知データに対して予測値を得る結果の解釈を行う

37.

結果解釈：観測データの規格化前後可視化生観測データ説明変数 # ２パネルある図 fig, axes = plt.subplots(1, 2) # 左図は index vs Xraw，マーカー".-" axes[0].plot(Xraw, ".-") # 右図は index vs X axes[1].plot(X, ".-") # 図の軸ラベルをつける # 横軸名前 "x1" # 縦軸名前 "y" plt.xlabel("x1") plt.ylabel("y") 規格化後観測データ説明変数

38.

結果解釈：観測データと新規データの可視化 # 規格化後観測データ plt.plot(X[:, 0], X[:, 1:], ".-") # 規格化後新規データ plt.plot(Xnew[:, 0], Xnew[:, 1:], "o") # 軸の名前 plt.xlabel("x1") plt.ylabel("X") 新規データ観測データ外挿領域

39.

結果解釈：訓練データ・テストデータ分割の可視化 plt.plot(Xtrain[:, 0], Xtrain[:, 1:], ".") plt.plot(Xtest[:, 0], Xtest[:, 1:], "o", markersize=10) # 図が印刷可能範囲を出ないようにする． plt.tight_layout() 観測データのうち訓練データでないデータがテストデータになる。訓練（・）テスト（○）

40.

観測データ、新規データ予測値の可視化訓練データとテストデータ新規データ # 2 パネルの図 fig, axes = plt.subplots(1, 2) # 左が訓練データとテストデータの # 目的変数観測値vs予測値 axes[0].plot(ytrain, ytrainp, ".") axes[0].plot(ytest, ytestp, "o") axes[0].set_aspect("equal", "box") # 右が新規データの # 目的変数観測値vs予測値 axes[1].plot(ynew, ynewp, "x") axes[1].set_aspect("equal", "box") fig.tight_layout() 横軸：目的変数観測値, 縦軸：予測値

41.

例２レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • トイモデル Z-score Normalization 線形回帰モデル交差検定で訓練・テストデータに分割

42.

010.055 予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge 目的：これらの関数の利用法を知ること。 KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV RidgeCV 交差検定で一般的な回帰モデルを作る GridSearchCV

43.

交差検定: KFold KFold 交差検定回数 n_splits={回数} shuffle=True 分割指定方法ランダム random_state={整数} 非ランダム Default shuffle=False kf = KFold(n_splits=5, shuffle=True, random_state=1) 目的：ランダム時に毎回、同じ結果を得る

44.

交差検定 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 from sklearn.model_selection import KFold from sklearn.metrics import r2_score from sklearn.linear_model import Lasso N_SPLITS = 5 SHUFFLE = True alpha = ある値を指定する score_function = r2_score cv_test_score_list = [] # テストデータ回帰評価指標値保存用配列 kf = KFold(n_splits=N_SPLITS, shuffle=SHUFFLE, random_state=1) for train, test in kf.split(X): reg = Lasso(alpha=alpha) Xtrain, ytrain = X[train], y[train] # 訓練データ Xtest, ytest = X[test], y[test] # テストデータ reg.fit(Xtrain, ytrain) # 訓練データを用いて fit ytestp = reg.predict(Xtest) # テストデータへの予測値 testscore = score_function(ytest, ytestp) cv_test_score_list.append(testscore) test_score_list.append([np.mean(cv_test_score_list), np.std(cv_test_score_list), alpha]) r2_score以外を用いるために別関数としている。 N_SPLITS変数で指定した回数だけ for loopが行われる。 train, test は各回の訓練・テストデータのインデックスが入る。交差検定test_scoreの平均値と標準偏差

45.

罰則項有り線形回帰モデル Lasso L1罰則項 L2罰則項 Lasso Ridge インスタンスを作成するモデル作成予測値作成ハイパーパラメタ .fit() .predict() alpha={実数} Ridge回帰も同じ。

46.

交差検定部分 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 from sklearn.model_selection import KFold from sklearn.metrics import r2_score from sklearn.linear_model import Lasso N_SPLITS = 5 SHUFFLE = True alpha = {実数} # ある値を指定する score_function = r2_score cv_test_score_list = [] # テストデータ回帰評価指標値保存用配列 kf = KFold(n_splits=N_SPLITS, shuffle=SHUFFLE, random_state=1) for train, test in kf.split(X): reg = Lasso(alpha=alpha) Xtrain, ytrain = X[train], y[train] # 訓練データ Xtest, ytest = X[test], y[test] # テストデータ reg.fit(Xtrain, ytrain) # 訓練データを用いて fit ytestp = reg.predict(Xtest) # テストデータへの予測値 testscore = score_function(ytest, ytestp) cv_test_score_list.append(testscore) test_score_list.append([np.mean(cv_test_score_list), np.std(cv_test_score_list), alpha]) インスタンス作成時に alphaを指定する。

47.

Lassoのハイパーパラメタループ部分 1 2 3 4 5 6 7 8 9 10 11 12 13 alpha_list = np.logspace(-5, -1, 20) # 用いる alpha の値のリスト test_score_list = [] # alphaのループを行う。 for alpha in alpha_list: ハイパーパラメタの可能性を全て探索する＝網羅(brute force)探索 # 各アルファで交差検定を行う。 kf = KFold(n_splits=N_SPLITS, shuffle=SHUFFLE, random_state=1) for train, test in kf.split(X): Xtrain, ytrain = X[train], y[train] … test_score_list.append([np.mean(cv_test_score_list), np.std(cv_test_score_list), alpha]) 交差検定部分

48.

結果解釈：可視化 columns_list = ["mean(R2)_train", "std(R2)_train", "alpha"] df_train_score = pd.DataFrame(train_score_list, columns=columns_list) columns_list = ["mean(R2)_test", "std(R2)_test", "alpha"] df_test_score = pd.DataFrame(test_score_list, columns=columns_list) # df_train_scoreとdf_test_scoreをまとめる df_score = df_train_score.merge(df_test_score, on=“alpha”) # 可視化 from regression_misc import plot_alpha_yerror # ユーザー定義関数 plot_alpha_yerror(df_score) 回帰係数は𝑅2 (𝑡𝑒𝑠𝑡)~0.999 for log10 (𝛼) < −2

49.

交差検定５分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練データ #1 𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝑓2345 (𝑥) Ԧ #1 score1 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ 𝑓1345 (𝑥) Ԧ #2 score2 𝑓1235 (𝑥) Ԧ #3 score3 #4 #5 score4 ave(score), stddev(score) score5

50.

予測モデル選択 1 2 3 4 imax = np.argmax(df_score[“mean(R2)_test”]) # alpha の最適値 alpha_opt = df_score.loc[imax, "alpha"] print("alpha_opt", alpha_opt) 過学習にならないようにalphaが大きい側が良いが、ここでは最大値を与えるindexを機械的に求める。 alphaの最適値が求まった。（モデルが一つ求まったわけではない。）例えば、scikit-learnの*CV関数は、最適alpha 値を用いて、全観測データを用いてモデルを作り直す。 5 6 7 8 reg = Lasso(alpha=alpha_opt) reg.fit(X, y) # 観測データ全てを用いた学習 print(reg.coef_, reg.intercept_) # 回帰係数と切片 yp = reg.predict(X) # 観測データの予測値 reg.coef_部分：[-0.003 -0. -0. -0. -0. 0.718]

51.

交差検定と新規データへの目的変数予測値観測データ交差検定目的変数観測値 vs 予測値新規データ目的変数観測値 vs 予測値観測データ・新規データ x1 vs y 新規データの外挿領域でも妥当な予測ができています。（Lassoでは常にこうなるわけではありません。）

52.

[beta]

追加コード
目的：alphaを変えて回帰係数の変化を見る。
010.055.text.linear_regression-CV.ipynb最後に追加。
from sklearn.model_selection import cross_val_score
from sklearn.metrics import make_scorer
result_coef = []
for alpha in alpha_list:
reg = Lasso(alpha=alpha)
reg.fit(X,y)
result_coef.append(reg.coef_)
df_coef = pd.DataFrame(result_coef, columns=DESCRIPTOR_NAMES)
df_alpha = pd.DataFrame({"alpha":alpha_list})
df_coef = df_coef.merge(df_alpha, left_index=True, right_index=True)
df_coef.plot(x="alpha", marker="o", logx=True)

53.

追加コード結果目的：alphaを変えて回帰係数の変化を見る。 sin(𝑥)項のみ。 (𝑥, sin(𝑥))のみ 𝑥𝑖 Lassoは積極的に不要な係数を（厳密に）０とする。 l𝑜𝑔10 (𝛼)

54.

𝑃 Lassoによる変数選択 𝑓 𝑥Ԧ = ෍ 𝑤𝑝 𝑥𝑝 + 𝑤0 𝑝 𝑥Ԧ = 𝑥1 , 𝑥2 , … , 𝑥𝑃 𝑤 = 𝑤, 𝑤2 , … , 𝑤𝑃 よくある説明 𝐿𝑎𝑠𝑠𝑜：𝐿𝑟𝑒𝑔 = 1 2𝑁 𝑁 σ 𝑖 𝑡𝑟𝑎𝑖𝑛 𝑡𝑟𝑎𝑖𝑛 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2 +𝛼 𝑤 1 1 を最小化第一項の寄与 𝑤2 第一項の最適値 𝑤1 ≠ 0, 𝑤2 ≠ 0, 第二項の最適値 𝑤1 第二項の寄与 𝐿𝑟𝑒𝑔 の最適パラメタ(この場合は𝑤1 ≠ 0, 𝑤2 =0)

55.

罰則項有り線形回帰モデル Lasso 目的：回帰とモデル選択を同時に行う L1罰則項 L2罰則項 Lasso Ridge インスタンスを作成するモデル作成予測値作成ハイパーパラメタ .fit() .predict() alpha={実数} Ridge回帰も同じ。

56.

010.055の一部予測モデルを学習するプログラム組み合既存関数方式わせ方式ハイパーパラメタ観測データ分割をモデル当てはめをを幾つか選ぶ行う行う一組の訓練・テストデータ train_test_split 交差検定 KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge KernelRidge モデルを選択する交差検定で線形回 LassoCV 帰モデルを作る RidgeCV 交差検定で一般的な回帰モデルを作る GridSearchCV 目的：この関数の利用法を知ること。

57.

LassoCV 010.055は途中で以下のコードを挟んでいます。 LassoCV ハイパーパラメタの値の指定交差検定の指定 alphas={値リスト} cv=KFold １２３４５６７８ alpha_list = np.logspace(-5, -1, 20) # もっと上の行に記述した。 … from sklearn.linear_model import LassoCV kf = KFold(N_SPLITS, shuffle=True, random_state=1) reg = LassoCV(cv=kf, alphas=alpha_list) reg.fit(X, y) ハイパーパラメタの網羅探索 print("alpha", reg.alpha_) print("coef", reg.coef_) 全観測データに対してkfで指定した交差検定を行い最適なハイパーパラメタを求め、最後に最適化されたハイパーパラメタを用い、全観測データを用いて回帰モデルを一つ生成します。 LassoCVも.fit()の後は.predict()が使えます。全観測データに対する予測値の生成は以下で得られます。 yp = reg.predict(X)

58.

例３レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • ReCo合金の磁気相転移温度 Z-score Normalization カーネル回帰モデル交差検定

59.

010.060 予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV 交差検定で一般的な回帰モデルを作る RidgeCV GridSearchCV 回帰モデルの指定その他の指定 KernelRidge 目的：この関数の利用法を知ること。

60.

[beta]

観測データの取得
ReCo磁気相転移温度データのファイルからの読み込み
1
2
3
4
5
6
7
8
9

filename = f"{ROOT}/data/TC_ReCo_detail_descriptor.csv"
DESCRIPTOR_NAMES = ['C_R', 'C_T', 'vol_per_atom', ‘Z‘,
‘f4’, ‘d5’, ‘L4f‘, 'S4f', 'J4f','(g-1)J4f’,
'(2-g)J4f']
TARGET_NAME = 'Tc'
RANDOM_STATE = 5 # 乱数設定
df_obs = pd.read_csv(filename)
Xraw = df_obs.loc[:, DESCRIPTOR_NAMES].values
y = df_obs.loc[:, TARGET_NAME].values

説明変数カラム，目的変
数カラムの設定

ファイルから読み込み
生説明変数
目的変数

61.

カーネル法回帰カーネルリッジ回帰関数𝐿𝑟𝑒𝑔 = σ𝑖 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2 +𝛼 𝑤 2 を最小化 2 カーネルリッジ法回帰ガウス過程回帰 𝑁 カーネルの形 𝑓 𝑥Ԧ = ෍ 𝑤𝑖 𝐾(𝑥, Ԧ 𝑥Ԧ𝑖 ) L2罰則項 𝑖 RBFカーネル: 𝐾(𝑥, 𝑦) = exp(−𝛾 𝑥 − 𝑦 2 2 Sklearn.metrics.p airwise ) RBFカーネル sklearn.metrics.pairwiseで定義される。 alpha={実数} kernel=“rbf” （ガウス過程回帰のRBFカーネルとは異なる。 sklearn.gaussian_process.kernels.RBF） gamma={実数} RBFカーネルを用いるカーネルリッジ回帰ではハイパーパラメタが２つある。 estimator = KernelRidge(alpha=1 , gamma=1, kernel="rbf")

62.

[beta]

KernelRidge回帰の可能なkernel文字列
sklearn.kernel_ridge.KernelRidgeのParameters:部分の説明

from sklearn.metrics import pairwise
print(pairwise.PAIRWISE_KERNEL_FUNCTIONS)
{'additive_chi2': <function additive_chi2_kernel at 0x7f5d4f3471f0>, 'chi2': <function
chi2_kernel at 0x7f5d4f347280>, …
文字列と関数の対応がわかります。

63.

一般的なハイパーパラメタの最適化 GridSearchCV モデルモデル内ハイパーパラメタ性能評価指標交差検定 estimator={回帰クラス|分類クラス} param_grid={辞書} scoring={文字列} cv=KFold Default scoring=“r2” Scoringで可能な文字列Ref. https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter Default KFold, 5 fold, shuffle=False

64.

[beta]

カーネルリッジ回帰＋交差検定
1
2
3
4
5
6
7
8
9
10
11

from sklearn.model_selection import KFold
from sklearn.kernel_ridge import KernelRidge
名前確認のためにalpha=,
from sklearn.model_selection import GridSearchCV
gamma=を書いた。
nfold = 10
kf = KFold(nfold, shuffle=True, random_state=RANDOM_STATE)
estimator = KernelRidge(alpha=1 , gamma=1, kernel="rbf")
ハイパーパラメタ
param_grid = {“alpha”: np.logspace(-6, 0, 11), "gamma": np.logspace(-5, 0, 11)}
の名前を合わせる。
reg_cv = GridSearchCV(estimator, cv=kf, param_grid=param_grid)
reg_cv.fit(X, y)
交差検定で最適なハイパーパラメタ
print("best hyperparameter")
を得て、最後に観測データ全てを用
print(reg_cv.best_params_)
いて最適なハイパーパラメタで一つ

回帰モデルを学習する。
Scikit-learnの*CVモジュールは同様
の機能を持つ。

best hyperparameter
{'alpha': 6.309573444801929e-05, 'gamma': 0.00031622776601683794}

65.

[beta]

カーネルリッジ回帰＋交差検定
from sklearn.model_selection import KFold
from sklearn.kernel_ridge import KernelRidge
from sklearn.model_selection import GridSearchCV
nfold = 10
kf = KFold(nfold, shuffle=True, random_state=RANDOM_STATE)
estimator = KernelRidge(alpha=1 , gamma=1, kernel="rbf")
param_grid = {“alpha”: np.logspace(-6, 0, 11), "gamma": np.logspace(-5, 0, 11)}
reg_cv = GridSearchCV(estimator, cv=kf, param_grid=param_grid)
reg_cv.fit(X, y)
print("best hyperparameter")
print(reg_cv.best_params_)
gamma
np.logspace(-5, 0, 11)

1
2
3
4
5
6
7
8
9
10

ハイパーパラメタ
の網羅探索
alpha
np.logspace(-6, 0, 11)

66.

GridSearchCVの出力 reg_cv. cv_results_ が結果出力辞書を返します。 print(reg_cv.cv_results_.keys()) １０回交差検定の場合の出力例 dict_keys(['mean_fit_time', 'std_fit_time', 'mean_score_time', 'std_score_time', 'param_alpha', 'param_gamma', 'params', 'split0_test_score', 'split1_test_score', 'split2_test_score', 'split3_test_score', 'split4_test_score', 'split5_test_score', 'split6_test_score', 'split7_test_score', 'split8_test_score', 'split9_test_score', 'mean_test_score', 'std_test_score', 'rank_test_score’]) Enjoy print(reg_cv.cv_results_)

67.

例4 レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • トイモデル Z-score Normalization Ln罰則項線形回帰モデルの比較交差検定

68.

010.110 予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うモデルを選択するカーネル法 Ridge KernelRidge 目的：共線性がある場合の回帰係数を比較する。交差検定で線形回帰モデルを作る LassoCV 交差検定で一般的な回帰モデルを作る RidgeCV GridSearchCV 回帰モデルの指定 KernelRidge その他の指定

69.

共線性について 𝑥 𝑥3 𝑥5 sin 𝑥 = − + +⋯ 1 3! 5! であり、yには観測誤差を入れており、観測データ“x5_sin.csv”は線形回帰では係数に任意性がある多重共線性を持つデータです。小さいハイパーパラメタを入れた線形回帰でモデル学習すると回帰係数はどうなるでしょうか？ DATA_NAME = "x5_sin" NORMALIZATIONTYPE = "standard" REGTYPE = “linear” # “linear”, “lasso”, “ridge“ に変更可能 RANDOM_STATE = 1 # random state of train_test_split REGTYPEを“linear”, “lasso”, “ridge“ に変更することで、罰則項が無い線形回帰、 L1罰則項を持つLasso、L2罰則項があるRidge回帰の回帰係数を比較します。

70.

罰則項による線形回帰の回帰係数の比較スクリプトの最後の図横軸：交差検定の各モデルインデックス縦軸：訓練データで学習した回帰モデルの係数の値。 c1 c2 c3 c4 c5 c6 罰則項が無い線形回帰では非ゼロの(x, x 2 , x 3 , x 4 , 𝑥 5 , sin 𝑥 ) を持つ。係数の値も大きい。符号も変わる。 LassoとRidge回帰では罰則項のおかげで回帰係数（回帰モデル）はほぼ固定される。後ほど再び例が出てくる。

71.

回帰・交差検定予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV 交差検定で一般的な回帰モデルを作る RidgeCV GridSearchCV 回帰モデルの指定 KernelRidge その他の指定

72.

以上です。

２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

木野日織

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回 （仮）

各ページのテキスト

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回（仮）