マテリアルズ・インフォマティクス連続セミナー，回帰、交差検定、LLMによるソースコード作成

Scikit-learnの使い方基本的な使い方が統一されています。回帰・分類・クラスタリング reg = LinearRegression(…) reg.fit(X,y) yp =reg.predict(X) 規格化・次元圧縮 dr = PCA(…) dr.fit(X) Xtransformed =dr.transform(X) dr.fit_transform(X) としか呼べないクラスもあります。

回帰モデル：予測モデル学習と未知データへの適用未知データに対して予測する未知データに対して予測値を得る予測モデルを得る観測データを収集する観測データを加工する予測モデルを学習する未知データを収集する未知データを加工する予測モデルで未知データに対して予測値を得る

回帰予測モデル予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV RidgeCV 交差検定で一般的な回帰モデルを作る GridSearchCV

例１レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • トイモデル Z-score Normalization 線形回帰モデル一組の訓練・テストデータに分割

010.050 予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ分割方式交差検定方式 train_test_split KFold 線形回帰モデル方式 LinearRegression Lasso モデル評価を行うカーネル法方式 Ridge 目的：これらの関数の利用法を知ること。 KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV RidgeCV 交差検定で一般的な回帰モデルを作る GridSearchCV

10.

回帰モデル：学習未知データに対して予測する予測モデルを得る観測データを収集するファイル x5_sin.csvを読み込む観測データを加工する生観測データ規格化関数をを得る作成する未知データに対して予測値を得る予測モデルを学習する結果の解釈を行う

11.

観測・未知データ取得 x1 x2 x3 x4 x5 x6 y 𝑥Ԧ = (𝑥, 𝑥 2 , 𝑥 3 , 𝑥 4 , 𝑥 5 , sin 𝑥 ) 𝑦 = sin 𝑥 + 𝑁(0, 𝑠𝑐𝑎𝑙𝑒 2 ) 𝑁(𝜇, 𝑠𝑐𝑎𝑙𝑒 2 ): 平均𝜇, 分散𝑠𝑐𝑎𝑙𝑒 2の正規分布。観測データ：x5_sin.csv 未知データ：x5_sin_new.csv

12.

13.

データ取得 Jupyter notebookのセル番号説明変数，目的変数カラムの設定データファイルの読み込み生観測データを得る説明変数 Xraw 目的変数 y

14.

変数名定義（１）説明変数生説明変数 Xraw 加工済み説明変数X 説明変数 Xtrain 説明変数 Xtest

15.

変数名定義（２）目的変数観測データ目的変数訓練データ ytrain テストデータ ytest 目的変数予測値訓練データ ytrainp テストデータ ytestp 最後にpを加える。

16.

データ加工 1 2 3 4 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() データ加工 scaler.fit(Xraw) Z-score Normalizationによる規格化のみ行う。 X = scaler.transform(Xraw)

17.

予測モデル学習の各過程予測モデルを学習する 1. 観測データ分割を行う 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

18.

一組の訓練データ、テストデータへの分割 train_test_split テストデータサイズ指定方法 test_size={割合} ランダム分割指定方法 shuffle=True 目的：毎回、同じ結果を得る random_state={整数} スクリプトの毎実行同じ乱数でランダムに分け、テストデータ＝観測データの25%とする。 from sklearn.model_selection import train_test_split Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.25, shuffle=True, random_state=1)

19.

予測値生成回帰モデル当てはめ予測値作成 .fit() .predict()

20.

モデル当てはめ罰則項が無い線形回帰モデル訓練データを用いて回帰モデル当てはめを行い。訓練データのテストデータの予測値を生成する。

21.

モデル当てはめモデルができたので回帰係数と切片が求まっている。それらの表示を行う。

22.

予測モデルの性能評価テストデータを用いた評価指標値RMSE, MAE, R2 の値を得る。（RMSEは√𝑀𝑆𝐸 とする。）

23.

回帰モデル：未知データへの適用結果の解釈を行う未知データに対して予測する未知データに対して予測値を得る予測モデルを得る観測データを収集するファイル x5_sin.csvを読み込む生観測データを得る観測データを加工する観測データから学習する規格化関数を作成する reg変数未知データを収集するファイル x5_sin_new.csv を読み込む生未知データを得る未知データを加工する予測モデルで未知データに対して予測値を得る規格化関数を適用する reg変数適用 (データ作成) scaler変数 scaler変数適用

24.

新規データへの適用「未知データ」→データがある場合は「新規データ」と読み替える。新規データを含むファイルを読む。新規データ生説明変数 Xraw_new 新規データ目的変数 ynew (答え合わせのために新規データ目的変数がある。) データ加工観測モデル変換と同じ scaler で説明変数を変換する同じ回帰モデルで、新規データ目的変数予測値を生成する

25.

結果解釈未知データに対して予測する予測モデルを得る未知データに対して予測値を得る結果の解釈を行う

26.

結果解釈：観測データの規格化前後可視化図：左）生観測データ説明変数と右）規格化後観測データ説明変数

27.

結果解釈：観測データと新規データの可視化横軸縦軸新規データ観測データ外挿領域図：XとXnewをx1に対して図示。

28.

結果解釈：訓練データ・テストデータ分割の可視化訓練（・）テスト（○）観測データのうち訓練データでないデータがテストデータになる。図：xtrainとxtest

29.

観測データ、新規データ予測値の可視化訓練データとテストデータ新規データ横軸：目的変数観測値, 縦軸：予測値

30.

LLMによるコード生成言語詳細を理解しなくても，過程を詳細に説明できれば LLMを利用してソースコードが書けます。 Pythonコード生成例を示します。

31.

LLMによるコード生成１．（当たり前ですが）ユーザーが何をしたいのかという過程を理解していないと書けない。「未知データに対して予測する。」を行いたい。結果の解釈を行う未知データに対して予測する Q.どの程度まで過程を理解する必要があるのか？ A.場合による。観測データを収集する２．LLMは目的を記載すると入力を補完してコードを生成できます。初心者向けの機械学習手法であれば多くの場合に問題なく入力を補完します。３．変数名の指定も可能。未知データに対して予測値を得る予測モデルを得るファイル x5_sin.csvを読み込む (データ作成) 生観測データを得る観測データを加工する観測データから学習する規格化関数を作成する reg変数 scaler変数未知データを収集するファイル x5_sin_new.csvを読み込む生未知データを得る未知データを加工する予測モデルで未知データに対して予測値を得る規格化関数を適用する reg変数 scaler変数図：既出の「未知データに対すて予測する」の達成手法とその過程

32.

LLMによるコード生成 LLMが妥当なコードを生成できない指示であれば，それらの箇所をより詳細に記述する。図の「未知データに対して予測する」は(a)-(c)までそれなりのコードを書けます。 (a) 結果の解釈を行う未知データに対して予測する未知データに対して予測値を得る予測モデルを得る観測データを収集するファイル x5_sin.c svを読み込む (データ作成) 生観測データを得る観測データを加工する観測データから学習する規格化関数を作成する reg変数 scaler変数未知データを収集するファイル x5_sin_n ew.csvを読み込む生未知データを得る未知データを加工する規格化関数を適用する (b) 結果の解釈を行う未知データに対して予測する予測モデルで未知データに対して予測値を得る reg変数 scaler変数 User:未知データに対して予測するPythonコードを作成してください。未知データに対して予測値を得るモデルを予測得る観測データを収集するファイル x5_sin.c svを読み込む (データ作成) 生観測データを得る観測データを加工する観測データから学習する規格化関数を作成する reg変数 scaler変数未知データを収集するファイル x5_sin_n ew.csvを読み込む生未知データを得る未知データを加工する規格化関数を適用する (c) 結果の解釈を行う未知データに対して予測する予測モデルで未知データに対して予測値を得る reg変数 scaler変数 User:以下の過程に沿ってPythonコードを作成してください。１．回帰予測モデルを得る。２．未知データに対して予測値を得る。未知データに対して予測値を得るモデルを予測得る観測データを収集するファイル x5_sin.c svを読み込む (データ作成) 生観測データを得る観測データを加工する観測データから学習する規格化関数を作成する reg変数 scaler変数未知データを収集するファイル x5_sin_n ew.csvを読み込む生未知データを得る未知データを加工する規格化関数を適用する予測モデルで未知データに対して予測値を得る reg変数 scaler変数 User:以下の過程に沿ってPythonコードを作成してください。１．回帰予測モデルをを得るため１．Ｘ．の過程を行う。１．１．観測データを収集する。１．２．観測データを加工する。１．３．観測データから学習する。２．未知データに対して予測値を得る。図：既出の「未知データに対して予測する」の達成手法とその過程の詳細(オレンジ色)を徐々に明示する。(a)が不十分であれば(b)を，(b)が不十分であれば(c)を記載する。

33.

LLMの選択とコード作成方法初心者はGPT4の利用を薦めます。 GPT4相当LLM LLMによるコード生成 Pythonコード実行環境とコード修正あり Pythonコード実 Userコード無しに UserコードをLLM 行環境なしからコードを作る。が修正する。 ChatGPT4(Data ChatGPT Classic Analystもしくは（プラグインなプラグイン。）し） LLMが全部作る。 Microsoft Copilot 図：Python実行環境に関するGPT4相当LLMの分類例。Pythonコード実行環境と修正ありの場合はプログラムを実行してエラーの修正を自動的に行う。実行するために，簡単なデータを与える。もしくはLLMがデータを取得することができる。 LLMが部分的に作る。 LLMが動作するコードの一部を変える。図：LLMによるコード生成方法の分類例。使用する変数の指定も（ある程度）可能。

34.

LLMの説明を利用したコード生成 LLMの言葉使いを知る。その指示でソースコードを生成させる。１．ソースコードから説明の生成：ソースコード LLMの説明 LLMの説明の仕方を知る。２．LLMの説明を利用したコード生成： LLMの説明をプロンプトにする。ソースコード生成図：LLMの用語を理解するためのLLMの説明を利用したソースコード生成過程

35.

ソースコードから説明の生成：例１ ChatGPT4: You: 私はscikit-learnの初心者です。 Xrawとyはすでに与えられています。以下のプログラムを200文字以内で説明してください。 ``` from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaler.fit(Xraw) X = scaler.transform(Xraw) from sklearn.model_selection import train_test_split Xtrain, Xtest, ytrain, ytest = ¥ train_test_split(X, y, test_size=0.25, shuffle=True, random_state=1) from sklearn.linear_model import LinearRegression reg = LinearRegression() reg.fit(Xtrain, ytrain) print("coef", reg.coef_) print("intercept", reg.intercept_) ytrainp = reg.predict(Xtrain) ytestp = reg.predict(Xtest) ``` このプログラムは、データの前処理、分割、線形回帰モデルの訓練と評価を行う手順を示しています： 1. **標準化:** `StandardScaler`を用いて、特徴データ`Xraw`を標準化します。これにより、データのスケールを平均0、標準偏差1に調整します。 2. **データ分割:** `train_test_split`で、標準化されたデータ`X`と目的変数`y`を訓練用とテスト用に分割します。テストセットは全体の25%で、ランダムにシャッフルされます。 3. **線形回帰モデルの訓練:** `LinearRegression`を使って線形回帰モデルを作成し、訓練データにフィットさせます。 4. **モデルの係数と切片の出力:** 訓練されたモデルの係数と切片を出力します。 5. **予測:** モデルを使って、訓練データとテストデータの両方に対する予測を行います。

36.

説明の図示結果の解釈を行う未知データに対して予測する図に例１の過程の表示を行う。未知データに対して予測値を得る予測モデルを得る詳細レベルで過程を表示している。観測データを収集するファイル x5_sin.csvを読み込む生観測データを得る観測データを加工する観測データから学習する規格化関数を作成するして学習する。予測モデルと未知データを収集するファイル x5_sin_new.cs vを読み込む生未知データを得る未知データを加工する予測モデルで未知データに対して予測値を得る規格化関数を適用する reg変数一組の訓練 (データ作成) scaler変数データテストデータに分割する。 reg変数予測モデルの表示一組の訓練データテストデータに対して予測値を作成する。 StandardScale train_test_spli LinearRegress r t ion 図：例の過程の表示。 scaler変数

37.

LLMの説明を利用したコード生成以下のPythonコードを書いてください。 ChatGPT4 (ソースコード部分のみ） 1. **標準化:** `StandardScaler`を用いて、特徴データ`Xraw`を標準化します。これにより、データのスケールを平均0、標準偏差1に調整します。 2. **データ分割:** `train_test_split`で、標準化されたデータ`X`と目的変数 `y`を訓練用とテスト用に分割します。テストセットは全体の25%で、ランダムにシャッフルされます。 from sklearn import datasets from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression # データセットのロード Xraw, y = datasets.load_diabetes(return_X_y=True) 3. **線形回帰モデルの訓練:** `LinearRegression`を使って線形回帰モデルを作成し、訓練データにフィットさせます。 # 標準化 scaler = StandardScaler() X = scaler.fit_transform(Xraw) 4. **モデルの係数と切片の出力:** 訓練されたモデルの係数と切片を出力します。 # データ分割 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, shuffle=True, random_state=1) 5. **予測:** モデルを使って、訓練データとテストデータの両方に対する予測を行います。 # 条件データセットは Diabetes datasetを用いてください。回帰用データセットの追加依頼データセットを明示しないとboston housing データセットがよく使われるが，それはすでにobsoleteなので別のデータセットを指示する。 # 線形回帰モデルの訓練 reg = LinearRegression() reg.fit(X_train, y_train) # モデルの係数と切片の出力 print("coef", reg.coef_) print("intercept", reg.intercept_) # 予測 y_train_pred = reg.predict(X_train) y_test_pred = reg.predict(X_test) # 予測結果の先頭5つを表示（参考のため） y_train_pred[:5], y_test_pred[:5]

https://scikit-learn.org/stable/datasets/toy_dataset.html

38.

コード実行データ（ Xraw, Y）を入れ替えて実行。コード（010.051.LLM)

39.

ソースコードから説明の生成：例２以下のコードが行っていることを説明してください。 ``` fig, axes = plt.subplots(1, 2) axes[0].plot(Xraw[:,0],Xraw[:,1:], ".-") axes[1].plot(X[:,0],X[:,1:], ".-") plt.xlabel("x1") plt.ylabel("y") ``` ChatGPT4 このコードは、2つのサブプロットを持つ図を作成しています。`Xraw` は規格化されていない説明変数で、`X` は規格化された説明変数です。どちらも二次元の行列です。 - `axes[0].plot(Xraw[:,0], Xraw[:,1:], ".-")`: 最初のサブプロットでは、`Xraw` の最初の列（`Xraw[:,0]`）を x 軸の値として、それ以外の列（`Xraw[:,1:]`）を y 軸の値としてプロットしています。点と線で接続されています。 - `axes[1].plot(X[:,0], X[:,1:], ".-")`: 二番目のサブプロットでは、同様に標準化されたデータ `X` の最初の列を x 軸に、それ以外の列を y 軸にプロットしています。 `plt.xlabel("x1")` と `plt.ylabel("y")` で x 軸と y 軸にラベルを設定していますが、これらの関数は図全体に対してラベルを設定するため、図のどのサブプロットにも特定のラベルは適用されません。正確に各サブプロットにラベルを適用するには、`axes[i].set_xlabel()` と `axes[i].set_ylabel()` を使う必要があります。要するに、コードは2つの特徴量を使った散布図をそれぞれのサブプロットにプロットし、1つは規格化前、もう1つは規格化後のデータを比較しています。図：010.050の左のコードにより生成された図。

40.

LLMの説明を利用したコード生成 ChatGPT4 (ソース部分のみ）以下のPythonコードを生成してください。 2つのサブプロットを持つ図を作成します。`Xraw` は規格化されていない説明変数で、`X` は規格化された説明変数です。どちらも二次元の行列です。最初のサブプロットでは、`Xraw` の最初の列（`Xraw[:,0]`）を x 軸の値として、それ以外の列（`Xraw[:,1:]`）を y 軸の値としてプロットしています。点と線で接続されています。二番目のサブプロットでは、同様に標準化されたデータ `X` の最初の列を x 軸に、それ以外の列を y 軸にプロットしています。 x 軸と y 軸にラベルを設定してください。 # 必要なライブラリをインポートします。 import matplotlib.pyplot as plt from sklearn import datasets from sklearn.preprocessing import StandardScaler # データセットをロードします。 Xraw, y = datasets.load_diabetes(return_X_y=True) データ収集・データ加工部分 # 標準化を実施します。 scaler = StandardScaler() X = scaler.fit_transform(Xraw) # 図を作成し、2つのサブプロットを用意します。 fig, axes = plt.subplots(1, 2, figsize=(12, 6)) # 最初のサブプロットにXrawの最初の特徴量をx軸に、残りの特徴量をy軸にプロットします。 axes[0].plot(Xraw[:, 0], Xraw[:, 1:], ".-") axes[0].set_xlabel("Xraw Feature 1") axes[0].set_ylabel("Other Features") # 2番目のサブプロットに標準化後のXの最初の特徴量をx軸に、残りの特徴量をy軸にプロットします。 axes[1].plot(X[:, 0], X[:, 1:], ".-") axes[1].set_xlabel("Standardized Feature 1") axes[1].set_ylabel("Other Features") 可視化部分。 # 図を表示します。 plt.tight_layout() plt.show()

41.

コード実行 010.051に可視化部分コードのみを加えて実行する。右側の図：010.050とほぼ同じ図が作成される。更に適切なxlabel, ylabelが記載された。図： 010.051 でのXraw,Xの可視化

42.

LLMによるコード生成まとめ • LLMは動作するはずのコードを作るので不明な部分を’平均的な過程’で補完する。大雑把な指示は適当な過程を生成をするので，意図と粉なっていたら，細かい過程の記載を追加する。（当たり前ですが）何をしたいのかを人が明確に理解している必要がある。複雑になるほど明確かつ詳細に指示を書いてLLMを導く必要がある。人が LLMが人が詳細なプロンプト多くの部分を妥当に生成生成後に少ない修正簡単なプロンプト少しの部分を妥当に生成生成後に多くの修正図：人とLLMの作業量を表した。人に十分が知識があればLLMを利用したエディターを有効に利用できる。

43.

例２レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • トイモデル Z-score Normalization Lasso 交差検定で訓練・テストデータに分割

44.

010.055 予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge 目的：これらの関数の利用法を知ること。 KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV RidgeCV 交差検定で一般的な回帰モデルを作る GridSearchCV

45.

交差検定: KFold KFold 交差検定回数 n_splits={回数} 分割指定方法ランダム非ランダム目的：X,yの並び方を乱数で変える。 shuffle=True random_state={整数} Default shuffle=False kf = KFold(n_splits=5, shuffle=True, random_state=1) 目的：ランダム時に毎回、同じ結果を得る

46.

交差検定 4番目のセル

47.

交差検定部分 score_function=r2_score [4] N_SPLITS回，ランダムに並び替える，乱数状態＝１ N_SPLITS変数で指定した回数だけ for loopが行われる。 train, test は各回の訓練・テストデータのインデックスが入る。交差検定の各回の訓練データとテストデータのスコアをリストに加える。あるalphaに対する訓練データとテストデータtrain_score, test_scoreの平均値と標準偏差をリストに加える。

48.

罰則項有り線形回帰モデル Lasso L1罰則項 L2罰則項 Lasso Ridge インスタンスを作成するモデル当てはめるを行う予測値を作成するハイパーパラメタ .fit() .predict() alpha={実数} Ridge回帰も同じ。

49.

交差検定部分インスタンス作成時に alphaを指定する。 [4] モデルあてはめ予測値作成

50.

Lassoのハイパーパラメタループ部分 alpha_list = np.logspace(-5, 2, 20) # 用いる alpha の値のリスト test_score_list = [] # alphaのループを行う。 for alpha in alpha_list: ハイパーパラメタの可能性を全て探索する＝網羅(brute force)探索 # 各アルファで交差検定を行う。 kf = KFold(n_splits=N_SPLITS, shuffle=SHUFFLE, random_state=1) for train, test in kf.split(X): Xtrain, ytrain = X[train], y[train] … test_score_list.append([np.mean(cv_test_score_list), np.std(cv_test_score_list), alpha]) 交差検定部分

51.

結果解釈：可視化（略）回帰評価値は𝑅 2 (𝑡𝑒𝑠𝑡)~0.999 for log10 (𝛼) < −2 図：[7]で作成された図を示す。

52.

交差検定５分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練データ #1 𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝑓2345 (𝑥) Ԧ #1 score1 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ 𝑓1345 (𝑥) Ԧ #2 score2 𝑓1235 (𝑥) Ԧ #3 score3 #4 #5 score4 ave(score), stddev(score) score5

53.

予測モデル選択過学習にならないようにalphaが大きい側が良いが、ここでは最大値を与えるindexを機械的に求める。 alphaの最適値が求まった。回帰係数切片 scikit-learnの*CV関数の処方箋に倣い，最適alpha 値を用いて、全観測データを用いてモデルを作り直す。

54.

交差検定と新規データへの目的変数予測値図：Cell[9]の観測データ交差検定での目的変数観測値 vs 予測値図：Cell[11]の新規データに対する目的変数観測値 vs 予測値図：Cell[12]の観測データ・新規データx1 vs y 新規データの外挿領域でも妥当な予測ができています。（Lassoで常にこうなるモデル学習ができるわけではありません。）

55.

回帰係数の変化目的：alphaを変えて回帰係数の変化を見る。

56.

の係数回帰係数の変化 𝑥𝑖 零 l𝑜𝑔10 (𝛼) 図：Cell[15]出力のデータフレーム部分図：Cell[15]出力の図部分 Lassoは積極的に不要な係数を（厳密に）０とする。

57.

𝑃 Lassoによる変数選択 𝑓 𝑥Ԧ = ෍ 𝑤𝑝 𝑥𝑝 + 𝑤0 𝑝 𝑥Ԧ = 𝑥1 , 𝑥2 , … , 𝑥𝑃 𝑤 = 𝑤, 𝑤2 , … , 𝑤𝑃 よくある説明 𝐿𝑎𝑠𝑠𝑜：𝐿𝑟𝑒𝑔 = 2𝑁 1 𝑁 σ 𝑡𝑟𝑎𝑖𝑛 𝑖 𝑡𝑟𝑎𝑖𝑛 2 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 +𝛼 𝑤 1 1 を最小化第一項の寄与 𝑤2 第一項の最適値 𝑤1 ≠ 0, 𝑤2 ≠ 0, 第二項の最適値 𝑤1 第二項の寄与 𝐿𝑟𝑒𝑔 の最適パラメタ(この場合は𝑤1 ≠ 0, 𝑤2 =0) 図：回帰係数w1とw2の空間でのLregの第一項と第二項の寄与。

58.

罰則項有り線形回帰モデル Lasso 目的：回帰とモデル選択を同時に行う L1罰則項 L2罰則項 Lasso Ridge インスタンスを作成するモデル作成予測値作成ハイパーパラメタ .fit() .predict() alpha={実数} Ridge回帰も同じ。

59.

LassoCV 010.055は途中で以下のコードを挟んでいます。 alpha_list = np.logspace(-5, -1, 20) # もっと上の行に記述した。 LassoCV ハイパーパラメタの値リストの指定 alphas={値リスト} 交差検定の指定 cv=KFold 内部でハイパーパラメタの最適化を行う。全観測データに対してkfで指定した交差検定を行い最適なハイパーパラメタを求め、最後に最適化されたハイパーパラメタを用い、全観測データを用いて回帰モデルを一つ生成します。 LassoCVも.fit()の後は.predict()が使えます。全観測データに対する予測値の生成は以下で得られます。 yp = reg.predict(X) 動作を理解できるまで使わないことを薦める。

60.

LLMの利用 LLMにより問題を解決する。 LLMにより知識を獲得する。 LLMによるコードを書く。

61.

ソースコードから説明の生成 ChatGPT Classic User: 以下のコードを200文字以内で説明してください。 ``` from sklearn.linear_model import Lasso from sklearn.metrics import r2_score from sklearn.model_selection import KFold # 計算パラメタ設定 N_SPLITS = 5 SHUFFLE = True score_function = r2_score # 性能評価値を保存する変数の定義 train_score_list = [] test_score_list = [] alpha_list = np.logspace(-5, 2, 20) # hyperparameter loop for alpha in alpha_list: reg = Lasso(alpha=alpha) # CV setting kf = KFold(n_splits=N_SPLITS, shuffle=SHUFFLE, random_state=1) # CV loop cv_train_score_list = [] cv_test_score_list = [] for train, test in kf.split(X): Xtrain, ytrain = X[train], y[train] Xtest, ytest = X[test], y[test] reg.fit(Xtrain, ytrain) ytrainp = reg.predict(Xtrain) ytestp = reg.predict(Xtest) # 評価指標の計算と保存 trainscore = score_function(ytrain, ytrainp) cv_train_score_list.append(trainscore) testscore = score_function(ytest, ytestp) cv_test_score_list.append(testscore) train_score_list.append([np.mean(cv_train_score_list), np.std(cv_train_score_list), alpha]) test_score_list.append([np.mean(cv_test_score_list), np.std(cv_test_score_list), alpha]) ``` このコードは、機械学習のラッソ回帰モデルの性能を評価するためのものです。それぞれの過程を200文字以内で説明します： 1. **ライブラリのインポートと設定**: sklearnのラッソ回帰、評価指標（R^2スコア）、そして交差検証（KFold）のための関数をインポートします。次に、交差検証のスプリット数、シャッフルの有無、スコア関数を設定します。 2. **性能評価値の保存変数の定義**: モデルの訓練スコアとテストスコアを保存するためのリストと、ハイパーパラメータ（alpha）の値の範囲を設定します。 3. **ハイパーパラメータのループ**: alphaの値ごとに、以下の手順を行います。 4. **交差検証の設定**: KFoldを使ってデータを訓練セットとテストセットに分割します。 5. **交差検証ループ**: 各スプリットに対して、以下を実行します。 - ラッソ回帰モデルのインスタンス化と訓練。 - 訓練データとテストデータでモデルを評価（R^2スコアの計算）。 - 各スプリットの訓練スコアとテストスコアをリストに追加。 6. **スコアの集計**: 各alpha値について、交差検証で得られたスコアの平均と標準偏差を計算し、それらをリストに保存します。

62.

LLMの説明を利用したコード生成 ChatGPT4 以下の過程をPythonコードで書いてください。 1. **ライブラリのインポートと設定**: sklearnのラッソ回帰、評価指標（R^2スコア）、そして交差検証（KFold）のための関数をインポートします。次に、交差検証のスプリット数、シャッフルの有無、スコア関数を設定します。 2. **性能評価値の保存変数の定義**: モデルの訓練スコアとテストスコアを保存するためのリストと、ハイパーパラメータ（alpha）の値の範囲を設定します。 3. **ハイパーパラメータのループ**: alphaの値ごとに、以下の手順を行います。 4. **交差検証の設定**: KFoldを使ってデータを訓練セットとテストセットに分割します。 5. **交差検証ループ**: 各スプリットに対して、以下を実行します。 - ラッソ回帰モデルのインスタンス化と訓練。 - 訓練データとテストデータでモデルを評価（R^2スコアの計算）。 - 各スプリットの訓練スコアとテストスコアをリストに追加。 6. **スコアの集計**: 各alpha値について、交差検証で得られたスコアの平均と標準偏差を計算し、それらをリストに保存します。 # 条件 alphaはalpha_list = np.logspace(-5, 2, 20)のリストから値を取得します。５回交差検定を行います。データセットは Diabetes datasetを用いてください。 import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import Lasso from sklearn.metrics import r2_score from sklearn.model_selection import KFold from sklearn.datasets import load_diabetes # データの読み込み X, y = load_diabetes(return_X_y=True) # ハイパーパラメータの設定 alpha_list = np.logspace(-5, 2, 20) # 交差検証の設定 kf = KFold(n_splits=5, shuffle=True, random_state=42) # 結果を保存するためのリスト train_scores = [] test_scores = [] mean_train_scores = [] mean_test_scores = [] std_train_scores = [] std_test_scores = [] # ハイパーパラメータのループ for alpha in alpha_list: temp_train_scores = [] temp_test_scores = [] # 交差検証ループ for train_index, test_index in kf.split(X): X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] # モデルのインスタンス化と訓練 model = Lasso(alpha=alpha) model.fit(X_train, y_train) # スコアの計算 y_train_pred = model.predict(X_train) y_test_pred = model.predict(X_test) temp_train_scores.append(r2_score(y_train, y_train_pred)) temp_test_scores.append(r2_score(y_test, y_test_pred)) # スコアの集計 train_scores.append(temp_train_scores) test_scores.append(temp_test_scores) mean_train_scores.append(np.mean(temp_train_scores)) mean_test_scores.append(np.mean(temp_test_scores)) std_train_scores.append(np.std(temp_train_scores)) std_test_scores.append(np.std(temp_test_scores)) # 結果の可視化 plt.figure(figsize=(10, 6)) plt.errorbar(alpha_list, mean_train_scores, yerr=std_train_scores, label='Train Score', fmt='-o') plt.errorbar(alpha_list, mean_test_scores, yerr=std_test_scores, label='Test Score', fmt='-o') plt.xscale('log') plt.xlabel('Alpha') plt.ylabel('R^2 Score') plt.title('R^2 Scores for different Alpha values in Lasso Regression') plt.legend() plt.show() →コード010.056

63.

コード実行コード010.056 DATA_NAME = "x5_sin" としてX,yを010.055から取得して実行。図: 010.056のCell[2]の出力図

64.

LLMの説明を利用したコード生成右の図（ 010.055のCell[15]の図）を書かせたい。慣れてきたら，LLMのソースコードの説明を用いずに，ソースコードの内容を自分で簡単に説明してみます。図：010.055のCell[15]の図

65.

LLMの説明を利用したコード生成 ChatGPT4: 慣れてきたらプロンプトを簡単に書く。 from sklearn.linear_model import Lasso import matplotlib.pyplot as plt import numpy as np # 仮のデータを生成（実際にはユーザーが提供するデータを使用する） … 以下のPythonコードを書いてください。 scikit-learnを用いてください。 # 入力説明変数`X` 目的変数`y` alphaのリスト `alpha_list` # 過程 Lasso回帰の正則化パラメータ`alpha`を変化させながら、全データを用いて回帰モデルを学習し、各alpha値に対する回帰係数を可視化する。 # alphaのリスト（ユーザーが提供する値を使用する） alpha_list = [0.1, 0.5, 1, 5, 10] # 各alphaに対する回帰係数を格納するリスト coefs = [] for alpha in alpha_list: lasso = Lasso(alpha=alpha) lasso.fit(X, y) coefs.append(lasso.coef_) # 可視化 plt.figure(figsize=(10, 6)) ax = plt.gca() ax.plot(alpha_list, coefs) ax.set_xscale('log') plt.xlabel('alpha') plt.ylabel('coefficients') plt.title('Lasso coefficients as a function of the regularization') plt.axis('tight') plt.legend(['Feature 1', 'Feature 2', 'Feature 3']) plt.show()

66.

コード実行 LLMコードにalpha_listが設定されていた。 alpha_listを除いて実行。図：010.056のCell[3]の図

67.

例３レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • ReCo合金の磁気相転移温度 Z-score Normalization カーネル回帰モデル交差検定

68.

010.060 予測モデルを学習するプログラム組み合わせ方式ハイパーパラメタを幾つか選ぶ観測データ分割を行う既存関数方式モデル当てはめを行う一組の訓練・テストデータ交差検定 train_test_split KFold 線形回帰モデル LinearRegression Lasso モデル評価を行うカーネル法 Ridge KernelRidge モデルを選択する交差検定で線形回帰モデルを作る LassoCV 交差検定で一般的な回帰モデルを作る RidgeCV GridSearchCV 回帰モデルの指定その他の指定 KernelRidge 目的：この関数の利用法を知ること。

69.

観測データの取得 ReCo磁気相転移温度データ get_data.load関数でデータフレーム，説明変数カラム，目的変数カラムを取得する。生説明変数目的変数

70.

カーネルリッジ回帰関数𝐿𝑟𝑒𝑔 = σ𝑖 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2 +𝛼 𝑤 2 2 を最小化カーネル法回帰カーネルリッガウス過程回ジ法回帰帰 𝑁 カーネルの形 𝑓 𝑥Ԧ = ෍ 𝑤𝑖 𝐾(𝑥, Ԧ 𝑥Ԧ𝑖 ) L2罰則項 𝑖 RBFカーネル: 𝐾(𝑥, 𝑦) = exp(−𝛾 𝑥 − 𝑦 Sklearn.metric s.pairwise 2 2 ) カーネルの形 sklearn.gaus sian_process .kernels.RBF RBFカーネル alpha={実数} kernel=“rbf” sklearn.metrics.pairwiseで定義される。（ガウス過程回帰のRBFカーネルとは異なる。 sklearn.gaussian_process.kernels.RBF） gamma={実数} 図：カーネル法回帰手法の階層構造図 RBFカーネルを用いるカーネルリッジ回帰ではハイパーパラメタが２つある。 estimator = KernelRidge(alpha=1 , gamma=1, kernel="rbf")

71.

一般的なハイパーパラメタの最適化 GridSearchCV モデルモデル内ハイパーパラメタ性能評価指標交差検定内部過程表示 estimator={回帰クラス|分類クラス} param_grid={辞書} scoring={文字列} cv=KFold verbose={int} Default：回帰モデルクラスの score()関数 Default： cv=5, shuffleをしない。図：GridSearchCVのパラメタ

72.

カーネルリッジ回帰＋交差検定名前確認のためにRBFカーネルのalpha=, gamma=を書いた。ハイパーパラメタの名前を合わせる。 Param_gridのの範囲でscoringで最適なモデルを求める。交差検定で最適なハイパーパラメタを得て、最後に観測データ全てを用いて最適なハイパーパラメタで一つ回帰モデルを学習する。 Scikit-learnの*CVモジュールは同様の機能を持つ。

73.

カーネルリッジ回帰＋交差検定ハイパーパラメタの網羅探索点 np.logspace(-5, 0, 11) gamma alpha np.logspace(-6, 0, 11)

74.

GridSearchCVの表示 verbose>=2で交差検定過程と用いたハイパーパラメタが表示される。 (alpha,gamma)= (1-6, 1e-5) (alpha,gamma)= (1-6, 3.16e-5)

75.

GridSearchCVの出力 reg_cv. cv_results_ が結果出力辞書を返します。 print(reg_cv.cv_results_.keys()) １０回交差検定の場合の出力キー例 dict_keys(['mean_fit_time', 'std_fit_time', 'mean_score_time', 'std_score_time', 'param_alpha', 'param_gamma', 'params', 'split0_test_score', 'split1_test_score', 'split2_test_score', 'split3_test_score', 'split4_test_score', 'split5_test_score', 'split6_test_score', 'split7_test_score', 'split8_test_score', 'split9_test_score', 'mean_test_score', 'std_test_score', 'rank_test_score’]) Enjoy print(reg_cv.cv_results_)

76.

[beta]

LLMの利用したコード生成
以下のPythonコードを作成してください。
# 入力変数
X: 規格化された説明変数
y: 目的変数
# 過程
1. カーネルリッジモデルの予測モデルを作成し
てください。
2. 横軸：目的変数に対して，縦軸：目的変数予
測値を図示する。
# 条件
RBFカーネルを用いる。
RBFカーネルのハイパーパラメタを最適化する。
10回交差検定を行う。ランダムにシャフルする。
回帰データセットはscikit-learn，
load_diabetes
を用いる。
R2スコアを用いる。

Microsoft Copilot

from sklearn.datasets import load_diabetes
from sklearn.model_selection import GridSearchCV, KFold
from sklearn.kernel_ridge import KernelRidge
import matplotlib.pyplot as plt
import numpy as np
# データのロード
diabetes = load_diabetes()

# データとターゲットの分割
X, y = diabetes.data, diabetes.target
# モデルの設定
model = KernelRidge(kernel='rbf')

# ハイパーパラメータの最適化
param_grid = {"alpha": [1e0, 1e-1, 1e-2, 1e-3],
"gamma": np.logspace(-2, 2, 5)}
grid = GridSearchCV(model, param_grid=param_grid)
grid.fit(X, y)
print(f'Best parameters: {grid.best_params_}')

param_gridを補完。

# 最適なハイパーパラメータでモデルを設定
model = KernelRidge(kernel='rbf', **grid.best_params_)
# 交差検証
cv = KFold(n_splits=10, shuffle=True, random_state=0)
scores = cross_val_score(model, X, y, cv=cv, scoring='r2')
print(f'Average R2 score: {np.mean(scores)}')
# モデルのフィッティング
model.fit(X, y)

# 予測
predictions = model.predict(X)
…

記述が曖昧だった
のでパラメタ最適
化部分でランダム
シャフルでなく，
最適化後のシャフ
ルになっている。

77.

[beta]

LLMの説明を利用したコード生成

from sklearn.model_selection import GridSearchCV, KFold, cross_val_score
from sklearn.kernel_ridge import KernelRidge
import matplotlib.pyplot as plt
import numpy as np

追加部分

エラーが出た場合，そのメッセージをそのまま
プロンプトに書くと修正する。

# モデルの設定
model = KernelRidge(kernel='rbf')
# ハイパーパラメータの最適化
param_grid = {"alpha": [1e0, 1e-1, 1e-2, 1e-3],
"gamma": np.logspace(-2, 2, 5)}
grid = GridSearchCV(model, param_grid=param_grid)
grid.fit(X, y)
print(f'Best parameters: {grid.best_params_}')
# 最適なハイパーパラメータでモデルを設定
model = KernelRidge(kernel='rbf', **grid.best_params_)
…

78.

コード実行入力を010.060の入力に変えて実行コード：010.061 図：010.061のCell[2]の図。

79.

[beta]

LLMの説明を利用したコード生成
以下のPythonコードを作成してください。
# 入力変数
X: 規格化された説明変数
y: 目的変数
# 過程
#1
最適なハイパーパラメタを持つRBFカーネルの
KernelRidgeモデルを学習する。
{# 1}の条件として
GridSearchCVを用いる。１０回交差検定を用い
て， R2スコアで最適な回帰モデルを作成する。
交差検定時に`X`,`yをランダムにシャフルする。
#2
横軸：目的変数に対して，縦軸：目的変数予測値
を図示する。

Microsoft Copilot
from sklearn.model_selection import GridSearchCV, KFold
from sklearn.kernel_ridge import KernelRidge
import matplotlib.pyplot as plt
import numpy as np
# ハイパーパラメータの範囲を設定
param_grid = {"alpha": [1e0, 1e-1, 1e-2, 1e-3],
"gamma": np.logspace(-2, 2, 5)}
# GridSearchCVを用いて最適なハイパーパラメータを探索
kr = GridSearchCV(KernelRidge(kernel='rbf'), cv=KFold(n_splits=10, shuffle=True),
param_grid=param_grid, scoring='r2')
kr.fit(X, y)
交差検定時に`X`,`yをラ
# 最適なモデルで予測
y_pred = kr.predict(X)

ンダムにシャフルする。

# 結果のプロット
plt.scatter(y, y_pred)
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.title('Kernel Ridge Regression with RBF kernel')
plt.show()

実行結果は010.061に示す。

80.

LLMによる知識獲得 Microsoft Copilot Scikit-learnのドキュメントでKernelRidgeを読むと他のカーネルが利用可能とある。 Scikit-learnのKernelRidgeで利用可能なカーネルを教えてください。 Scikit-learnのKernelRidgeでは、以下のカーネルが利用可能です¹³: 1. **線形カーネル (linear)** 2. **RBFカーネル** 3. **ラプラシアンカーネル (laplacian)** 4. **多項式カーネル (polynomial)** 5. **指数カーネル (exponential)** 6. **χ2カーネル (chi2)** 7. **シグモイドカーネル (sigmoid)** これらのカーネルは、KernelRidgeの`kernel`パラメータで指定できます¹. カーネルは、データ間の類似性を計算するための関数で、それぞれ異なる特性と用途があります¹. これらのカーネルを適切に選択することで、KernelRidge回帰の性能を最適化することができます¹.

81.

[beta]

LLMの説明を利用した修正コード生成
ソースの一部を変更させる。

Microsoft Copilot（該当部分のみ）

作成されたソースコードを多項式カーネル
を使うように書き換えてください。
param_grid も多項式カーネル 用に書き直
してください。

# モデルの設定
model = KernelRidge(kernel='polynomial')
# ハイパーパラメータの最適化
param_grid = {"alpha": [1e0, 1e-1, 1e-2, 1e-3],
"gamma": np.logspace(-2, 2, 5),
"degree": [2, 3, 4, 5]}
grid = GridSearchCV(model, param_grid=param_grid)
grid.fit(X, y)
print(f'Best parameters: {grid.best_params_}')
# 最適なハイパーパラメータでモデルを設定
model = KernelRidge(kernel='polynomial', **grid.best_params_)
…

82.

[beta]

KernelRidge回帰
カーネル法回

帰

生成された右コードのparam_grid は妥当なこ
とを確認しておく。
Scikit-learnのドキュメントを確認すると
sklearn.metrics.pairwise.polynomial_kernelで
は
K(X, Y) = (gamma <X, Y> + coef0) ^ degree

なので妥当な書き換えである。

カーネルリッ

ガウス過程回

ジ法回帰

帰

カーネルの

カーネルの形
L2罰則項

形
sklearn.gau
ssian_proce
ss.kernels.
RBF

Sklearn.metr
ics.pairwise

alpha={実数},

RBFカーネル

default=1

kernel=“rbf”

gamma={実
数}

Polynomialカーネル
Kernel=“polynomial”

degree={実数},
default=3

図：Kernel回帰の階層構造図

gamma={実
数}

coef0={実数},
default=1

83.

コード実行 X,yを補完した実行結果を右図に表示。警告メッセージは多数でるが図は出力される。 010.061のソースは保存されています。図：010.061 Cell[4]の出力図

84.

例4 レポジトリ内のファイル 010.regression/ 010.050.text.linear_regression.ipynb 010.055.text.linear_regression-CV.ipynb 010.060.text.RETM-KR.ipynb 010.110.answer.linear_regression.ipynb … • • • • トイモデル Z-score Normalization 交差検定 Ln罰則項線形回帰モデルの比較目的：共線性がある場合の回帰係数を比較する。

85.

共線性について 𝑥 𝑥3 𝑥5 sin 𝑥 = − + +⋯ 1 3! 5! であり、yには観測誤差を入れており、観測データ“x5_sin.csv”は線形回帰では係数に任意性がある多重共線性を持つデータです。罰則項がある・もしくは無い線形回帰でモデル学習すると回帰係数はどうなるでしょうか？ DATA_NAME = "x5_sin" NORMALIZATIONTYPE = "standard" REGTYPE = “linear” # “linear”, “lasso”, “ridge“ に変更可能 RANDOM_STATE = 1 # random state of train_test_split REGTYPEを“linear”, “lasso”, “ridge“ に変更することで、罰則項が無い線形回帰、 L1罰則項を持つLasso、L2罰則項があるRidge回帰の回帰係数を比較します。

86.

罰則項による線形回帰の回帰係数の比較 010.110の最後の図横軸：交差検定の各モデルインデックス縦軸：訓練データで学習した回帰モデルの係数の値。罰則項が無い線形回帰モデルでは全て非ゼロの回帰係数 (x, x 2 , x 3 , x 4 , 𝑥 5 , sin 𝑥 ) を持つ。回帰係数の値も大きい。符号も変わる。 LassoとRidge回帰では罰則項のおかげで回帰係数はほぼ固定される。局所最小解が大域最小解と一致する。ｰ>後ほど大域最小解であることを用いた解析例が出てくる。

87.

別データ 010.055, 010.060, 010.110, 010.120は回帰用のデータ ‘x5_sin', 'x5_sin_new', 'ReCo', 'Carbon8', 'ZB_WZ_all', 'ZB_WZ_3', 'ZB_WZ_2’ を用いることが可能です。 … = get_data.load(DATA_NAME) で別DATA_NAMEを指定してください。

88.

LLMの利用現在のLLMとの付き合い方現在のLLMとの付き合い方人が誤解する「初心者あるある」回答 Q. 何を質問すれば良いのか分からない。具体的な質問ができない。 A. （どこまで分かっているのかを説明してから） LLMに尋ねる。ハルシネーション暗黙知一方的に尋ねて回答を受け入れれば良いかというとしかし，LLMにはハルシネーション（存在しない事実や正確でない情報を生成する。）が起きる。省略により誤誤った回答 • 解させる回答 • LLMが正しい知識（回答）を全て教えてくれるのではないので鵜呑みにしてはいけない。LLMは知識獲得の支援を行う・問題を解決する一つの手段と思ったほうが良い。自分でまとめ直す必要もある。（LLMはその支援も行える。）現状ではユーザーが最低限の知識を持ち，ユーザーがLLMの回答を取捨選択する。質問者側に「明確な問題」と「問題解決のためのおおまかな戦略」が無いとLLMはうまく使えない。

89.

LLMによるコード生成今やPythonを知らなくても，過程を十分に説明できれば Pythonコードを作成できます。しかし，何をしたいのかを理解しているのは「あなた」だけですので，過程を説明できるように学習してください。

90.

以上です。

マテリアルズ・インフォマティクス連続セミナー，回帰、交差検定、LLMによるソースコード作成

木野日織

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

各ページのテキスト