（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回 2023/07/26版木野日織（きのひおり）

今回行うこと Orange Data Miningのワークフロー例 1. 観測データから線形回帰予測関数を作成して， 2. 新規データの予測値を求める。希土類Co磁石材料への適用をOrange Data Miningを用いて行う。

目次線形回帰手法紹介タスク１：初めてのワークフロータスク２：トイモデルを用いた線形回帰モデル当てはめを行うワークフロータスク３：トイモデルを用いた線形回帰予測モデルを作成するワークフロータスク４：材料特徴量データを用いた予測モデルを作成するワークフロー

4.

機械学習と回帰手法とは機械学習：コンピュータがデータから自動的にルールやパターンを学ぶ手法のこと。コンピュータに経験から学ぶ能力を持たせることで、データを解析し、予測や決定を行う。回帰の目的： 1.予測：未知のデータに対して目的変数の値を予測する。 2.関係性の理解：各説明変数の重要性や、説明変数の値が目的変数に与える影響の度合いを理解する。回帰：連続変数データ間の関係を数学的な関数（方程式）を使って表現する方法の一つ。 ChatGPTの答えに加筆

5.

連続変数の予測手法目的：変数𝑥𝑥から変数𝑦𝑦を予測する，つまり， ⃗ 𝑦𝑦＝𝑓𝑓(𝑥𝑥)，もしくは ⃗ 𝑦𝑦～𝑓𝑓(𝑥𝑥) ⃗ となる関数𝑓𝑓 を求める。解法 1. 演繹法：原理から𝑦𝑦を評価する関数を得る。方程式がある世界の予測。例）運動方程式，シュレディンガー方程式 2. 帰納法：観測データ(𝑥𝑥, ⃗ 𝑦𝑦)から新規𝑥𝑥⃗ に対して𝑦𝑦を評価する関数を得る。いつ使う？ 1. 方程式が存在しない場合。 2. 方程式を解くのに時間がかかるので短時間に解きたい場合。回帰は𝑦𝑦, 𝑥𝑥は連続変数，に対して適用される。 ⃗ ここで， • 𝑦𝑦:目的変数 • 𝑥𝑥：説明変数，デスクリプタ(descriptors) ⃗ と呼ばれる。

6.

観測データと新規データ新規データ： 𝑥𝑥に欠けが無い行列 ⃗ 観測データ：欠けが無い行列 ID ID1 サイズN ID2 … IDN 𝒙𝒙𝟏𝟏 𝑥𝑥11 𝑥𝑥21 𝑥𝑥𝑁𝑁1 𝒙𝒙𝟐𝟐 𝑥𝑥12 𝑥𝑥22 𝑥𝑥𝑁𝑁𝑁 𝑥𝑥⃗i サイズP … 𝒙𝒙P 𝑥𝑥1P 𝑥𝑥2P 𝑥𝑥𝑁𝑁P 𝑦𝑦～𝑓𝑓 𝑥𝑥⃗ となる関数𝑓𝑓 𝒚𝒚 𝑦𝑦1 𝑦𝑦2 𝑦𝑦𝑁𝑁 ID ID1 ID2 … ID𝑁𝑁 𝑛𝑛𝑛𝑛𝑛𝑛 𝒙𝒙𝟏𝟏 𝑥𝑥11 𝑥𝑥21 𝒙𝒙𝟐𝟐 𝑥𝑥⃗ 𝑛𝑛𝑛𝑛𝑛𝑛 i … 𝑥𝑥12 𝑥𝑥22 𝑥𝑥𝑁𝑁new 1 𝑥𝑥𝑁𝑁new 2 𝒙𝒙P 𝑥𝑥1P 𝑥𝑥2P 𝒚𝒚 𝑦𝑦1𝑛𝑛𝑛𝑛𝑛𝑛 𝑦𝑦2new 𝑥𝑥𝑁𝑁new P 𝑦𝑦𝑁𝑁new 𝑛𝑛𝑛𝑛𝑛𝑛 𝑦𝑦𝑖𝑖𝑛𝑛𝑛𝑛𝑛𝑛 ～𝑓𝑓 𝑥𝑥⃗𝑖𝑖𝑛𝑛𝑛𝑛𝑛𝑛

7.

線形回帰解法：線形回帰：データ間の関係を直線（または高次元空間では平面や超平面）で表現する手法。 𝑃𝑃 𝑦𝑦 = � 𝑤𝑤𝑝𝑝 𝑥𝑥𝑝𝑝 + 𝑤𝑤0 𝑝𝑝=1 観測データ(𝑥𝑥⃗𝑖𝑖 , 𝑦𝑦𝑖𝑖 ),(𝑖𝑖 = 1,2, . . 𝑁𝑁)から 𝑤𝑤0 , 𝑤𝑤1 , 𝑤𝑤2 , … 𝑤𝑤𝑃𝑃 が得られる。 𝑤𝑤𝑝𝑝 ：（線形回帰モデルの）係数(coefficients) 𝑤𝑤0 ：（線形回帰モデルの）切片(intercept) 利点：回帰モデルの意味が分かりやすい。 𝑥𝑥𝑖𝑖0 = 1とすると，関数系は 𝑃𝑃 𝑦𝑦 = � 𝑤𝑤𝑝𝑝 𝑥𝑥𝑝𝑝 𝑝𝑝=0 と書ける。具体的にデータをあらわに書くと 1 𝑦𝑦1 𝑦𝑦2 = 1 ⋮ 1 𝑥𝑥11 𝑥𝑥21 𝑥𝑥31 … … … 𝑤𝑤0 𝑤𝑤1 ⋮ 𝑦𝑦⃗ = 𝑋𝑋𝑤𝑤 つまり，N=P+1として変数の数を合わせると 𝑤𝑤 = 𝑋𝑋 −1 𝑦𝑦⃗ して解けるはず。

8.

線形回帰モデル解法問題点：処方箋：線形回帰モデルでどう書けるのか解析者は知らない，更に観測値には誤差がある。与えた説明変数の線形モデルのみではyが観測値とモデルの予測値の二乗誤差（残差）を最小化する。つまり，コスト関数 1 𝑦𝑦1 𝑦𝑦2 = 1 ⋮ 1 𝑥𝑥11 𝑥𝑥21 𝑥𝑥31 … … … 𝑤𝑤0 𝜖𝜖1 𝑤𝑤1 + 𝜖𝜖2 ， ⋮ ⋮ 𝜖𝜖𝑖𝑖 は未知数を含めた式になるはず。 𝑁𝑁 𝑁𝑁 𝑖𝑖 𝑖𝑖 𝐿𝐿 = � 𝜖𝜖𝑖𝑖2 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 2 を最小にすることで𝑤𝑤𝑝𝑝 を計算する。 𝐿𝐿の値が小さいほど、モデル当てはめが良い＝モデルがデータを良く説明（フィット）している，とする。逆行列で無理やり解くわけにはいかない。この際に，最適な説明変数はあらかじめ不明なのでできるだけ多くの説明変数を用いることがよく行われる。

9.

共線性への対応この際に，最適な説明変数はあらかじめ不明なのでできるだけ多くの説明変数を用いることがよく行われる。事実：共線性の影響を受けた線形モデルは|𝑤𝑤𝑝𝑝 |が大きいことが多い。つまり，1程度の大きさのyを101－ 100と計算している。処方箋：問題点：説明変数サイズPが多いと数値的不安定性や，（多重）共線性の影響を受けやすくなる。罰則項を取り入れる。コスト関数に𝑤𝑤𝑝𝑝 の大きさの制限を加えて最小化する。 𝐿𝐿 = 定義（再）： N:データインスタンス数 P:説明変数の種類数 𝑁𝑁 1 � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 2𝑁𝑁 𝑖𝑖 2 + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 𝑝𝑝 𝑛𝑛 意味：なるべく𝑤𝑤𝑝𝑝 の大きさを揃える。 n=1: Lasso n=2: Ridge回帰 α(ハイパーパラメタ）：の決め方は後で示す。

10.

LassoとRidge回帰処方箋： Ridge回帰 w2 罰則項を取り入れる。コスト関数に𝑤𝑤𝑝𝑝 の大きさの制限を加えて最小化する。 𝑁𝑁 1 � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝐿𝐿 = 2𝑁𝑁 𝑖𝑖 2 + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 𝑝𝑝 𝑛𝑛 意味：なるべく𝑤𝑤𝑝𝑝 の大きさを揃える。 n=1: Lasso n=2: Ridge回帰第二項の Contour 第一項の Contour 第一項のみの最適値 w1 第二項のみの最適値 Lasso 𝑤𝑤1 ≠ 0, 𝑤𝑤2 ≠ 0 w2 α(ハイパーパラメタ）：の決め方は後で示す。特徴： 1. 𝑤𝑤𝑝𝑝 の解が一つ。（Xの共線性の影響を受けない。） 2. Lassoは説明変数選択を同時に行う。 3. Lassoは𝑤𝑤𝑝𝑝 に０が多い場合はN<Pでも妥当な一意な解が求まる。 w1 𝑤𝑤2 = 0，説明変数選択

11.

回帰評価指標よく用いられる回帰評価指標 𝑁𝑁 1 MSE = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 RMSE = MAE = どの程度“目的変数＝予測値”なのか？ 2 ←𝐿𝐿の第一項 𝑦𝑦 2 の単位 𝑀𝑀𝑀𝑀𝑀𝑀 yと同じ単位にする。 𝑁𝑁 1 � |𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 | 𝑁𝑁 𝑖𝑖 ∑𝑁𝑁 ⃗𝑖𝑖 𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥 2 𝑅𝑅 = 1 − ∑𝑁𝑁 � 2 𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑦𝑦 小さい程妥当 2 無次元１以下の値を取る。大きい程妥当

12.

未知データへの対応問題：予測の本来の目的は訓練データ以外の未知データに対して回帰モデル𝑓𝑓を用いて予測すること。定量的な評価はどう行うのか？本来行いたいことは？ ①観測データで𝑓𝑓(𝑥𝑥)を作成する。 ②未知データで𝑓𝑓(𝑥𝑥)の回帰性能指標を評価する。 →しかし，未知データは回帰モデル作成時に存在しないので評価不能。代案： 1. 観測データを訓練データとテストデータに分ける。観測データ分離方法： 1. 観測データを一組の訓練データとテストデータに分ける。 2. 観測データを複数の訓練データとテストデータに分ける。 1. 交差検定を行う。 2. ③訓練データで予測モデルを作成する。 3. ④テストデータに適用して回帰性能を評価する。観測データ ① 観測データ未知データ 𝑓𝑓(𝑥𝑥) 訓練データ Training data ② テストデータ Test data ③ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡④ 𝑓𝑓 (𝑥𝑥)

13.

未知データへの対応代案： 1. 観測データを訓練データとテストデータに分ける。観測データ分離方法： 1. 観測データを一組の訓練データとテストデータに分ける。 2. 観測データを複数の訓練データとテストデータに分ける。 1. 交差検定を行う。 2. ③訓練データで予測モデルを作成する。 3. ④テストデータに適用して回帰性能を評価する。観測データ訓練データ Training data 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 テストデータ Test data ③ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡④ 𝑓𝑓 (𝑥𝑥) Score=MSE,RMSE,MAE,𝑅𝑅2 ,… 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡

14.

交差検定五分割（五回交差検定）の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest )

15.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest )

16.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest )

17.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest )

18.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest )

19.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest )

20.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest )

21.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2 回帰モデル #3 テストデータ #4 評価指標値 #5 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 ( 𝑥𝑥) ⃗ 1234 1245 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #1 #2 #3 #4 #5 test scoretest score1𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 scoretest scoretest 4 2 score3 5 ave(scoretest ), stddev(scoretest ) 同様にave(score𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 ), stddev(scoretrain )も評価可能。

22.

交差検定コメント五回交差検定では回帰モデルが𝑓𝑓1 (𝑥𝑥), ⃗ 𝑓𝑓2 (𝑥𝑥), ⃗ … , 𝑓𝑓5 (𝑥𝑥) ⃗ と五つ得られますが，このうちどの回帰モデルを選択するのでしょうか。例えば，scikit-learnのLassoCV，RidgeCV関数，そしてscikit-learnを用いているOrangeでは， 1. 交差検定でハイパーパラメタを選択して 2. そのハイパーパラメタを用いて，全ての観測データを用いて回帰モデルを作成し直します。

23.

予測モデルの適用値を生成した未知データを新規データと呼ぶことにする。テストデータ訓練データ ⑤新規データに対して予測モデルで予測値を得る。 ③ 現実的には，訓練データとテストデータで回帰関数を得ても外挿領域では妥当に予測できるか分からない。 𝑓𝑓 ④ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 (𝑥𝑥) ⑤ 新規データ

24.

ハイパーパラメタの選択方法典型的的な振る舞い RMSE RMSE 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 訓練データに過度 αの選択値に学習＝過学習 α 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 αの選択値 𝑅𝑅2 は大きいほど妥当な回帰モデルなので上下が逆になる。 α

25.

過学習への対応 y データと予測値過学習の場合青点線：全データ点で多少一致しなくても，なめらかに変化する関数。←回帰モデルとしてこういう関数を期待している。 ●観測データ x 赤実線：全データ点では一致するが観測データ点以外では大きく変化する。→未知データに対して大きく変化する値を得る。過学習したモデル。

26.

過学習への対応処方箋： 1. 重回帰分析説明変数を選択することで過学習を避ける。 p値，t値などの統計的指標を用いる。と言われてはいます。 2. 訓練データとテストデータへの分割ハイパーパラメタを決定する。 y データと予測値 bad good y データと予測値 ●訓練データで回帰モデルを作成して， ◯テストデータで回帰性能を評価する。 x bad good x 観測データから穴埋め問題に直して最適化することで全体的になめらかに変化する関数を得る。

27.

以下ではこれらを実際にOrangeで行う。

28.

目次線形回帰手法紹介タスク１：初めてのワークフロータスク２：トイモデルを用いた線形回帰モデル当てはめを行うワークフロータスク３：トイモデルを用いた線形回帰予測モデルを作成するワークフロータスク４：材料特徴量データを用いた予測モデルを作成するワークフロー

29.

教材ファイル Bitbucketからインストールしたフォルダを{prefix}にインストールする。 {prefix}以下には {prefix}/data/ --- 観測データファイル，新規データファイル {prefix}/data_generated/ --- 作成されるデータの保存場所 {prefix}/python/ --- 関連Python script {prefix}/workflow/ --- ワークフロー保存場所サブフォルダが存在するはず。

30.

観測データ観測データ最初は何が起きるはずのか分かるトイモデルデータを用いる。トイモデル説明変数：x1 = x, x2=𝑥𝑥 2 , …, x6 =sin(x) 目的変数：y = 2sin(x)+小さなノイズから生成した。右図で “.” 観測データファイル（{prefix}/data/x15_sinx_Orange.csv） [0:5]まで100点。 “●”新規データファイル（{prefix}/data/x15_sinx_new_Orange.csv） [5:6]で20点。 [-2.5:2.5]まで拡大。テストデータ

31.

回帰モデル目的変数：y = 2sin(x)+小さなノイズ可能性がある線形回帰モデル Sin(x)はテイラー展開できるので， 1. 𝑓𝑓 𝑥𝑥 = sin 𝑥𝑥 + w0 2. 𝑓𝑓 𝑥𝑥 = ∑ 𝑤𝑤𝑖𝑖 𝑥𝑥 𝑖𝑖 + w0 3. もしくは両者が混じったモデルができるはず。

32.

作業内容いきなり回帰モデル作成は行ないません。 Orangeを使うのが初めてのはずなのでまずはOrangeに慣れて頂きます。ファイルを開いて中身を表示する。を行う。そのために A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

33.

Orangeの起動 ②更に全画面表示にする。 ①Newを押す。

34.

機能のカテゴリ分け Widgetの機能が色ごとに６つにカテゴリ分けされています。詳細表示。詳細隠す。 ①ダブルクリック ②ダブルクリック

35.

Orangeの使い方 ① ② ③ ① ② ③ …

36.

タスク１A ファイルを開いて中身を表示する。 A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

37.

1.01.first_widget.ows 完成図を先に示してから，作成を行ないます。完成図

38.

File widgetの配置 ①Drag & drop それぞれが Widget icon 以下ではFile widgetを[File]と書く。 ②[File]においてファイルが選択されていないという意味のＸや！がついているかもしれないが後で選択するので無視して良い。

39.

ファイルからデータを読み込む。 ③[File] windowが開く。 ②[File]をダブルクリック ④フォルダアイコンを押しと各OS でのファイル選択画面が出るので {prefix}/data/x15_sin_Orange.csvを選択。 ⑤数値(numeric)で説明変数 (feature)もしくは目的変数 (target)であることを確認。 ⑥出力が100データインスタンスある。

40.

A.観測データをファイルから取得する。 1.観測データをファイルから取得する。が行えた。

41.

タスク１B ファイルを開いて中身を表示する。 A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

42.

[Data Table]の配置 ①Drag & drop

43.

Widgetの接続 ①[File]の右円弧をつかんで ⑦マウスを中間に置くとｘが出る。 ⑤[Edit Links] windowが開く。 ⑧ｘを押すと線が消える。 ②[Data Table]の左円弧までDrag & drop ⑨{File widgetのData}からData Table Widgetの{Data}へDrag&drop で線ができる。 ③結果 ④実線をダブルクリック（点線かもしれない。） ⑥File widgetの{Data}とData Table widgetの{Data}がつながっていることを確認。リンクにも{Data}と表示があり，ダイアグラムでも{Data}-{Data}と繋がっていることが分かる。 ⑩[Edit Links] windowを閉じる。

44.

B.観測データを表で表す。 ①ダブルクリック ②[Data Table] windowが開く。 ③数値が見れる。目的変数であるｙカラムは背景灰色で示される。 X1,x2,…sinxカラムは説明変数で背景白で表される。

45.

Window内の“＜”と“＞”の使い方 “＜”と“＞”で左側パネルの表示・非表示を選択できます。 [Data Table] windowの例 ①右矢印を押す。 ②左矢印を押す。

46.

タスク１C ファイルを開いて中身を表示する。 A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

47.

[Scatter Plot]の配置と接続 ②[File]の右円弧と[Scatter Plot]の左円弧を drag&dropでつなぐ。 ①Visualizeから[Scatter Plot]をdrag & dropをして配置 ③[File]と[Scatter Plot]のLinkをダブルクリックして繋がり方を確認（→次ページ）

48.

[Scatter Plot]の配置と接続 Edit Links ②ダブルクリック ③[Scatter Plot] windowが開く。 [Scatter Plot] window ①線が{Data}-{Data}でない場合は各自修正すること。設定は次ページ

49.

[Scatter Plot] windowの使い方 ②選択肢が出る。 ①Axis x:の右側を選択 ④ ③Color: yとしており，丸の色がｙに依存しています。このColorも変更可能です。 ④補足：この位置のチェックでwidgetの出力を自動的に行うかを決められる。この場合チェックの有無で[Send Automatically] <-> [Send Selection]と替わる。 [Send Automatically]としておく。

50.

[Scatter Plot] windowの使い方 ①Axis x: x1, Axis y: x5の場合 ③Size: x1とした場合 ②Axis x: x1, Axis y: yの場合 ⑤legendはマウスの drag&dropで動きます。 ④結果丸の大きさがx1に依存した図ができます。 C)観測データを図で表す。ができました。

51.

目次線形回帰手法紹介タスク１：初めてのワークフロータスク２：トイモデルを用いた線形回帰モデル当てはめを行うワークフロータスク３：トイモデルを用いた線形回帰予測モデルを作成するワークフロータスク４：材料特徴量データを用いた予測モデルを作成するワークフロー

52.

タスク２全観測データを用いた線形回帰モデル作成 Sin(x)はテイラー展開できるので， 1. 𝑓𝑓 𝑥𝑥 = sin 𝑥𝑥 + w0 2. 𝑓𝑓 𝑥𝑥 = ∑ 𝑤𝑤𝑖𝑖 𝑥𝑥 𝑖𝑖 + w0 3. もしくは両者が混じったモデルが妥当な回帰モデルであるはず。線形回帰でどんなモデルが得られるでしょうか。

53.

1.02.linear_regression_fit.ows

54.

線形回帰モデル作成以下の過程を行う。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。回帰ライブラリが「説明変数は同程度大きさのである」ことを仮定しているために必要。

55.

タスク2A A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 ①Dataから[File]を配置。 {prefix}/data/x15_sin_Orange.csvを選択。 ②Visualizeから[Scatter Plot]を配置。 ③[File]{Data}-[Linear Regression]{Data} をつなぐ。 ② ③ ①

56.

タスク２B A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 ② ① ④ ③ ①Transformから[Preprocess]を配置。 ②[File]{Data}-{Data}[Preprocess]をつなぐ。 ③Visualizeから[Scatter Plot]を配置。 ④[Preprocress]{Preprocessed Data}{Data}[Scatter Plot]をつなぐ。

57.

２B１．正規化の設定 [Preprocess] window ①Drag&drop ②パネルが現れる。 ③ ④ ③もしチェックされていなければ，チェックすると ④ボタンが”Apply”から“Apply Automatically”に表示変更される。

58.

２B１．正規化の設定 [Preprocess] window １．よく使われる３つの正規化手法説明変数毎に， 1. 平均0，標準偏差1に 2. [-1:1]に 3. [0,1]に線形変換する。（線形変換なので逆変換も容易。）２．３． ②選択する。

59.

正規化された観測データの確認 ①[File]の後ろの[Scatter Plot]をダブルクリック ④[Preprocess]の後ろの[Scatter Plot]をダブルクリック ②Axis x: x1, Axis y: x5を選択 ③値が０から3000程度であることを確認。 ⑤Axis x: x1, Axis y: x5を選択 ⑥値が０から3程度であることを確認。 →正規化できている。

60.

タスク２C A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 Modelから[Linear Regression], Dataから [Data Table]を配置。 [Preprocess]{Preprocessed Data} – {Data}[Linear Regression], [Linear Regression]{Coeffients}-{Data}[Data Table]とつなぐ。

61.

２C１．線形回帰モデルの設定 𝑃𝑃 ①[Linear Regression] window １． ③選択する。５． ⃗ = � 𝑤𝑤𝑝𝑝 𝑥𝑥𝑝𝑝 + 𝑤𝑤0 １． 𝑓𝑓(𝑥𝑥) 𝑝𝑝=1 の切片 𝑤𝑤 を0とするかどうか。 0 ②選択する。２．３．４．チェックする場合は 𝑤𝑤0 ≠ 0 チェックしない場合は 𝑤𝑤0 = 0 2から5 罰則項の選択 𝑁𝑁 1 𝐿𝐿 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝐿𝐿 = ④ ④補足：選択して[Apply Automatically]とする。（以降はこの部分の説明は省略する。） 𝑖𝑖 𝑁𝑁 1 � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 2 2 → ２． + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 ３． n=2: Ridge回帰４． n=1: Lasso 𝑝𝑝 𝑛𝑛 ５． α

62.

線形回帰モデル係数 [Data Table] window 過程C)で線形回帰モデルが作成されている。 ①[Linear Regression]の後ろの [Data Table]をダブルクリック 𝑤𝑤0 𝑤𝑤1 𝑤𝑤2 ⋮ 𝑤𝑤6 に対応 ③正規化された観測データに対する回帰係数を示す。結果は sinx以外の係数は０では無いがとても小さな値。 sinxとテーラ展開の両者が混じったモデルが得られている。

63.

タスク２D A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 ①Evaluateから[Prediction]を配置。 ②[Linear Regression]{Model}{Predictors}[Predictions]とつなぐ。 ③[Preprocdess]{Preprocessed Data}{Data}[Predictions]とつなぐ。 ④Visualizeから[Scatter Plot (2)]を配置。 ⑤[Predictuons]{Predictons}-{Data}[Scatter Plot (2)]とつなぐ。 ② ⑤ ④ ③ ①

64.

評価指標の表示 [Predictions] window ② ③ ①[Predictions]をダブルクリック ②Show performance scoresがチェックされていると ③評価指標値を表示する。 RMSE=0.01, MAE=0.001, R2=1.000

65.

回帰結果の表示 ②Axis x:をy（観測データ予測値）に，Axis y:をLinear Regression（線形回帰の予測値）に選択。 ①[Predictions]の後ろの[Scatter Plot]をダブルクリック ③ほぼ，観測データ＝線形回帰の予測値であることを確認。

66.

変数選択回帰で𝑓𝑓 𝑥𝑥 = 𝑤𝑤0 + sin(𝑥𝑥)を選択できないのか？回帰と同時に変数選択も行うLassoを使ってみます。 𝑁𝑁 1 𝐿𝐿 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 2 + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 𝑝𝑝 1 タスク２で作成したワークフローをそのまま使います。

67.

Lassoを試す前に Lassoのハイパーパラメタ（α）を変えて，妥当なモデル選択する際に，結果を同時に見れるようにします。作業： 1. [Linear Regression]，[Predictions], [Linear Regression]の後ろの[Data Table]，[Scatter Plot]をダブルクリックしてウインドウを開く。 2. Orangeでは新たなウインドウは背面で開くので，前面に配置しなおす。 →次ページは配置例

68.

配置例 [Scatter Plot] window [Linear Regression] [Data Table] window window [Predictions] window

69.

Lassoのハイパーパラメタの選択 ①[Linear Regresion] window ① ③ 1. ①[Linear Regression] windowを開く。 2. ②Lasso regressin (L1)を選択する。 3. ③Regularization strength（Alpha）スライダーを動かす。次ページ：スライダーを動かした結果。 ②

70.

ハイパーパラメタを動かす。 Lasso, Alpha=0.0001 Lasso, Alpha=0.05 Lasso, Alpha=35 αを大きくすると，予測値が定数になる。

71.

ハイパーパラメタを動かす。 Lasso, Alpha=0.0001 Lasso, Alpha=0.05 Lasso, Alpha=35

72.

ハイパーパラメタを動かす。 Lasso, Alpha=0.0001 Lasso, Alpha=0.05 中程度のαで𝑓𝑓 𝑥𝑥 = 𝑤𝑤0 + wsin sin(𝑥𝑥) が選択される。 Lasso, Alpha=35

73.

等価な回帰モデルを作成するワークフロー後のために[Preprocess]のつなぎ方を変更しておく。

74.

回帰モデルのデータ，関数の流れの整理データ，関数の流れ観測データの正規化関数を作成回帰モデル作成正規化関数を内部に持つ線形回帰モデル作成観測データ観測データの正規化関数を使用正規化された観測データ観測データの線形回帰モデルを作成観測データ観測データの正規化関数を使用正規化された観測データ観測データの線形回帰モデルを使用新規データ観測データの正規化関数を使用予測値を得る正規化された新規データ観測データの線形回帰モデルを使用正規化関数を内部に持つ線形回帰モデル使用観測データの予測値新規データの予測値

75.

1.03.linear_regression_preproces sed_model.ows

76.

正規化関数を内部に持つ線形回帰モデル A) 観測データをファイルから読み込む。 B) 正規化関数を内部に持つ線形回帰モデルを作成する。 C) 観測データに対して正規化関数を内部に持つ線形回帰モデルを用いて予測する。 D) 観測データに対して正規化関数を内部に持つ線形回帰モデルを用いて予測値と回帰能評価指標を得る。 E) 結果を可視化する。回帰係数は正規化説明変数に対する値

77.

1.04.regression_models_fit.ows

78.

代替モデルの追加 [Linear Regresion]と並列に他の回帰モデルを配置接続することで，それらの回帰モデルの予測値，評価指標値を同時に得ることができます。この例ではModelの[Random Forest]を追加して接続してます。 [Random Forest]についてはここでは説明しませんが，よく用いられる回帰手法の一つです。

79.

代替モデルの回帰性能 [Predictions] window Random Forest の回帰性能値

80.

プリプロセスの付加同じPreprocess 異なるPreprocess：片方はStandarize, もう一方は[0,1]など

81.

目次線形回帰手法紹介タスク１：初めてのワークフロータスク２：トイモデルを用いた線形回帰モデル当てはめを行うワークフロータスク３：トイモデルを用いた線形回帰予測モデルを作成するワークフロータスク４：材料特徴量データを用いた予測モデルを作成するワークフロー

82.

タスク３観測データを用いた回帰モデルの作成と評価でなく，訓練データとテストデータに分けた回帰モデルの作成と評価を行う。

83.

1.05. regression_CV_A.ows 各自作成してください。

84.

予測モデル作成と新規データへの適用「観測データから線形回帰モデルを作成して，新規データの予測値を得る。」を行う。そのために，以下の過程を行う。 A)観測データをファイルから読み込む。 B)観測データで交差検定により正規化関数を内部に持つあるハイパーパラメタの回帰予測モデルを作成し予測値と回帰性能を得る。 C)全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。 D)新規データをファイルから読み込む。 E)新規データに対して正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを用いて予測する。 F)結果を可視化する。

85.

タスク３AB 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により正規化関数を内部に持つあるハイパーパラメタの回帰予測モデルを作成し予測値と回帰性能を得る。正規化関数を内部に持つ線形回帰モデルを作成する。 Random Forest回帰を説明しませんが，表示の都合によりRandom Forest をModelsから選択して配置してください。

86.

Lassoと交差検定の設定５回交差検定の場合 ① ③ ②選択する。 ⑥値が変わることを確認。 ⑤スライダーを動かす。 ④Lassoを選択する。（ハイパーパラメタは後で決定する。）

87.

1.06.regression_CV_B.ows

88.

タスク３AC 1. 観測データをファイルから読み込む。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 C) 全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。

89.

タスク３ABC ３ABと３ACを混ぜる。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 C) 全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。

90.

線形モデルのハイパーパラメタの設定 [Linear Regression]でLassoを用いてハイパーパラメタを妥当な値に設定してください。 C=0.012の場合

91.

[Save Model]の設定 [Save Model] window ① ② ①Autosaveをチェックする。 ②Save as… でモデル保存ファイルを指定する。例えば，linear_model.pkclsとする。

92.

タスク３DEF A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 C) 全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。 D) 新規データをファイルから読み込む。 E) 新規データに対して正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを用いて予測値と回帰性能を得る。 F) 結果を可視化する。同じファイルを用いる。 D)新規データをファイルから読み込む。 E) 新規データに対して正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを用いて予測値と回帰性能を得る。

93.

新規データの予測（この新規データはｙの値があるので） ③[Predictions]で回帰性能を得る。 ② ③ ④ ① ①[File(1)]では新規データ ”data/x15_sin_new_Orange.csv”を読み込む。 ②[Load Model] windowでは[Save Model]と同じファイルを指定する。 ④[Scatter Plot)(1)]で予測値の可視化をしてください。（注意：[Save Model]でモデルが更新されても[Load Model]は自動的に再読み込みしません。）

94.

1.07.regression_CV_C.ows モデルの保存・読み込みを削除して直結することもできます。

95.

コメント論文では，妥当な予測モデルが作れたことで終わる場合が多い。

96.

目次線形回帰手法紹介タスク１：初めてのワークフロータスク２：トイモデルを用いた線形回帰モデル当てはめを行うワークフロータスク３：トイモデルを用いた線形回帰予測モデルを作成するワークフロータスク４：材料特徴量データを用いた予測モデルを作成するワークフロー

97.

観測データ希土類Co合金の磁気相転移温度𝑇𝑇𝐶𝐶 の文献データ組成式：ReaCob 希土類（Re) ファイル：{prefix}/data/ReCo_Tc_descriptor_Orange.csv 説明変数希土類（Re)元素：原子番号 (カラム名 Z) d,f 軌道の電子配置期待値 (f4,d5) その射影量 (4f, S4f, J4f,(g-1)J4f, (2-g)J4f) 構造由来説明変数：希土類元素の体積あたり数密度 (C_R) Co の体積あたり数密度 (C_T) 元素あたりの体積（vol_per_atom) （構造はAtomWorkから取得し加工済み。）目的変数：磁気相転移温度𝑇𝑇𝐶𝐶

98.

[ScatterPlot]でデータ選択を行った結果を可視化するワークフロー 1.06.regression_CV_B.owsの上側にwidgetの追加を行う。 ② ① ①[Data Table]を配置。 ②[Scatter Plot]{Selected Data}{Data][Data Table (1)]とつなぐ。回帰係数は正規化説明変数に対する値 1.08.regression_CV_B_DataTable.owsとして保存。

99.

ワークフローとデータの選択 1.06.regression_CV_B.owsの上側を使用。 ① ①[File]で {prefix}/data/ReCo_Tc_descriptor_Orange.csv を選択。

100.

妥当なハイパーパラメタを設定してください。例） ①Lassoで ②Aphaを選択する。

101.

図からの選択 ②[Scatter Plot]の後ろの[Data Table (1)] window ③マウスで選択したデータが参照できる。 ①マウスで選択。

102.

説明変数重要性 [Linear Regression]の後ろの[Data Table] window Alpha=0.4の場合 [Scatter Plot] window ③C_R vs Tc として表示。 ③C_T vs Tc として表示。 ①最も大きな寄与C_R ②次に大きな寄与C_T ③その次はS4fとZ

103.

説明変数間の関係組成式：ReaCobでReとCo元素の取る体積は決まっているので Tcに対する関係以外にも，C_R，C_T，vol_per_atomは依存関係がある。 C_R vs C_T として表示。 Vol_per_ato m vs C_Rとして表示。 Vol_per_ato m vs C_Tとして表示。三つ説明変数の中でC_R，C_Tの順にTcの線形回帰モデルには重要である

104.

説明変数重要性 TcはZに対して中央が大きく＋すこし右肩上がり。 [Linear Regression]の後ろの[Data Table] window Z=62(Sm) Z=64(Gd) ③Z vs S4fとして表示。 ①最も大きな寄与C_R ②次に大きな寄与C_T ③次はS4fとZ Z=64

105.

説明変数重要性線形回帰モデルなので解析が容易でした。 ①C_RとC_T ① →異なる組成比のTcの違い ③次はS4fとZ →同じ組成比内のTcの違いという解釈が可能。 ②

106.

本日行ったこと 1. 観測データから線形回帰予測関数を作成して， 2. 新規データの予測値を求める。希土類Co磁石材料への適用（と書いておかないと物質適用が無いとアンケートで書かれるので。）をOrange Data Miningを用いて行った。

107.

以上で終了です。

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

木野日織

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

２０２２年度マテリアルズ・インフォマティクス連続セミナー：次元圧縮・分類・クラスタリング

各ページのテキスト