（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

40K Views

July 26, 23

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

スライド概要

機械学習や回帰手法についての基本的な説明を行ない，Orange Data Miningを使用して線形回帰予測関数を作成し、新規データの予測値を求める方法について説明します。

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回木野日織（きのひおり）

今回行うこと Orange Data Miningのワークフロー 1. 観測データから線形回帰予測関数を作成して， 2. 新規データの予測値を求める。までをOrange Data Miningを用いて行う。

機械学習と回帰手法とは機械学習：コンピュータがデータから自動的にルールやパターンを学ぶ手法のこと。コンピュータに経験から学ぶ能力を持たせることで、データを解析し、予測や決定を行う。回帰の目的： 1.予測：未知のデータに対して目的変数の値を予測する。 2.関係性の理解：各説明変数の重要性や、説明変数の値が目的変数に与える影響の度合いを理解する。回帰：連続変数データ間の関係を数学的な関数（方程式）を使って表現する方法の一つ。 ChatGPTの答えに加筆

連続変数の予測手法目的：変数𝑥𝑥から変数𝑦𝑦を予測する，つまり，𝑦𝑦～𝑓𝑓( ⃗ 𝑥𝑥) ⃗ となる関数𝑓𝑓を求める。観測データ ID ID1 ID2 解法 1. 演繹法：原理から𝑦𝑦を評価する関数を得る。方程式がある世界の予測。例）運動方程式，シュレディンガー方程式 2. 帰納法：観測データ(𝑥𝑥, ⃗ 𝑦𝑦)から新規𝑥𝑥⃗ に対して𝑦𝑦を評価する関数を得る。いつ使う？ 1. 方程式が存在しない場合。 2. 方程式を解くのに時間がかかるので短時間に解きたい場合。 … IDN 𝒙𝒙𝟏𝟏 𝑥𝑥11 𝑥𝑥21 𝑥𝑥𝑁𝑁1 𝒙𝒙𝟐𝟐 𝑥𝑥12 𝑥𝑥22 𝑥𝑥⃗ … 𝑥𝑥𝑁𝑁𝑁 𝒙𝒙P 𝒚𝒚 𝑥𝑥1P 𝑦𝑦1 𝑥𝑥𝑁𝑁P 𝑦𝑦𝑁𝑁 𝑥𝑥2P 𝑦𝑦2 𝑦𝑦 = 𝑓𝑓(𝑥𝑥) ⃗ 回帰は𝑦𝑦, 𝑥𝑥は連続変数，に対して適用される。 ⃗ ここで， • 𝑦𝑦:目的変数 • 𝑥𝑥：説明変数，デスクリプタ(descriptors) ⃗ と呼ばれる。

線形回帰解法：線形回帰：データ間の関係を直線（または高次元空間では平面や超平面）で表現する。 𝑃𝑃 𝑦𝑦 = � 𝑤𝑤𝑝𝑝 𝑥𝑥𝑝𝑝 + 𝑤𝑤0 𝑝𝑝=1 データ(𝑥𝑥⃗𝑖𝑖 = (𝑥𝑥𝑖𝑖𝑖 , 𝑥𝑥𝑖𝑖𝑖 , 𝑥𝑥𝑖𝑖𝑖 , … , 𝑥𝑥𝑖𝑖𝑖𝑖 ), 𝑦𝑦𝑖𝑖 ),(𝑖𝑖 = 1,2, . . 𝑁𝑁)から𝑤𝑤0 , 𝑤𝑤1 , 𝑤𝑤2 , … 𝑤𝑤𝑃𝑃 が得られる。利点：他の回帰手法に対して圧倒的に分かりやすい。 𝑥𝑥𝑖𝑖0 = 1とすると，関数系は 𝑃𝑃 𝑦𝑦 = � 𝑤𝑤𝑝𝑝 𝑥𝑥𝑝𝑝 𝑝𝑝=0 と書ける。具体的にデータをあらわに書くと 1 𝑦𝑦1 𝑦𝑦2 = 1 ⋮ 1 𝑥𝑥11 𝑥𝑥21 𝑥𝑥31 … … … 𝑦𝑦⃗ = 𝑋𝑋𝑤𝑤 つまり，変数の数を合わせると 𝑤𝑤 = 𝑋𝑋 −1 𝑦𝑦⃗ して解けるはず。 𝑤𝑤0 𝑤𝑤1 ⋮

線形回帰モデル解法問題点：処方箋：データには誤差がある，もしくは，説明変数でyが書けない。更に，一般的にN>>Pである。つまり，観測値とモデルの予測値の二乗誤差（残差）を最小化する。コスト関数 1 𝑦𝑦1 𝑦𝑦2 = 1 ⋮ 1 𝑥𝑥11 𝑥𝑥21 𝑥𝑥31 … … … そして，𝜖𝜖𝑖𝑖 は未知数，なので 𝑤𝑤0 𝜖𝜖1 𝑤𝑤1 + 𝜖𝜖2 ， ⋮ ⋮ 𝑁𝑁 𝑁𝑁 𝑖𝑖 𝑖𝑖 𝐿𝐿 = � 𝜖𝜖𝑖𝑖2 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 2 の値が小さいほど、モデル当てはめが良い＝モデルがデータを良く説明（フィット）している。この際に，最適な説明変数は予め不明なのでできるだけ多くの説明変数を用いることがよく行われる。

共線性への対応問題点：できるだけ多くの説明変数を用いる＝データ（N やP)が多いと数値的不安定性や，（多重）共線性の影響を受ける。 N:データインスタンス数 P:説明変数の種類数事実：共線性の影響を受けたモデルは|𝑤𝑤𝑝𝑝 |が大きいことが多い。つまり，1程度の大きさのyを101－100と計算している。処方箋：罰則項を取り入れる。コスト関数に𝑤𝑤𝑝𝑝 の大きさの制限を加えて最小化する。 𝐿𝐿 = 𝑁𝑁 1 � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 2 + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 𝑝𝑝 𝑛𝑛 意味：なるべく𝑤𝑤𝑝𝑝 の大きさを揃える。 n=1: Lasso n=2: Ridge回帰 α(ハイパーパラメタ）の決め方は後で示す。

LassoとRidge回帰 Ridge回帰 w2 処方箋：コスト関数に𝑤𝑤𝑝𝑝 の大きさの制限を加えて最小化する。（αは後で決める。） 𝑁𝑁 1 𝐿𝐿 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 意味： 𝑖𝑖 2 + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 𝑝𝑝 𝑛𝑛 なるべく𝑤𝑤𝑝𝑝 の大きさを揃える。 n=1: Lasso n=2: Ridge回帰第二項の Contour 第一項の Contour 第一項のみの最適値 w1 第二項のみの最適値 Lasso 𝑤𝑤1 ≠ 0, 𝑤𝑤2 ≠ 0 w2 特徴：  𝑤𝑤𝑝𝑝 の解が一つ。（X,yの共線性の影響を受けない。）  Lassoは説明変数選択を同時に行う。  Lassoは𝑤𝑤𝑝𝑝 に０が多い場合はN<Pでも妥当な一意な解が求まる。→後で例を行う。 w1 𝑤𝑤2 = 0，説明変数選択

回帰評価指標よく用いられる評価指標 𝑁𝑁 1 MSE = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 RMSE = 2 𝑀𝑀𝑀𝑀𝑀𝑀 𝑁𝑁 1 MAE = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 どの程度“目的変数＝予測値”なのか？ 𝑁𝑁 ∑ ⃗𝑖𝑖 𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥 2 𝑅𝑅 = 1 − ∑𝑁𝑁 � 2 𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑦𝑦 ←𝐿𝐿の第一項 𝑦𝑦 2 の単位 2 2 yと同じ単位にする。無次元

10.

未知データへの対応問題：本来の目的は訓練データ以外に対して回帰モデル𝑓𝑓を用いて予測すること。定量的な評価はどう行うのか？本来行いたいこと： ①観測データで𝑓𝑓(𝑥𝑥)を作成する。 ②未知データで𝑓𝑓(𝑥𝑥)の回帰性能指標を評価する。 →しかし，未知データは回帰モデル作成時に存在しないので評価不能。代案： 1. 観測データを訓練データとテストデータに分ける。観測データ分離方法： 1. 観測データを一組の訓練データとテストデータに分ける。 2. 観測データを複数の訓練データとテストデータに分ける。 1. 交差検定を行う。 2. ③訓練データで予測モデルを作成する。 3. ④テストデータに適用して回帰性能を評価する。観測データ ① 観測データ未知データ 𝑓𝑓(𝑥𝑥) テストデータ訓練データ ③ ② 𝑓𝑓(𝑥𝑥) ④

11.

交差検定５分割（五回交差検定）の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1245 (𝑥𝑥) ⃗ #2 回帰モデル #3 テストデータ #1 #2 #3 #4 評価指標値 score1 score2 score3 #5 𝑓𝑓1234 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #4 #5 score4 ave(score), stddev(score) score5

12.

交差検定５分割の場合 𝒙𝒙 𝒙𝒙1 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑 𝒙𝒙𝟒𝟒 𝒙𝒙𝟓𝟓 𝒙𝒙𝟔𝟔 𝒙𝒙7 𝒙𝒙8 𝒙𝒙9 𝒙𝒙10 𝒙𝒙11 𝑦𝑦 𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9 𝑦𝑦10 𝑦𝑦11 訓練データ #1 𝐿𝐿の最適化 #2,#3,# #1,#3,# #1,#2,# #1,#2,# #1,#2,# 4,#5 4,#5 4,#5 3,#5 3,#4 𝑓𝑓2345 (𝑥𝑥) ⃗ 𝑓𝑓1345 (𝑥𝑥) ⃗ 𝑓𝑓1245 (𝑥𝑥) ⃗ #2 回帰モデル #3 テストデータ #1 #2 #3 #4 評価指標値 score1 score2 score3 #5 𝑓𝑓1234 (𝑥𝑥) ⃗ 𝑓𝑓1235 (𝑥𝑥) ⃗ #4 #5 score4 ave(score), stddev(score) score5

13.

14.

15.

16.

17.

18.

予測モデルの適用値を生成した未知データを新規データと呼ぶことにする。テストデータ訓練データ ⑤新規データに対して予測モデルで予測値を得る。 ③ 𝑓𝑓(𝑥𝑥) ④ ⑤ 現実的には，訓練データとテストデータで回帰関数を得ても外挿領域では妥当に予測できるか分からない。新規データ

19.

ハイパーパラメタの選択方法典型的的な振る舞い RMSE RMSE 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 訓練データに過度に学習＝過学習 α αの選択値 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 αの選択値 α

20.

過学習への対応 y データと予測値過学習の場合 ●観測データ処方箋： 1. 重回帰分析説明変数を選択することで過学習を避ける。 p値，t値などの統計的指標を用いる。と言われてはいますが・・・。 2. 訓練データとテストデータへの分割 y データと予測値 ●訓練データで回帰モデルを作成して， ◯テストデータで回帰性能を評価する。 x 説明変数空間ではｙはなめらかに変化していると仮定する。赤線：全データ点では一致するが観測データ点以外では大きく変化する。青線：誤差のせいで全データ点で多少一致しなくても，なめらかに変化する関数。←こういう関数を期待する。 x 観測データから穴埋め問題に最適化することでなめらかに変化する関数を得る。

21.

以下ではこれらを実際にOrangeで行う。

22.

データファイル観測データデータ：説明変数：x1 = x, x2=𝑥𝑥 2 , …, x6 =sin(x) 目的変数：y = 2sin(x)+小さなノイズから生成した。右図で “.” 観測データファイル（data/x15_sinx_Orange.csv） [0:5]まで100点。 “●”新規データファイル（data/x15_sinx_new_Orange.csv） [5:6]で20点。 [-2.5:2.5]まで拡大。テストデータ

23.

タスク１ファイルを開いて中身を表示する。 1.観測データをファイルから取得する。 2.観測データを表で表す。 3.観測データを図で表す。

24.

Orangeの起動 ②更に全画面表示にする。 ①Newを押す。

25.

機能のカテゴリ分け Widgetの機能が色ごとに６つにカテゴリ分けされています。詳細表示。詳細隠す。 ①ダブルクリック ②ダブルクリック

26.

Orangeの使い方 ① ② ③ ① ② ③

27.

タスク１ファイルを開いて中身を表示する。 A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

28.

タスク１A ファイルを開いて中身を表示する。 A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

29.

1.01.first_widget.ows

30.

File widgetの配置 ①Drag & drop それぞれが Widget icon 以下ではFile widgetを[File]と書く。 ②[File]においてファイルが選択されていないという意味のＸや！がついているかもしれないが後で選択するので無視して良い。

31.

ファイルからデータを読み込む。 ③[File] windowが開く。 ②[File]をダブルクリック ④フォルダアイコンを押しと各 OSでのファイル選択画面が出るのでdata/x15_sin_Orange.csvを選択。 ⑤数値(numeric)で説明変数 (feature)もしくは目的変数 (target)であることを確認。 ⑥出力が100データインスタンスある。

32.

A.観測データをファイルから取得する。 1.観測データをファイルから取得する。が行えた。

33.

タスク１B ファイルを開いて中身を表示する。 A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

34.

[Data Table]の配置 ①Drag & drop

35.

Widgetの接続 ①[File]の右円弧をつかんで ⑦マウスを中間に置くとｘが出る。 ⑤[Edit Links] windowが開く。 ⑧ｘを押すと線が消える。 ②[Data Table]の左円弧までDrag & drop ③結果 ④ダブルクリック（実線で無いかもしれないが無視して良い。） ⑥{Data}と{Data}がつながっていることを確認。リンクに{Data}とあり，ダイアグラムでも{Data}-{Data}と繋がっていることが分かる。 ⑨{Data}から{Data}へ Drag&dropで線ができる。 ⑩[Edit Links] windowを閉じる。

36.

B.観測データを表で表す。 ①ダブルクリック ②[Data Table] windowが開く。 ③数値が見れる。目的変数であるｙカラムは灰色で示される。X1,x2,…sinxカラムは説明変数。

37.

Window内の“＜”と“＞”の使い方 “＜”と“＞”で詳細の表示・非表示を選択できます。 [Data Table] windowの例 ①右矢印を押す。 ②左矢印を押す。

38.

タスク１C ファイルを開いて中身を表示する。 A) 観測データをファイルから取得する。 B) 観測データを表で表す。 C) 観測データを図で表す。

39.

[Scatter Plot]の配置と接続 ②[File]の右円弧と[Scatter Plot]の左円弧をdrag&dropでつなぐ。 ①Visualizeから[Scatter Plot]をdrag & drop をして ③[File]と[Scatter Plot]のLinkをダブルクリックして繋がり方を確認（→次ページ）

40.

[Scatter Plot]の配置と接続 Edit Links ②ダブルクリック ③[Scatter Plot] windowが開く。 [Scatter Plot] window ①{Data}-{Data}でない場合は各自修正すること。

41.

[Scatter Plot] windowの使い方 ①Axis x:の右側を選択 ③Color: yとしており，丸の色がｙに依存しています。このColorも変更可能です。 ②選択肢が出る。

42.

[Scatter Plot] windowの使い方 ①Axis x: x1, Axis y: x5の場合 ③Size: x1とした場合 ②Axis x: x1, Axis y: yの場合 ④legendはマウスの drag&dropで動きます。 ⑤結果丸の大きさがx1に依存した図ができます。 C)観測データを図で表す。ができました。

43.

タスク２線形回帰モデル作成 Sin(x)はテイラー展開できるので， 1. 𝑓𝑓 𝑥𝑥 = sin 𝑥𝑥 + w0 2. 𝑓𝑓 𝑥𝑥 = ∑ 𝑤𝑤𝑖𝑖 𝑥𝑥 𝑖𝑖 + w0 3. もしくは両者が混じったモデルが妥当な回帰モデルであるはず。回帰でどんなモデルが得られるでしょうか。

44.

線形回帰モデル作成以下の過程を行う。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。回帰ライブラリが説明変数が同程度大きさのデータであることを仮定しているために必要。

45.

A)観測データをファイルから読み込む。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 Dataから[File]を，Visualizeから [Scatter Plot]を配置。 [File]{Data}-[Linear Regression]{Data}をつなぐ。

46.

B)観測データを正規化する。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 Transformから[Preprocess]を配置。 [File]{Data}-{Data}[Preprocess]をつなぐ。 Visualizeから[Scatter Plot]を配置。 [Preprocress]{Preprocessed Data}{Data}[Scatter Plot]をつなぐ。

47.

３．１．正規化の設定 [Preprocess] window Drag&drop

48.

３．１．正規化の設定 [Preprocess] window １．よく使われる３つの正規化手法説明変数毎に， 1. 平均0，標準偏差1に 2. [-1:1]に 3. [0,1]に線形変換する。（線形変換なので逆変換も容易。）２．３． ②選択する。

49.

正規化された観測データの確認 ①[File]の後ろの[Scatter Plot]をダブルクリック ④[Preprocess]の後ろの[Scatter Plot]をダブルクリック ②Axis x: x1, Axis y: x5を選択 ③値が０から3000程度であることを確認。 ⑤Axis x: x1, Axis y: x5を選択 ⑥値が０から3程度であることを確認。 →正規化できている。

50.

C)正規化された観測データで線形回帰モデルを作成する。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 Modelから[Linear Regression], Dataから [Data Table]を配置。 [Preprocess]{Preprocessed Data} – {Data}[Linear Regression], [Linear Regression]{Coeffients}-{Data}[Data Table]とつなぐ。

51.

３．２．線形回帰の設定 ①[Linear Regression] window 𝑃𝑃 ⃗ = � 𝑤𝑤𝑝𝑝 𝑥𝑥𝑝𝑝 + 𝑤𝑤0 １． 𝑓𝑓(𝑥𝑥) の切片を使うかどうか 𝑝𝑝=1 2から5 チェックする場合は 𝑤𝑤0 ≠ 0 チェックしない場合は 𝑤𝑤0 = 0 １．５． ③選択する。罰則項の選択 𝑁𝑁 1 𝐿𝐿 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 𝑁𝑁 1 𝐿𝐿 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 2 2 → ２． + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 ３． n=2: Ridge回帰４． n=1: Lasso 𝑝𝑝 𝑛𝑛 ５． α ２．３．４． ②選択する。

52.

線形回帰モデル係数 [Data Table] window 過程C)で線形回帰モデルが作成されている。 ①[Linear Regression]の後ろの [Data Table]をダブルクリック 𝑤𝑤0 𝑤𝑤1 𝑤𝑤2 ⋮ 𝑤𝑤6 ③正規化された観測データに対する回帰係数を示す。結果は sinx以外の係数は０では無いがとても小さな値。もしくはsinxとテーラ展開の両者が混じったモデルが得られている。

53.

D)正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 A) 観測データをファイルから読み込む。 B) 観測データを正規化する。 C) 正規化された観測データで線形回帰モデルを作成する。 D) 正規化された観測データに対して線形回帰モデルを用いて予測値を得て，評価指標値も得る。 E) 結果を可視化する。 Evaluationから[Prediction]を配置。 [Linear Regression]{Model}[Predictions]{Predictors}とつなぐ。

54.

評価指標の表示 [Predictions] window ② ③ ①[Predictions]をダブルクリック ②Show performance scoresがチェックされていると ③評価指標値を表示する。 RMSE=0.014, MAE=0.012, R2=1.000

55.

回帰結果の表示以上で動作するはずです。 ①[Predictions]の後ろの[Scatter Plot]をダブルクリック ②Axis x:をy（観測データ予測値）に，Axis y:をLinear Regression（線形回帰の予測値）に選択。 ③ほぼ，観測データの予測値＝線形回帰の予測値であることを確認。

56.

変数選択回帰で𝑓𝑓 𝑥𝑥 = 𝑤𝑤0 + sin(𝑥𝑥)を選択できないのか？回帰と同時に変数選択も行うLassoを使ってみます。 𝑁𝑁 1 𝐿𝐿 = � 𝑦𝑦𝑖𝑖 − 𝑓𝑓 𝑥𝑥⃗𝑖𝑖 𝑁𝑁 𝑖𝑖 2 + 𝛼𝛼 � 𝑤𝑤𝑝𝑝 𝑝𝑝 1

57.

1.02.Linear_regression_fit.ows

58.

Lassoを試す前に Lassoのハイパーパラメタ（α）を変えて，妥当な選択する際に，結果を同時に見れるようにします。作業： 1. [Linear Regression]，[Predictions], [Linear Regression]の後ろの[Data Table]，[Scatter Plot]をダブルクリックしてウインドウを開く。 2. Orangeでは新たなウインドウが背面に行くので，前面に配置しなおす。 →次ページは配置例

59.

配置例 [Scatter Plot] window [Linear Regression] [Data Table] window window [Predictions] window

60.

Lassoのハイパーパラメタの選択 [Linear Regresion] window ① ② 1. ①[Linear Regression] windowを開く。 2. ②Lasso regressin (L1)を選択する。 3. ③Regularization strength（Alpha）スライダーを動かす。次ページ：スライダーを動かした結果。 ①

61.

ハイパーパラメタを動かす。 Lasso, Alpha=0.0001 Lasso, Alpha=0.05 Lasso, Alpha=35 αを大きくすると，予測値が定数になる。

62.

ハイパーパラメタを動かす。 Lasso, Alpha=0.0001 Lasso, Alpha=0.05 Lasso, Alpha=35

63.

ハイパーパラメタを動かす。 Lasso, Alpha=0.0001 Lasso, Alpha=0.05 中程度のαで𝑓𝑓 𝑥𝑥 = 𝑤𝑤0 + sin(𝑥𝑥) が選択される。 Lasso, Alpha=35

64.

1.03.linear_regression_preproces sed_model.ows

65.

等価な回帰モデルを作成するワークフロー後のために考え方を変更しておく。欠点：Preprocessで同程度の量になったことを可視化できなくなるがソフトを信用する。説明→次ページ

66.

回帰モデルのデータ，関数の流れの整理データ，関数の流れ正規化関数を内部に持つ線形回帰モデル観測データの正規化関数を作成回帰モデル作成観測データ観測データの正規化関数を使用正規化された観測データ観測データ観測データの正規化関数を使用正規化された観測データ新規データ観測データの正規化関数を使用観測データの線形回帰モデルを作成観測データの線形回帰モデルを使用観測データの予測値予測値を得る正規化された新規データ観測データの線形回帰モデルを使用新規データの予測値

67.

正規化関数を内部に持つ線形回帰モデル 1. 観測データをファイルから読み込む。 2. 正規化関数を内部に持つ線形回帰モデルを作成する。 3. 観測データに対して正規化関数を内部に持つ線形回帰モデルを用いて予測する。 4. 観測データに対して正規化関数を内部に持つ線形回帰モデルを用いて予測値と回帰能評価指標を得る。 5. 結果を可視化する。 Predictionsと繋げていなくても線形回帰係数が求まっていることも確認してください。（観測データに対する回帰係数値ですので値は異なります。）

68.

1.04.regression_models_fit.ows

69.

代替モデルの追加 Modelの[Random Forest]を追加して接続。 Random Forestについてはここでは説明しません。 Modelを簡単に追加して結果を見れることを示すためです。

70.

代替モデルの回帰性能 [Predictions] window Random Forest の回帰性能値

71.

タスク３観測データを用いた回帰モデルの評価でなく，訓練データとテストデータに分けた回帰モデルの評価を行いたい。

72.

予測モデル作成と新規データへの適用「観測データから線形回帰モデルを作成して，新規データの予測値を得る。」を行う。そのために，以下の過程を行う。 A)観測データをファイルから読み込む。 B)観測データで交差検定により正規化関数を内部に持つあるハイパーパラメタの回帰予測モデルを作成し予測値と回帰性能を得る。 C)全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。 D)新規データをファイルから読み込む。 E)新規データに対して正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを用いて予測する。 F)結果を可視化する。

73.

1.05. regression_models_CV_step1.ows

74.

Step1 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 A)観測データをファイルから読み込む。 B)観測データで交差検定により正規化関数を内部に持つあるハイパーパラメタの回帰予測モデルを作成し予測値と回帰性能を得る。正規化関数を内部に持つ線形回帰モデルを作成する。 Random Forest回帰を説明しませんが，表示の都合によりRandom Forest をModelsから選択して配置してください。

75.

Lassoと交差検定の設定５回交差検定の場合 ① ③ ②設定する。 ⑤スライダーを動かす。 ④Lassoを選択する。 ⑥値が変わることを確認。

76.

06.regression_models_CV_step2.ows

77.

Step2前半 1. 観測データをファイルから読み込む。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 C) 全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。

78.

Step１とまぜる Step1と混ぜる。 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 C) 全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。

79.

[Save Model]の設定 [Save Model] window ① ② ①Autosaveをチェックする。 ②Save as… でモデル保存ファイルを指定する。例えば，linear_model.pkclsとする。

80.

線形モデルのハイパーパラメタの設定 [Linear Regression]でLassoを用いてハイパーパラメタを妥当な値に設定してください。

81.

Step２後半追加 A) 観測データをファイルから読み込む。 B) 観測データで交差検定により回帰予測モデルを作成し，あるハイパーパラメタの予測値と回帰性能を得る。 C) 全観測データを用いて正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを作成する。 D) 新規データをファイルから読み込む。 E) 新規データに対して正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを用いて予測値と回帰性能を得る。 F) 結果を可視化する。同じファイルを用いる。新規データをファイルから読み込む。新規データに対して正規化関数を内部に持つあるハイパーパラメタの線形回帰モデルを用いて予測値と回帰性能を得る。

82.

（この新規データはｙの値があるので） ③[Predictions]で回帰性能を得る。 ② ③ ④ ① ①[File(1)]では新規データ ”data/x15_sin_new_Orange.csv”を読み込む。 ②[Load Model] windowでは[Save Model]と同じファイルを指定する。 ④[Scatter Plot)(1)]で予測値の可視化をしてください。（注意：[Save Model]でモデルが更新されても[Load Model]は自動的に再読み込むしません。）

83.

07.regression_models_CV_step3.o ws モデルの保存・読み込みを削除して直結することもできます。

84.

論文では，妥当な予測モデルが作れたことで終わる場合が多い。

85.

物質の例ある特定の金属合金の磁気相転移温度𝑇𝑇𝐶𝐶 を予測したい：説明変数希土類元素：原子番号 (カラム名 Z) d,f 軌道の電子配置 (f4,d5)期待値その射影量 (4f, S4f, J4f,(g-1)J4f, (2-g)J4f) 構造由来説明変数：希土類元素の体積あたり数密度 (C_R) Co の体積あたり数密度 (C_T) 元素あたりの体積（vol_per_atom) （構造はAtomWorkから取得し加工済み。）目的変数：磁気相転移温度𝑇𝑇𝐶𝐶 Re Z

86.

87.

[Data Table]を配置。 [Scatter Plot]{Selected Data}-{Data][Data Table (1)]とつなぐ。

88.

②[Scatter Plot]の後ろの[Data Table (1)] window ③マウスで選択したデータが参照できる。 ①マウスで選択。

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

木野日織

関連スライド

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

２０２２年度マテリアルズ・インフォマティクス連続セミナー：回帰

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

２０２２年度マテリアルズ・インフォマティクス連続セミナー：次元圧縮・分類・クラスタリング

各ページのテキスト