２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

２０２２年マテリアルズ・インフォマティクス連続セミナー第一回データ解析学基礎木野日織（きのひおり）

一般人向け（マテリアルズ）インフォマティクスの勉強ソース例（一般的な教科書除く） Scikit-learnの例 (個人的な見方) 玄人向け。コード例から、MIを実践できる人を短時間に育成したい。コード多め目標 Udemy（有料）実践統計数理研究所のリーディングDAT講座（無料と有料あります。） https://www.ism.ac.jp/lectures/leadi ngdat/2022/index.html 理論を知りたい理論キーワード個々多様 Slack上の質問コーナー：明治大学データ化学工学研究室(金子研究室)オンラインサロン（無料） https://datachemeng.com/onlinesalon/ かなり基礎的な質問もあります。マテリアルズインフォマティクスがどういう感じかを知るため： 1. マテリアルズ・インフォマティクス-材料開発のための機械学習超入門-岩崎悠真 (著) 2. マテリアルズ・インフォマティクスII 機械学習を活用したマテリアルDX超入門 -岩崎悠真 (著)

3.

大学関連の勉強ソース「数理・データサイエンス・ＡＩ教育プログラム認定制度」 https://www.mext.go.jp/content/20220824-mxt_senmon01-000188414.pdf 各大学がどのレベルで認可されたか分かる。

https://www.mext.go.jp/content/20220824-mxt_senmon01-000188414.pdf

4.

（マテリアルズ）インフォマティクス(MI)の実践手段 MI実践手段計算機言語 Python Scikitlearn,pymaten。 Deep-learningを行いたいならばほぼ一択。 R 非言語GUI Java MATLAB （有料） Orange Data Mining KNIME (階層構造の一例）少し前までの標準。大量に手法説明の教科書がある。自然言語処理では標準だった。 JavaによるGUIアプリは多い。追加機能が多く販売されている。

5.

動画について講師について：滑舌がよくありません。また、ページにより、話す速度、音の高さが変わっています。ご了承ください。

6.

２０２２年マテリアルズ・インフォマティクス連続セミナー第一回データ解析学基礎木野日織（きのひおり）物質・材料研究機構

7.

今回の内容マテリアルズ・インフォマティクス連続セミナー第一回：データ解析学基礎本連載セミナーでの今回の内容 • データ解析学手法の系統的紹介 • データ解析学手法が用いる帰納法の（再）理解次回以降 scikit-leaｒnを中心したPythonスクリプトの例とその実行によりデータ解析学手法に慣れていただく。動画説明が速い部分は動画を停止、巻戻しなどして御覧ください。動画はセミナー時間外の視聴も可能です。

8.

前置き「データ解析学」＝「機械学習」＝「インフォマティクス」＝「データマイニング」とします。物理・化学と異なりデータ解析学は最近の科学で用語定義が定まっていない用語があります。本セミナーで階層構造図が多くでてきます。まず、階層構造は一意ではありません。更に、用語定義が人により変わることもあり、他の方とは階層構造が大きく異なる定義をする場合もあります。図に書かれないノードも存在します。

9.

動詞語彙計算物理では「計算する」「評価する」、実験では「測定する」「計測する」など→一般的に「観測する」を用いる。計算データも実験データも「観測データ」と呼ぶことにする。観測する観測データカテゴリ分け計算する評価する測定する計測するカテゴリ分け計算データ実験データ

10.

予測問題予測問題演繹的アプローチ帰納的アプローチ支配法則を知っている場合の予測問題支配法則を知らない場合の予測問題 (階層構造の一例）

11.

予測問題予測問題演繹的アプローチ帰納的アプローチ支配法則を知っている場合の予測問題支配法則を知らない場合の予測問題 (階層構造の一例）

12.

演繹アプローチによる予測支配法則を知っている場合例）物体の落下速度の予測目的：落下速度(𝑣)の予測定数：重力定数(𝑔) 物体の速度状態を定義する変数: 質量(𝑚)、摩擦係数(𝑘)、時間(𝑡) 実行過程 𝑑𝑣 １．支配法則を得る：𝑚 = 𝑔𝑚 − 𝑘𝑣 (下を𝑣の正） 𝑑𝑡

13.

演繹的アプローチによる予測実行過程（つづき）２．支配法則を解き、３．得たい変数（𝑚, 𝑘, 𝑡)組に対する𝑣の予測値を生成する。表形式で表す。 ID ID1 ID2 𝑘 𝑘1 𝑘2 𝑡 𝑡1 𝑡2 𝑣 𝑣1 𝑣2 𝑚𝑁 𝑘𝑁 𝑡𝑁 𝑣𝑁 … 𝑚 𝑚1 𝑚2 … IDN 説明変数(𝑥) Ԧ 目的変数(𝑦) それぞれの行をデータインスタンスと呼ぶ。

14.

実行過程ノードが文章の場合支配法則を知っている場合の目的変数値を予測する実行過程 1. 支配法則を表す方程式を得る 2. 予測モデルを得る 3. 未知説明変数の予矢印は実行順序。同時に実行順序を示す番号も表示。測値を得る縦線は具体的な実現方法支配法則の方程式を解く (階層構造の一例）予測モデル𝑣(𝑚, 𝑣, 𝑡) を評価する。

15.

予測問題予測問題演繹的アプローチ帰納的アプローチ支配法則を知っている場合の予測問題支配法則を知らない場合の予測問題 (階層構造の一例）

16.

帰納的アプローチによる予測支配法則を知らない場合 1.（大量の）欠けが無い表形式の観測データがあれば ID 𝑚 𝑘 𝑡 y=𝑣 ID1 𝑚1 𝑘1 𝑡1 𝑣1 ID2 𝑚2 𝑘2 𝑡2 𝑣2 𝑚𝑁 𝑘𝑁 𝑡𝑁 𝑣𝑁 𝑦 関数𝑓 … IDN 2.観測データ{𝑥Ԧ𝑖𝑜𝑏𝑠 , 𝑦𝑖𝑜𝑏𝑠 }に合う関数𝑓を作成すれば、 𝑦𝑖𝑜𝑏𝑠 = 𝑓(𝑥Ԧ𝑖𝑜𝑏𝑠 ）, 𝑥Ԧ = (𝑚, 𝑘, 𝑡) 3. 未知説明変数(𝑥Ԧ𝑖𝑛𝑒𝑤 )に対し𝑦𝑗new の妥当な予測が可能かもしれない。 𝑦𝑗𝑛𝑒𝑤 = 𝑓(𝑥Ԧ𝑗𝑛𝑒𝑤 ) 𝑥Ԧ

17.

用語定義など観測データに対して𝑦~𝑓(𝑥）となる関数𝑓（モデル）を得る過程 Ԧ →モデルを「学習する」という。観測データに合う関数𝑓は「相関」が高い予測モデルを求める。相関の指標の例) 2 1 𝑁 MSE= σ𝑖 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑁 簡単のため𝑦はスカラ。

18.

目的：目的変数の予測支配法則を知らない場合の目的変数値を予測するまとめ (階層構造の一例） 1. （大量の）観測データを得る 2. 予測モデルを学習する 3. 未知説明変数への予測値を得る欠けが無い表形式予測モデルとして相関が高い関数を得る予測モデル 𝑣(𝑚, 𝑣, 𝑡)を評価する。

19.

目的：目的変数の予測支配法則を知っている場合、知らない場合をまとめて書く目的変数値を予測する 1. （大量の）観測データを得る 2. 予測モデルを得る支配法則を知っている場合の予測モデルを得る 1. 支配法則を表す方程式を得る 2. 支配法則の方程式を解く 3. 未知説明変数の予測値を得る支配法則を知らない場合の予測モデルを得る予測モデルとして相関が高い関数を得る文章で番号、矢印が無い階層はカテゴリー分けを示す。 (階層構造の一例）

20.

目的：支配法則を知っている場合の目的変数の予測目的変数値を予測する 1. （大量の）観測データを得る演繹法はこの過程の結果を暗黙知としている。予測の妥当性の根拠となる。 2. 予測モデルを得る支配法則を知っている場合の予測モデルを得る 1. 支配法則を表す方程式を得る 2. 支配法則の方程式を解く 3. 未知説明変数の予測値を得る支配法則を知らない場合の予測モデルを得る予測モデルとして相関が高い関数を得る (階層構造の一例）

21.

目的：支配法則を知らない場合の目的変数の予測目的変数値を予測する 1. （大量の）観測データを得る 2. 予測モデルを得る支配法則を知っこの過程を計算機ている場合の予測モデルを得るを用いて行う。 1. 支配法則を表す方程式を得る 2. 支配法則の方程式を解く 3. 未知説明変数の予測値を得る支配法則を知らない場合の予測モデルを得る予測モデルとして相関が高い関数を得る支配法則を知らないので予測モデルが妥当か分からない。 (階層構造の一例）

22.

帰納的アプローチによる予測モデル学習問題設定： 1. 支配法則が分からない。 2. 適切な説明変数かどうか分からない。 3. （実験）観測データは観測誤差を含む。 4. データに間違いが含まれているかもしれない。 … という条件下で有限個の（大量の）観測データから、目的：未知説明変数の予測をする。支配法則に替わる予測モデルの妥当性の定量的評価が必要

23.

予測モデル学習目的：妥当な予測モデルかの定量評価（汎化性能）仮想的な全データ観測データ未知データ回帰モデル作成妥当性の評価予測モデル適用しかし、データが無い未知データへの定量評価は不可能。 →定量評価の実現手段なし。

24.

予測モデル学習（代替手法）目的：妥当な予測モデルかの定量評価（汎化性能）仮想的な全データ観測データ訓練データテストデータ回帰モデル作成未知データ妥当性の評価予測モデル適用代替手段：訓練データに無いという意味でテストデータで擬似的な未知データへの評価とする。

25.

予測モデル学習の各過程予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

26.

予測モデル学習の各過程予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

27.

予測モデル学習の各過程予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

28.

２. モデル当てはめを行う（１）訓練データに対してある関数を最適化する例：線形回帰モデル 𝑓 𝑥Ԧ = ෍ 𝑤𝑝 𝑥𝑝 + 𝑤0 𝑝 𝑥Ԧ = 𝑥1 , 𝑥2 , … , 𝑥𝑃 𝑤 = 𝑤1 , 𝑤2 , … , 𝑤𝑃 𝑟𝑒𝑔 関数𝐿 𝑡𝑟𝑎𝑖𝑛 𝑁 = σ𝑖 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 訓練データ数： 𝑁 𝑡𝑟𝑎𝑖𝑛 2 𝑛 + 𝛼 𝑤 𝑛 を最小化

29.

２. モデル当てはめを行う（２） 𝑟𝑒𝑔 関数𝐿 1 𝑡𝑟𝑎𝑖𝑛 𝑁 = 𝑡𝑟𝑎𝑖𝑛 σ𝑖 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑁 2 𝑛 + 𝛼 𝑤 𝑛 を最小化第二項目：Lnノルムを含む罰則項 n 1 n=1: 𝑤 1 = σ𝑝 |𝑤𝑝 | 2 n=2: 𝑤 2 = σ𝑝 𝑤𝑝 𝑛 2 定義： 𝑤 𝑚 = 𝑚 ෍ 𝑤𝑝 𝑚 𝑝 ハイパーパラメタ 𝛼 の値を変え、複数の𝐿𝑟𝑒𝑔 を最適化し、回帰モデルを複数個学習します。

30.

予測モデル学習の各過程予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う。 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

31.

３. モデル評価を行う（相関度合いを示す）回帰評価指標: １ MSE = σ𝑁 Ԧ𝑖 𝑖 𝑦𝑖 − 𝑓 𝑥 𝑁 2 . RMSE = MSE. １ MAE = σ𝑁 Ԧ𝑖 |. 𝑖 |𝑦𝑖 − 𝑓 𝑥 𝑁 𝑅2 = 1 − 2 σ𝑁 𝑖 𝑦𝑖 −𝑓 𝑥Ԧ𝑖 σ𝑁 ത 2 𝑖 𝑦𝑖 −𝑦 where 𝑦ത = 小さいほど相関が高い。 [0, ∞] １ 𝑁 , σ𝑁 𝑖 𝑦𝑖 . 大きいほど相関が高い。 [−∞, 1]

32.

３. モデル評価を行う（相関度合いを示す）回帰評価指標を用いてテストデータに対して性能評価指標値を得る。 ← 具体的手段 ← σ𝑁 𝑖 をテストデータに対して行う。（訓練データに対しての性能評価指標値も得られる。 ← 具体的手段 ← σ𝑁 𝑖 を訓練データに対して行う。）

33.

予測予測モデル学習の各過程モデル学習手段予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う。 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

34.

４. モデルを選択する訓練データに対するRMSE 𝑁𝑡𝑟𝑎𝑖𝑛 性能評価指標値からモデルを選択する。 RMSE 𝑡𝑟𝑎𝑖𝑛 = １ ෍ 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑁 𝑖 典型的的な振る舞い RMSE テストデータに対するRMSE 𝑁𝑡𝑒𝑠𝑡 RMSE 𝑡𝑒𝑠𝑡 = 𝑅𝑀𝑆𝐸 𝑡𝑒𝑠𝑡 2 𝑖 𝑅𝑀𝑆𝐸 𝑡𝑟𝑎𝑖𝑛 𝑁𝑡𝑟𝑎𝑖𝑛 α 訓練データに過度に αの選択値学習＝過学習１ ෍ 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑁 関数𝐿𝑟𝑒𝑔 = ෍ 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑖 2 𝑛 +𝛼 𝑤 𝑛 2

35.

（回帰）予測モデル学習指針目的：「“予測モデルとして”相関が高い関数を得る」 𝑦 ほぼ全観測点を通る関数𝑓 ＝過学習したモデルある程度なめらかにした関数𝑓 →より妥当に未知説明変数への妥当な予測●できることが期待される。 𝑥Ԧ

36.

予測モデル学習手段予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う。 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

37.

予測モデル学習手段訓練データ・テストデータに分ける一組の訓練・テストデータに分割する。複数の訓練・テストデータに分割する訓練・テストデータ割合を決めて分割する。交差検定で複数の訓練・テストデータに分割する

38.

予測モデル学習手段訓練データ・テストデータに分ける懸念：特にデータインスタンス数が少ない場合は分け方の影響が大きそう。一組の訓練・テストデータに分割する。複数の訓練・テストデータに分割する訓練・テストデータ割合を決めて分割する。交差検定で複数の訓練・テストデータに分割する (階層構造の一例）

39.

予測モデル学習手段訓練データ・テストデータに分ける一組の訓練・テストデータに分割する。複数の訓練・テストデータに分割する訓練・テストデータ割合を決めて分割する。交差検定で複数の訓練・テストデータに分割する (階層構造の一例）

40.

交差検定５分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練データ #1 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝐿の最適化 𝑓2345 (𝑥) Ԧ 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ #2 回帰モデル #3 テストデータ #1 #2 #3 #4 #5 #4 評価指標値 score1 score2 score3 score4 score5 #5 𝑓1345 (𝑥) Ԧ 𝑓1235 (𝑥) Ԧ ave(score), stddev(score)

41.

予測モデル学習手段予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う。 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

42.

交差検定５分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練データ #1 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝐿の最適化 𝑓2345 (𝑥) Ԧ #2 回帰モデル #3 テストデータ #1 #2 #3 #4 評価指標値 score1 score2 score3 #5 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ 𝑓1345 (𝑥) Ԧ 𝑓1235 (𝑥) Ԧ #4 #5 score4 ave(score), stddev(score) score5

43.

予測モデル学習手段予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う。 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値から妥当なモデルを選択する。 (階層構造の一例）

44.

交差検定５分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練データ #1 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝐿の最適化 𝑓2345 (𝑥) Ԧ #2 回帰モデル #3 テストデータ #1 #2 #3 #4 評価指標値 score1 score2 score3 #5 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ 𝑓1345 (𝑥) Ԧ 𝑓1235 (𝑥) Ԧ #4 #5 score4 ave(score), stddev(score) score5

45.

交差検定での性能評価 RMSE 平均値 ± 𝜎 理想的な振る舞い 𝑅𝑀𝑆𝐸 𝑡𝑒𝑠𝑡 𝑅𝑀𝑆𝐸 𝑡𝑟𝑎𝑖𝑛 α 過学習領域 α選択値（見やすくするために少しだけαの値をずらして書いた。）

46.

典型的なデータ解析例 𝑥Ԧ ID 説明説明変数変数 a b ID1 𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥1𝑎 𝑥1𝑏 説目的明変数変数P 𝑜𝑏𝑠 𝑦1𝑜𝑏𝑠 𝑥1𝑃 ID2 𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥2𝑎 𝑥2𝑏 𝑜𝑏𝑠 𝑦2𝑜𝑏𝑠 𝑥2𝑃 … … IDN … 𝑜𝑏𝑠 obs 𝑥𝑁𝑎 𝑥𝑁𝑏 𝑥Ԧ𝑖 𝑥Ԧ𝑗 𝑥Ԧ𝑘 ID1 i j k ID2 ID3 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 説明変数 index …

47.

説明変数の特徴典型的な解析例）平均と標準偏差を求める。全ての観測データを重ねて書く。 𝑥Ԧ 𝑥Ԧ 平均＋𝜎 平均 index 平均−𝜎 index

48.

説明変数の特徴変数が𝑥1 , 𝑥2 , 𝑥3 と３つとする。 𝑥Ԧ 典型的には 𝑥3 平均＋𝜎 1 平均平均−𝜎 1 2 3 2 3 𝑥3 𝑥1 index 𝑥1

49.

説明変数間の関係（１） 𝑥3 ？ 𝑥3 𝑥1 𝑥1 今は𝑥1 , 𝑥2 , 𝑥3 のみなので容易に分かる。説明変数が多次元だと目で判断するのは大変です。しかし、データ解析学手法の次元圧縮(主成分解析)で解析可能です。

50.

説明変数と目的変数との関係 𝑎 > 0, 𝑐 > 0 ●濃淡:𝑦の値 𝑥3 𝑥3 𝑥3 𝑥1 𝑦~𝑎𝑥1 + 𝑐𝑥3 𝑦~𝑎𝑥1 𝑦~𝑐𝑥3 𝑥1 𝑦~𝑎𝑥1 − 𝑐𝑥3 𝑦~𝑎𝑥1 𝑦~ − 𝑐𝑥3 𝑥1 𝑦は𝑥1 , 𝑥3 とは相関がほぼ無い。 y~𝑓(𝑥2 ) ？回帰を行う前、そして回帰予測モデルの解析に活かせる。

51.

説明変数間の関係（２） 𝑦 𝑥2 𝑦 カテゴリー分けできれば、 𝑥1 単一モデルで妥当に回帰できない・・・ 𝑥1 𝑥1 （多次元空間でも、）説明変数空間で分布が分離している。カテゴリー毎に容易に妥当な回帰モデルが学習できる。多次元では人が行うのは大変です。クラスタリングでカテゴリー分けできます。

52.

データ解析学手法データ解析学手法既に収集されたデータを用いる手法目的のために随時にデータを収集する手法説明変数間の関係性を見つける＝教師なし学習目的変数の予測＝教師あり学習 𝑦~𝑓(𝑥） Ԧ 量的目的変数質的目的変数回帰分類量的目的変数次元圧縮クラスタリング {𝑥}のみ Ԧ 強化学習質的目的変数データ集約ベイズ最適化頻出パタンマイニング (階層構造の一例）

53.

データ解析学手法の紹介データ解析学手法既に収集されたデータを用いる手法 𝑦~𝑓(𝑥） Ԧ 目的変数の予測＝教師あり学習目的のために随時にデータを収集する手法説明変数間の関係性を見つける＝教師なし学習 {𝑥}のみ Ԧ (階層構造の一例）

54.

データ解析学手法の紹介データ解析学手法既に収集されたデータを用いる手法 𝑦~𝑓(𝑥） Ԧ 目的変数の予測＝教師あり学習目的のために随時にデータを収集する手法説明変数間の関係性を見つける＝教師なし学習 {𝑥}のみ Ԧ (階層構造の一例）

55.

用語変数のカテゴリー分け変数量的変数質的変数：名前；大小や差を定義できる。連続変数：数値が連続的に繋がる変数離散変数：特定の値しか取らない変数。例）原子番号、陽子数、中性子数を決めた元素質量質的変数/カテゴリー変数質的変数：名前；大小や差を定義できない。例）元素名、構造類型名連続変数離散変数 (階層構造の一例）

56.

予測モデル目的変数の予測量的変数のもっともらしい関数を求める＝回帰(regression) 質的変数のもっともらしい関数を求める＝分類 (classification) 量的目的変数の予測質的目的変数の予測回帰分類 (階層構造の一例）

57.

データ解析学ライブラリの仮定事項（１）一般的なデータ解析学ライブラリは • 説明変数ベクトル𝑥が等長 Ԧ • 観測データの値に欠けが無いことを仮定しています。

58.

一般的な回帰モデル観測データ ID 説明変数a 説明変数b … 説明変数P ID1 𝑜𝑏𝑠 𝑥1𝑎 𝑜𝑏𝑠 𝑥1𝑏 𝑜𝑏𝑠 𝑥1𝑃 𝑦1𝑜𝑏𝑠 ID2 𝑜𝑏𝑠 𝑥2𝑎 𝑜𝑏𝑠 𝑥2𝑏 𝑜𝑏𝑠 𝑥2𝑃 𝑦2𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 … … 𝑜𝑏𝑠 𝑥𝑁𝑎 obs 𝑥𝑁𝑏 ID 説明変数a 説明変数b ID1 𝑛𝑒𝑤 𝑥1𝑎 𝑛𝑒𝑤 𝑥1𝑏 𝑛𝑒𝑤 𝑥1𝑃 ID2 𝑛𝑒𝑤 𝑥2𝑎 𝑛𝑒𝑤 𝑥2𝑏 𝑛𝑒𝑤 𝑥2𝑃 IDN 目的変数未知データ … … 説明変数P 1. 説明変数のサイズが同じ。 2. 全てのセルが値を持つ。

59.

生データと加工済データまた別の例）第一原理計算による全エネルギー（𝐸)予測問題 𝐸𝑖 = 𝑓(周期構造定義i, {元素・原子位置}i）生の説明変数結晶構造ID 周期構造定義元素・原子位置全エネルギー ID1 𝑎Ԧ1 , 𝑏1 , 𝑐Ԧ1 (𝑍𝑎1 , 𝑃𝑎1 ) 𝐸1 ID2 𝑎2 , 𝑏2 , 𝑐Ԧ2 (𝑍𝑎2 , 𝑃𝑎2 ) , (𝑍𝑏2 , 𝑃𝑏2 ) 𝐸2 ID3 𝑎Ԧ3 , 𝑏3 , 𝑐Ԧ3 (𝑍𝑎3 , 𝑃𝑎3 ) , (𝑍𝑏3 , 𝑃𝑏3 ), (𝑍𝑐3 , 𝑃𝑐3 ) 𝐸3 …

60.

第一原理計算による全エネルギー予測問題の生の説明変数の問題点元素、原子位置は数が異なりうる。（つまり𝑥が非等長） Ԧ 𝑥が等長では無いので一般的な回帰モデルを使えない。 Ԧ 更に、 𝑎, Ԧ 𝑏, 𝑐順序を変えても同じ周期構造を定義できる。 Ԧ 同元素間で原子位置を交換しても結晶が不変。元素、原子位置記載順序を変えても結晶が不変。という特徴を表せない。

61.

説明変数の加工（１）目的：等長ベクトル𝑥に対する𝑦 Ԧ = 𝑓 𝑥Ԧ の形にしたい。手段：加工例）動径分布関数RDF(𝑟𝑖 ) ID RDF(𝑟𝑎 ) RDF(𝑟𝒃 ) ID1 𝑜𝑏𝑠 𝑥1𝑎 𝑜𝑏𝑠 𝑥1𝑏 𝑜𝑏𝑠 𝑥1𝑃 𝑦1𝑜𝑏𝑠 ID2 𝑜𝑏𝑠 𝑥2𝑎 𝑜𝑏𝑠 𝑥2𝑏 𝑜𝑏𝑠 𝑥2𝑃 𝑦2𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 RDF(𝑟𝑷 ) 目的変数 … … IDN … 𝑜𝑏𝑠 𝑥𝑁𝑎 obs 𝑥𝑁𝑏 (𝑟1 , 𝑟2 , … , 𝑟𝑃 )を定めると等長ベクトル 𝑥Ԧ = (𝑅𝐷𝐹 𝑟1 , 𝑅𝐷𝐹 𝑟2 , … , 𝑅𝐷𝐹 𝑟𝑃 ) になる。

62.

データ解析学ライブラリの仮定事項（２） • 無単位 • 説明変数の値の範囲がほぼ同じ

63.

説明変数の加工（２）例）物体の落下速度の予測の説明変数の単位 • 質量𝑚[重さ] • 摩擦係数𝑘[重さ/時間] • 時間𝑡[時間] 説明変数の単位が異なる。そして、 • 環境：気体中？液体中？ • 物体の重さの範囲：車？隕石？時計？ペン？ • 時間：hour, min, sec, msec,… などで想定している値の範囲も異なる。

64.

説明変数の加工（２）無次元、かつ値の変化幅をほぼ等しくする＝データ規格化を行う。例） • Min-Max Normalization: [0,1]への変換。 • Z-score Normalization: 平均値0, 標準偏差1の分布への変換。（データ解析学を適用するライブラリはデータ規格化後の説明変数を用いることを想定しているからです。）

65.

説明変数の加工まとめ (データ解析学ライブラリに適用できる)説明変数を得る 1. 生の説明変数を得る 2. 等長ベクトルへ物理変換をする 3. データ規格化をする Min-Max Normalization Z-score Normalization (階層構造の一例）

66.

回帰目的変数が量的変数回帰線形回帰カーネル回帰ニューラルネットワーク回帰分解木回帰 (階層構造の一例）

67.

回帰目的変数が量的変数回帰線形回帰カーネル回帰ニューラルネットワーク回帰分解木回帰 (階層構造の一例）

68.

線形回帰とカーネル回帰 1 𝑟𝑒𝑔 関数𝐿 = σ𝑁 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2𝑁 𝑖 2 𝑛 + 𝛼 𝑤 𝑛 を最小化第一項目線形回帰カーネル回帰 𝑁 𝑃 𝑓 𝑥Ԧ = ෍ 𝑤𝑝 𝑥𝑝 + 𝑤0 𝑝 𝑥Ԧ = 𝑥1 , 𝑥2 , … , 𝑥𝑃 𝑤 = 𝑤, 𝑤2 , … , 𝑤𝑃 𝑓 𝑥Ԧ = ෍ 𝑤𝑖 𝐾(𝑥, Ԧ 𝑥Ԧ𝑖 ) カーネル𝐾の例： RBFカーネル：𝐾 𝑥, Ԧ 𝑥′ 𝑖 = exp(−𝛾 𝑥Ԧ − 𝑥 ′ 2 2 ) RBF＝radial basis function γもハイパーパラメタ。

69.

カーネル回帰考慮すると評価指標値が小さくなる点目的変数 ○の濃淡~|𝑤𝑖 | 𝑁 𝑓 𝑥Ԧ = ෍ 𝑤𝑖 𝐾(𝑥, Ԧ 𝑥Ԧ𝑖 ) 𝑖 ？ RBFカーネル：距離が近いデータインスタンスの寄与がガウシアンの依存性で減衰する。係数：矛盾するデータインスタンスの寄与を小さくなる。説明変数 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 説明変数空間で距離が大きい距離が小さい 𝒙 𝒙𝟓 𝒙𝟔 𝒙𝟕

70.

類似度と距離類似度類似度ユークリッド距離=L2ノルムと同じ類似度実装＝距離データインスタンス間類似度マンハッタン距離＝L1ノルムと同じコサイン距離＝ベクトル間のコサイン (階層構造の一例） cos((𝑥Ԧ1 , 𝑥Ԧ2 )/(|𝑥Ԧ1 ||𝑥Ԧ2 |)) 説明変数間類似度

71.

距離（類似度実装）選択 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 𝒙 𝒙𝟓 𝒙𝟔 𝒙𝟕 RBFカーネル 𝐾 𝑥, Ԧ 𝑥 ′ = exp(−𝛾 𝑥Ԧ − 𝑥′ Ԧ 2) 近傍データインスタンスの寄与が (ユークリッド距離)2で減衰する。データによっては他の距離実装の方が良いかもしれない。例）ユークリッド距離 𝐾 𝑥, Ԧ 𝑥 ′ = exp(−𝛾 𝑥Ԧ − 𝑥Ԧ ′ ) ユークリッド距離の一乗で減衰。マンハッタン距離 𝐾 𝑥, Ԧ 𝑥′ = exp(−𝛾 𝑥Ԧ − 𝑥 ′ 1 1 ) これらカーネルの距離依存性もまたパラメタ。

72.

一連のIf文（決定木）による回帰モデル回帰決定木 If x1 >= xvalue1 then if x2>=xvalu2A then y = yvalue1 else y = yvalue2 Else … Endif 目的変数値は離散値になります。線形回帰カーネル回帰ニューラルネットワーク回帰決定木回帰単一決定木回帰アンサンブル決定木回帰ランダムフォレスト回帰 (階層構造の一例）

73.

分類目的変数値の予測量的目的変数質的目的変数回帰分類質的変数：元素名：Si, H, Co, … 構造類型: bcc, fcc, hcp

74.

分類ロジスティック回帰線形関数𝑓（𝑥）に対して、 Ԧ 𝑛 𝑐𝑙𝑠 Ln罰則項を含む𝐿 = 𝑤 𝑛 + 𝐶 σ𝑖 log(exp −𝑦𝑖 𝑓 𝑥Ԧ𝑖 )2 を最小化二値分類の場合：あるクラスと予測される確率 1 𝑃 𝑥Ԧ = 1 + exp(−𝑓 𝑥 ) 別なクラスと予測される確率は1 − 𝑃 𝑥Ԧ

75.

分類ロジスティック回帰多値分類の手法例： One-vs-Rest法：クラス1確率： P1 𝑥Ԧ ,クラス1でない確率： 1 − 𝑃1 𝑥Ԧ クラス2確率： P2 𝑥Ԧ ,クラス2でない確率： 1 − 𝑃2 𝑥Ԧ クラス3確率： P2 𝑥Ԧ ,クラス3でない確率： 1 − 𝑃3 𝑥Ԧ 最も確率が大きいクラス名を予測値とする。

76.

分類ロジスティック回帰分類ロジスティック回帰ロジスティック回帰, n=1 決定木分類ロジスティック回帰, n=2 二値分類ロジスティック回帰多値分類ロジスティック回帰 One-vs-Rest法を用いたロジスティック回帰多項ロジスティック回帰 (階層構造の一例）

77.

分類データ分割手法は回帰と同じく訓練データとテストデータに分け、更に交差検定などを用います。

78.

予測モデル学習手段予測モデルとして相関が高い関数を得る 1. 観測データ分割を行う。 2. モデル当てはめを行う 3. モデル評価を行う 4. モデルを選択する訓練データ・テストデータに分ける訓練データに対してある関数を最適化するテストデータに対して性能評価指標値を得る性能評価指標値からモデルを選択する。 (階層構造の一例）

79.

分類評価指標(1) 評価指標混同行列例予測値分類評価指標混同行列二値分類混同行列観測値回帰評価指標 bcc bcc 8 fcc 1 hcp 3 misc 1 多値分類混同行列 (階層構造の一例） fcc 0 5 2 2 hcp misc 6 0 6 8 17 2 9 33

80.

分類評価指標(2) 二値分類混同行列評価指標分類評価指標観測値回帰評価指標予測値混同行列二値分類混同行列多値分類混同行列 (階層構造の一例）陽性陰性陽性真陽性 True Positive (TP) 偽陰性 False Negative (FN) 陰性偽陽性 False Positive (FP) 真陰性 True Negative (FN)

81.

分類評価指標(３) 評価指標回帰評価指標分類評価指標混同行列から得られる評価指標混同行列正答率再現率 (階層構造の一例）適合率 F1スコア

82.