２０２２年度マテリアルズ・インフォマティクス連続セミナー：次元圧縮を併用したクラスタリング、トモグラフ像の復元

6.9K Views

January 09, 23

#マテリアルズ・インフォマティクス #データ解析学 #セミナー #クラスタリング #次元圧縮 #トモグラフ像

スライド概要

マテリアルズ・インフォマティクス連続セミナー第四回
ソースコード：https://bitbucket.org/kino_h/python_mi_seminar_2023/src/master/ .
動画：https://youtu.be/4CEa3mb1vug .
右側の「ダウンロード」からpdfダウンロード可能。

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 75.2K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナープログラミング大規模言語モデル

木野日織 49K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

マテリアルズ・インフォマティクスセミナーデータ解析学基礎機能分解木

木野日織 47.7K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 47.2K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

マテリアルズ・インフォマティクスデータ解析学ベイズ最適化推薦システム

木野日織 25.6K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナー次元圧縮クラスタリング分類

木野日織 18.7K

各ページのテキスト

２０２２年度マテリアルズ・インフォマティクス連続セミナー第四回木野日織（きのひおり）

内容 110.次元圧縮を併用したクラスタリング 120.トモグラフ像の復元

受講方法 urlまとめ: https://www.docswell.com/s/3465680103/5878EK-2023-01-09-213227 レポジトリ: 今回、レポジトリ内容を更新し、レポジトリにスライドを含めました。レポジトリ先も変更しており、スクリプトも修正しています。新レポジトリから再度ダウンロードをお願いいたします。→urlまとめへ動画: Youtube動画ですので、速くも遅くも動画再生速度を変更できます。必要に応じて更に停止してご覧ください。→urlまとめへスライド: レポジトリと重複しますが、スライドもdocswellにuploadしてあります。→urlまとめへ

https://www.docswell.com/s/3465680103/5878EK-2023-01-09-213227

レポジトリのみの方 ② ① ③

１１０．次元圧縮を併用したクラスタリング

[A]問題の背景説明 040.050, ガウス混合法によるクラスタリングクラスタリング：全説明変数（１５次元）表示図：次元圧縮後の二次元表示図では各クラスターの原子環境が混ざっているように見える。近接原子４つ近接原子２つ近接原子３つ低次元では混ざっているだけ？ “低次元”でクラスタリングした方が妥当なのでは？ “低次元”の方が妥当にクラスタリングできることはよくある話です。全データインスタンスで答え合わせができる観測データを用いて行います。

[B]元観測データ四元等比固溶体全電子第一原理計算のセミコアエネルギー領域(フェルミ順位からマイナス数Ryのエネルギー領域)の電子状態密度（DOS）計算過程四元元素を指定入力 AkaiKKR 出力物理量 DOSもその一つ第一原理計算（演繹法）の因果関係原因セミコア順位を持つ元素が含まれる結果その元素の特徴を持つセミコアエネルギー領域のDOSが観測される。

[C]スクリプトで使用する観測データ簡単のため、セミコアエネルギー領域にセミコア順位を持つ元素を一つだけ含む元素組み合わせを選択する。演繹法での原因セミコア順位を持つ一つの元素演繹法による計算演繹法での結果その元素の特徴を持つDOS

[D]用語順問題演繹法での原因演繹法での結果逆問題原因と結果が1対1対応順問題逆問題ある物質のスペクトルを観測する。あるスペクトルを持つ物質を同定する。原因と結果が1対N対応順問題逆問題ある物質の物性値を観測する。最適な物性値を持つ物質を得る。ある実験条件で目的物質の収率を観測する。目的物質の最適な収率の実験条件を得る。

10.

[E]スクリプトの問題設定セミコア元素の特徴を持つDOS 逆問題該当するセミコア元素を説明変数空間でクラスタリングする。セミコア元素を答え（ラベル）として持っているので答え合わせもする。ただし、問題設定はクラスタリング（教師なし学習）とする。

11.

[F]生観測データクラスタリングの答え合わせに用いるのみ。説明変数：𝑋(𝑁, 𝑃) 𝑦（N) log10 DOS(𝐸1 ) log10 DOS(𝐸𝟐 ) … log10 DOS(𝐸𝐏 ) セミコア元素 𝑃: 100（生観測データの説明変数） 𝑁: 600 (K=12セミコア元素、それぞれ50データインスタンス）

12.

[G]DOS例 Scを含む50データインスタンス valence Log10 (DOS(𝐸)) 𝐸 𝐸𝐹 Green関数からDOSを計算する際に、小さなImaginary partを入れているのでDOS(E)=0にはならない。 Phys. Rev. Materials 6, 023802 (2022).

13.

[H]目的と実行過程目的：次元圧縮した後にクラスタリングして、答え合わせをする。実行過程 0. 生説明変数P=１００次元 1. P＝１００次元を“次元圧縮”する。 2. “次元圧縮”後の次元（NDIM)でクラスタリングする。 3. 答え合わせをして妥当性を評価する。

14.

[I]実行過程詳細 1. 次元圧縮 a. 全説明変数を用いる。 DR_TYPE=“none” 、SECOND_DR_TYPE=“none”とする。NDIM=𝑃=100。 b. 次元圧縮する。次元圧縮手法：DR_TYPE=“pca”、 SECOND_DR_TYPE=“none”、NDIM：圧縮後の次元を指定する。 2. NDIM次元の加工済み説明変数を用いてクラスタリングを行う。クラスター数(K)は12と固定する。 RANDOM_SEED: K-means法で用いる乱数SEED。 3. 答えがあるので“一致度”を定量評価する。 4. NDIM vs 形式的なaccuracyで比較可視化する。（スクリプトには含まれない。）

15.

[J] 次元圧縮とクラスタリング過程前ページの1.2.3.部分観測データを得る全説明変数数Pを得る次元圧縮とクラスタリングを行い”一致度”を評価する次元圧縮を行うか選択する次元圧縮を行わない。 /DR_TYPE=“none ” PCAで次元圧縮を行う /DR_TYPE=“pca ” NDIM=Pとする。圧縮後次元を NDIMで指定する。 K-Means法でクラスタリングを行う “一致度”を評価する乱数 /RANDOM_SEEDを指定する分類の評価指標 accuracyを用いる

16.

[K]結果 RANDOM_SEEDとDR_TYPE, NDIMを変えて10回実行し、平均値と標準偏差を示す。オレンジ色：PCAの NDIMを変えた場合。青色：全次元を用いいた場合。木野日織、ダムヒョウチ「Pythonではじめるマテリアルズインフォマティクス」103ページ →全次元を用いないほうが妥当なクラスタリングを行えている。

17.

[L]結果解釈 K-means法が行うこと説明変数(次元：NDIM)空間で、ユークリッド距離を用いてなるべく分離したクラスターを求める。全次元でのデータインスタンス間距離より、うまく次元圧縮したデータインスタンス間距離の方がより妥当なデータインスタンス間の距離を表すため、より妥当なクラスタリングを行えた、と解釈できる。

18.

[M]PCAが行うこと各セミコア元素に対するDOS例右図でPeakがある𝐸1 から𝐸4 を考える。例えば、 Log10 DOS(𝐸4 )は他の𝐸𝑖 より差が小さいので100説明変数あるPCAの上位ではおそらく重要な寄与として選択されないのではないかと懸念されます。 Log10 (DOS(𝐸)) PCAが行うこと：「分散が大きい説明変数軸を線形変換して選択する。」 𝐸4 の寄与も大きくなるよう考慮した方が妥当にカテゴリ分けできるだろう。 𝐸1 , 𝐸2 , 𝐸3 , 𝐸4

19.

[N]この方向の性能向上方式仮説より妥当にクラスタリングするには？ Peak/dipがエネルギー幅を持つので、DOSがスペクトルデータ（定義：生データでは定量性だけでなく、並びにも意味がある一次元データ）であることを利用してエネルギーで説明変数をぼかすと𝐸4 の寄与を大きくできる。(DR_TYPE=“smearning”とする。) t-SNEで次元圧縮後にクラスタリングする。(SECOND_DR_TYPEで指定できる。）など、が考えられる。（新帰納法なので実際に性能向上するかは実験して確かめる。）

20.

[O] 次元圧縮とクラスタリング過程（２）次元圧縮とクラスタリングを行い”一致度”を評価する次元圧縮を行うか選択する t-sneで二次元に変換する /SECOND_DR_TYPE =“tsne” K-Means法でクラスタリングを行う “一致度”を評価する次元圧縮を行わない。 /DR_TYPE=“none ” PCAで次元圧縮を行う /DR_TYPE=“pca ” SmearingでNDIM に加工する。 /DR_TYPE=“smea ring” 乱数 /RANDOM_SEEDを指定する分類の評価指標 accuracyを用いる NDIM=Pとする。圧縮後次元を NDIMで指定する。観測データを得る全説明変数数Pを得る追加

21.

[P]結果（２） SECOND_DR_TYPE=“tsne”として、 RANDOM_SEEDとDR_TYPE, NDIMを変えて10回実行し、平均値と標準偏差を示す。第一段階緑色：smearnig でNDIMに変換。オレンジ色： PCAでNDIMに次元圧縮。第二段階 [K]でsmearningした方が安定して妥当。更に、tsneで二次元に次元圧縮してからクラスタリングする。 t-sne後にクラスタリングしたほうが妥当。更に、前処理として”pca”もしくは”smearning“したほうがより妥当。青色：全次元を用いる。木野日織、ダムヒョウチ「Pythonではじめるマテリアルズインフォマティクス」103ページ

22.

１２０．トモグラフ像の復元

23.

[A]問題の背景 010.110の最後の図同じ観測データで交差検定（CV)により異なる訓練データの分け方（横軸）をした場合の線形回帰モデル係数（縦軸）の比較。異なる色はそれぞれの係数。 Lasso 罰則項無し線形回帰 Ridge 回帰 Lassoは 1. 大域最小解(線形回帰モデルの係数）が一意に求まる。 2. ノイズに強い。（本来は同じ観測点に対する観測誤差のこと。） →この特徴を利用して問題解決する。

24.

[B]（並行ビーム系）トモグラフ像の撮影と復元撮影 𝑦7 𝑦8 𝑦 9 ？ 𝑤4 𝑤5 𝑤6 𝑤7 𝑤8 𝑤9 復元 𝑦5 物質(𝑤𝑝 ) 𝑤1 𝑤2 𝑤3 𝑦4 𝑦6 角度＝０ 𝑦1 𝑦2 𝑦3 角度＝𝜃1 様々な角度での物質の吸収率(𝑦𝑖 ) を観測する。 … 𝑦𝑖 から物質(𝑤𝑝 ) を計算する。

25.

[C]𝑤𝑝 と𝑦𝑖 の関係(1) 角度＝０の場合 𝑤1 𝑤= ⋮ 𝑤9 𝑤1 𝑤2 𝑤3 𝑦1 𝑤4 𝑤5 𝑤6 𝑦2 𝑤7 𝑤8 𝑤9 𝑦3 𝑦1 𝑦2 = 𝑋𝜃=0 𝑤 𝑦3 𝑋𝜃=0 1 1 = 0 0 1 0 1 1 0 1 1 0 0 1 1

26.

[D] 𝑤𝑝 と𝑦𝑖 の関係(2) 角度＝ 𝜃1 回転角𝜃1 𝑤1 𝑤4 𝑤7 𝑤2 𝑤5 𝑤8 𝑤3 𝑤6 𝑤9 𝑦4 𝑦5 𝑦6 𝑦4 𝑦5 = 𝑋𝜃 𝑤 𝑦6 任意の𝜃に対して𝑋𝜃 の計算が予め可能。

27.

[E]𝑤𝑝 , 𝑋, 𝑦𝑖 の関係をまとめる複数の角度のトモグラフ像𝑦1 , … , 𝑦𝑁 を全て観測しても 𝑦Ԧ = 𝑋 𝑤 𝑦Ԧ = 𝑦1 𝑦2 𝑦3 𝑦4 𝑦5 𝑦6 ⋮ とまとめられる。すべてをまとめた配列：𝑦(N), Ԧ 𝑋(N,P), 𝑤(P) 𝑋𝜃=0 𝑋 = 𝑋𝜃=𝜃1 ⋮

28.

[F]回転した場合の𝑦𝑖 への割り振り Scikit-learnの例 𝑤3 中心 3 7 𝑤3 𝑦4 += 0.7𝑤3 𝑦5 += 0.3𝑤3

29.

[G]トモグラフ像の復元 𝑦(N), Ԧ 𝑋(N,P), 𝑤 (P),ここで、方程式の数N、未知数P。 a. トモグラフ像の撮影は𝑦Ԧ = 𝑋𝑤 b. トモグラフ像の復元は𝐿 = |𝑦Ԧ − 𝑋𝑤|2 を最小化する𝑤を求めること。解き方： 1. 原理的にはN=Pで𝑤 が求まる。 2. しかし、実際の観測では誤差が含まれるため共線性を持ち、Lを直接最適化する場合にも局所最小解𝑤を多く持つ。そのため、できるだけ多くのNの𝑦を得て、エントロピー最大などの Ԧ 付加条件を付けて解を得る。 3. 一方、𝐿は線形回帰の場合の最適化関数と同じであり、 𝑤 がスパースである（0が多い）場合にLassoで解を求めることが可能となる。本スクリプトでは、𝐿1 = 𝑦Ԧ − 𝑋 𝑤 + 𝛼 𝑤 1 を最小化して𝑤を求めてみる。

30.

[H]Lassoの特徴更に、𝐿1 = 𝑦Ԧ − 𝑋 𝑤 + 𝛼 𝑤 1 を最小化する場合はN<P（方程式より未知数が多い場合）でも一意に解が求まるため、観測の効率化につながる。 120.050ではN=P/D, D=4としてトモグラフ像を撮影して、復元する。

31.

[I]観測データ文字フォント(64,64) 地部分（下図の白色）、文字部分（黒色）の二値。 L64 𝑦𝑖 𝑦𝑖+1 𝑦𝑖+2 ⋮ https://commons.wikimedia.org/wiki/File:Old_English_ty peface.svg zen64, syou64, dance64 「筆文字フリー素材集」http://fudemoji-free.com/より

http://fudemoji-free.com/

32.

[J]応用先 Q.トモグラフ像の復元という特殊な問題か？ A.例えば、フーリエ変換、フーリエ級数展開も𝑦＝𝑋𝑤という形です。 Ԧ 観測値𝑦に対して逆変換後の空間𝑤がスパースであることを仮定して意味がある情報を得ようとする場 Ԧ 合も多くあります。このような空間𝑤がスパースな場合にL1罰則項を付加して最適化することにより少ない数の𝑦(N)から多 Ԧ くの数の 𝑤 (P)を求めることが可能です。 Scikit-learnの例ではN=P/10でも画像の復元が可能です。ブラックホールの撮影もLassoによりなされました。 • Mareki Honma, Kazunori, Akiyama, Fumie Tazaki, Kazuki Kuramochi, Shiro Ikeda, Kazuhiro Hada, and Makoto Uemura, “Imaging black holes with sparse modeling”, Journal of Physics: Conference Series, 699, 012006, (2016). • The Astrophysical Journal Letters, Volume 875, Number 1 (2019). ブラックホール撮影特集号

33.

本日のセミナー内容は以上です。