2022年度マテリアルズ・インフォマティクス連続セミナー:次元圧縮を併用したクラスタリング、トモグラフ像の復元

2.7K Views

January 09, 23

スライド概要

マテリアルズ・インフォマティクス 連続セミナー 第四回
ソースコード:https://bitbucket.org/kino_h/python_mi_seminar_2023/src/master/ .
動画:https://youtu.be/4CEa3mb1vug .
右側の「ダウンロード」からpdfダウンロード可能。

profile-image

マテリアルズインフォマティクスチュートリアル

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2022年度 マテリアルズ・インフォマティクス 連続セミナー 第四回 木野日織(きのひおり)

2.

内容 110.次元圧縮を併用したクラスタリング 120.トモグラフ像の復元

3.

受講方法 urlまとめ: https://www.docswell.com/s/3465680103/5878EK-2023-01-09-213227 レポジトリ: 今回、レポジトリ内容を更新し、レポジトリにスライドを含めました。レポジトリ先も変 更しており、スクリプトも修正しています。新レポジトリから再度ダウンロードをお願い いたします。→urlまとめへ 動画: Youtube動画ですので、速くも遅くも動画再生速度を変更できます。必要に応じて更に停 止してご覧ください。→urlまとめへ スライド: レポジトリと重複しますが、スライドもdocswellにuploadしてあります。→urlまとめへ

4.

レポジトリのみの方 ② ① ③

5.

110.次元圧縮を併用したクラスタリング

6.

[A]問題の背景説明 040.050, ガウス混合法によるクラスタリング クラスタリング:全説明変数(15次元) 表示図:次元圧縮後の二次元 表示図では各クラスターの原子環境が 混ざっているように見える。 近接原子4つ 近接原子2つ 近接原子3つ 低次元では混ざっているだけ? “低次元”でクラスタリングした 方が妥当なのでは? “低次元”の方が妥当にクラスタリン グできることはよくある話です。 全データインスタンスで答え合わせが できる観測データを用いて行います。

7.

[B]元観測データ 四元等比固溶体全電子第一原理計算のセミコアエネルギー領域(フェルミ順位か らマイナス数Ryのエネルギー領域)の電子状態密度(DOS) 計算過程 四元元素を指定 入力 AkaiKKR 出力 物理量 DOSもその一つ 第一原理計算(演繹法)の因果関係 原因 セミコア順位を持つ元素が 含まれる 結果 その元素の特徴を持つセミコアエネ ルギー領域のDOSが観測される。

8.

[C]スクリプトで使用する観測データ 簡単のため、セミコアエネルギー領域にセミコア順位を持つ元素を一つだけ含む元素組み 合わせを選択する。 演繹法での原因 セミコア順位を持つ 一つの元素 演繹法による計算 演繹法での結果 その元素の特徴を持つDOS

9.

[D]用語 順問題 演繹法での原因 演繹法での結果 逆問題 原因と結果が1対1対応 順問題 逆問題 ある物質のスペクトルを観測する。 あるスペクトルを持つ物質を同定する。 原因と結果が1対N対応 順問題 逆問題 ある物質の物性値を観測する。 最適な物性値を持つ物質を得る。 ある実験条件で目的物質の収率を観測する。 目的物質の最適な収率の実験条件を得る。

10.

[E]スクリプトの問題設定 セミコア元素の特徴を 持つDOS 逆問題 該当するセミコア元素を説明変数空間 でクラスタリングする。 セミコア元素を答え(ラベル)として 持っているので答え合わせもする。 ただし、問題設定はクラスタリング(教 師なし学習)とする。

11.

[F]生観測データ クラスタリングの 答え合わせに用い るのみ。 説明変数:𝑋(𝑁, 𝑃) 𝑦(N) log10 DOS(𝐸1 ) log10 DOS(𝐸𝟐 ) … log10 DOS(𝐸𝐏 ) セミコア元素 𝑃: 100(生観測データの説明変数) 𝑁: 600 (K=12セミコア元素、それぞれ50データインスタンス)

12.

[G]DOS例 Scを含む50データインスタンス valence Log10 (DOS(𝐸)) 𝐸 𝐸𝐹 Green関数からDOSを計算する際に、小さなImaginary partを入れているのでDOS(E)=0にはならない。 Phys. Rev. Materials 6, 023802 (2022).

13.

[H]目的と実行過程 目的:次元圧縮した後にクラスタリングして、答え合わせをする。 実行過程 0. 生説明変数P=100次元 1. P=100次元を“次元圧縮”する。 2. “次元圧縮”後の次元(NDIM)でクラスタリングする。 3. 答え合わせをして妥当性を評価する。

14.

[I]実行過程詳細 1. 次元圧縮 a. 全説明変数を用いる。 DR_TYPE=“none” 、SECOND_DR_TYPE=“none”とする。NDIM=𝑃=100。 b. 次元圧縮する。 次元圧縮手法:DR_TYPE=“pca”、 SECOND_DR_TYPE=“none”、NDIM:圧縮 後の次元を指定する。 2. NDIM次元の加工済み説明変数を用いてクラスタリングを行う。 クラスター数(K)は12と固定する。 RANDOM_SEED: K-means法で用いる乱数SEED。 3. 答えがあるので“一致度”を定量評価する。 4. NDIM vs 形式的なaccuracyで比較可視化する。(スクリプトには含まれない。)

15.

[J] 次元圧縮とクラスタリング過程 前ページの1.2.3.部分 観測データを得 る 全説明変数数Pを 得る 次元圧縮とクラ スタリングを行 い”一致度”を 評価する 次元圧縮を行う か選択する 次元圧縮を行わ ない。 /DR_TYPE=“none ” PCAで次元圧縮を 行う /DR_TYPE=“pca ” NDIM=Pとする。 圧縮後次元を NDIMで指定する。 K-Means法でクラ スタリングを行 う “一致度”を評 価する 乱数 /RANDOM_SEEDを 指定する 分類の評価指標 accuracyを用い る

16.

[K]結果 RANDOM_SEEDとDR_TYPE, NDIMを変えて10回実行し、 平均値と標準偏差を示す。 オレンジ色:PCAの NDIMを変えた場合。 青色:全次元を 用いいた場合。 木野日織、 ダム ヒョウ チ「Pythonではじめるマテリア ルズインフォマティクス」103ページ →全次元を用いないほう が妥当なクラスタリング を行えている。

17.

[L]結果解釈 K-means法が行うこと 説明変数(次元:NDIM)空間で、 ユークリッド距離を用いて なるべく分離したクラスターを求める。 全次元でのデータインスタンス間距離より、 うまく次元圧縮したデータインスタンス間距離の方が より妥当なデータインスタンス間の距離を表すため、より 妥当なクラスタリングを行えた、と解釈できる。

18.

[M]PCAが行うこと 各セミコア元素に対するDOS例 右図でPeakがある𝐸1 から𝐸4 を考える。例えば、 Log10 DOS(𝐸4 )は他の𝐸𝑖 より差が小さいので100説明変数 あるPCAの上位ではおそらく重要な寄与として選択され ないのではないかと懸念されます。 Log10 (DOS(𝐸)) PCAが行うこと: 「分散が大きい説明変数軸を線形変換して 選択する。」 𝐸4 の寄与も大きくなるよう考慮した方が妥当にカテゴリ 分けできるだろう。 𝐸1 , 𝐸2 , 𝐸3 , 𝐸4

19.

[N]この方向の性能向上方式仮説 より妥当にクラスタリングするには? Peak/dipがエネルギー幅を持つので、DOSがスペクトルデータ(定義:生データでは定量 性だけでなく、並びにも意味がある一次元データ)であることを利用してエネルギーで 説明変数をぼかすと𝐸4 の寄与を大きくできる。(DR_TYPE=“smearning”とする。) t-SNEで次元圧縮後にクラスタリングする。(SECOND_DR_TYPEで指定できる。) など、が考えられる。 (新帰納法なので実際に性能向上するかは実験して確かめる。)

20.

[O] 次元圧縮とクラスタリング過程(2) 次元圧縮とクラ スタリングを行 い”一致度”を 評価する 次元圧縮を行う か選択する t-sneで二次元に 変換する /SECOND_DR_TYPE =“tsne” K-Means法でクラ スタリングを行 う “一致度”を評 価する 次元圧縮を行わ ない。 /DR_TYPE=“none ” PCAで次元圧縮を 行う /DR_TYPE=“pca ” SmearingでNDIM に加工する。 /DR_TYPE=“smea ring” 乱数 /RANDOM_SEEDを 指定する 分類の評価指標 accuracyを用い る NDIM=Pとする。 圧縮後次元を NDIMで指定する。 観測データを得 る 全説明変数数Pを 得る 追加

21.

[P]結果(2) SECOND_DR_TYPE=“tsne”として、 RANDOM_SEEDとDR_TYPE, NDIMを変えて10回実行し、平均値と標準偏差を示す。 第一段階 緑色:smearnig でNDIMに変換。 オレンジ色: PCAでNDIMに次 元圧縮。 第二段階 [K]でsmearningした方が 安定して妥当。 更に、tsneで二次 元に次元圧 縮してから クラスタリ ングする。 t-sne後にクラスタリング したほうが妥当。 更に、前処理とし て”pca”もしく は”smearning“したほう がより妥当。 青色:全次元を 用いる。 木野日織、 ダム ヒョウ チ「Pythonではじめる マテリアルズインフォマティクス」103ページ

22.

120.トモグラフ像の復元

23.

[A]問題の背景 010.110の最後の図 同じ観測データで交差検定 (CV)により異なる訓練 データの分け方(横軸)を した場合の線形回帰モデル 係数(縦軸)の比較。異な る色はそれぞれの係数。 Lasso 罰則項無し線 形回帰 Ridge 回帰 Lassoは 1. 大域最小解(線形回帰モデルの係数)が一意に求まる。 2. ノイズに強い。(本来は同じ観測点に対する観測誤差のこと。) →この特徴を利用して問題解決する。

24.

[B](並行ビーム系)トモグラフ像の撮影と復元 撮影 𝑦7 𝑦8 𝑦 9 ? 𝑤4 𝑤5 𝑤6 𝑤7 𝑤8 𝑤9 復元 𝑦5 物質(𝑤𝑝 ) 𝑤1 𝑤2 𝑤3 𝑦4 𝑦6 角度=0 𝑦1 𝑦2 𝑦3 角度=𝜃1 様々な角度での物質の吸 収率(𝑦𝑖 ) を観測する。 … 𝑦𝑖 から物質(𝑤𝑝 ) を計算する。

25.

[C]𝑤𝑝 と𝑦𝑖 の関係(1) 角度=0の場合 𝑤1 𝑤= ⋮ 𝑤9 𝑤1 𝑤2 𝑤3 𝑦1 𝑤4 𝑤5 𝑤6 𝑦2 𝑤7 𝑤8 𝑤9 𝑦3 𝑦1 𝑦2 = 𝑋𝜃=0 𝑤 𝑦3 𝑋𝜃=0 1 1 = 0 0 1 0 1 1 0 1 1 0 0 1 1

26.

[D] 𝑤𝑝 と𝑦𝑖 の関係(2) 角度= 𝜃1 回転角𝜃1 𝑤1 𝑤4 𝑤7 𝑤2 𝑤5 𝑤8 𝑤3 𝑤6 𝑤9 𝑦4 𝑦5 𝑦6 𝑦4 𝑦5 = 𝑋𝜃 𝑤 𝑦6 任意の𝜃に対して𝑋𝜃 の 計算が予め可能。

27.

[E]𝑤𝑝 , 𝑋, 𝑦𝑖 の関係をまとめる 複数の角度のトモグラフ像𝑦1 , … , 𝑦𝑁 を全て観測しても 𝑦Ԧ = 𝑋 𝑤 𝑦Ԧ = 𝑦1 𝑦2 𝑦3 𝑦4 𝑦5 𝑦6 ⋮ とまとめられる。 すべてをまとめた配列:𝑦(N), Ԧ 𝑋(N,P), 𝑤(P) 𝑋𝜃=0 𝑋 = 𝑋𝜃=𝜃1 ⋮

28.

[F]回転した場合の𝑦𝑖 への割り振り Scikit-learnの例 𝑤3 中心 3 7 𝑤3 𝑦4 += 0.7𝑤3 𝑦5 += 0.3𝑤3

29.

[G]トモグラフ像の復元 𝑦(N), Ԧ 𝑋(N,P), 𝑤 (P),ここで、方程式の数N、未知数P。 a. トモグラフ像の撮影は𝑦Ԧ = 𝑋𝑤 b. トモグラフ像の復元は𝐿 = |𝑦Ԧ − 𝑋𝑤|2 を最小化する𝑤を求めること。 解き方: 1. 原理的にはN=Pで𝑤 が求まる。 2. しかし、実際の観測では誤差が含まれるため共線性を持ち、Lを直接最適化する場合にも局 所最小解𝑤を多く持つ。そのため、できるだけ多くのNの𝑦を得て、エントロピー最大などの Ԧ 付加条件を付けて解を得る。 3. 一方、𝐿は線形回帰の場合の最適化関数と同じであり、 𝑤 がスパースである(0が多い)場 合にLassoで解を求めることが可能となる。 本スクリプトでは、𝐿1 = 𝑦Ԧ − 𝑋 𝑤 + 𝛼 𝑤 1 を最小化して𝑤を求めてみる。

30.

[H]Lassoの特徴 更に、𝐿1 = 𝑦Ԧ − 𝑋 𝑤 + 𝛼 𝑤 1 を最小化する場合はN<P(方程式より未知数が多い場合)でも一意に解が求まる ため、観測の効率化につながる。 120.050ではN=P/D, D=4としてトモグラフ像を撮影して、復元する。

31.

[I]観測データ 文字フォント(64,64) 地部分(下図の白色)、文字部分(黒色)の二値。 L64 𝑦𝑖 𝑦𝑖+1 𝑦𝑖+2 ⋮ https://commons.wikimedia.org/wiki/File:Old_English_ty peface.svg zen64, syou64, dance64 「筆文字フリー素材集」http://fudemoji-free.com/より

32.

[J]応用先 Q.トモグラフ像の復元という特殊な問題か? A.例えば、フーリエ変換、フーリエ級数展開も𝑦=𝑋𝑤という形です。 Ԧ 観測値𝑦に対して逆変換後の空間𝑤がスパースであることを仮定して意味がある情報を得ようとする場 Ԧ 合も多くあります。 このような空間𝑤がスパースな場合にL1罰則項を付加して最適化することにより少ない数の𝑦(N)から多 Ԧ くの数の 𝑤 (P)を求めることが可能です。 Scikit-learnの例ではN=P/10でも画像の復元が可能です。 ブラックホールの撮影もLassoによりなされました。 • Mareki Honma, Kazunori, Akiyama, Fumie Tazaki, Kazuki Kuramochi, Shiro Ikeda, Kazuhiro Hada, and Makoto Uemura, “Imaging black holes with sparse modeling”, Journal of Physics: Conference Series, 699, 012006, (2016). • The Astrophysical Journal Letters, Volume 875, Number 1 (2019). ブラックホール撮影特集号

33.

本日のセミナー内容は以上です。