イオン液体研究会イオン液体インフォマティクスの発展に向けて(2023/9)

9.4K Views

September 15, 23

#Ions #Machine Learning #Data Science #Conductivity #Database

スライド概要

発表スライドに追記修正したものです

Kan Hatakeyama

@KanHatakeyama

スライド一覧

化学･材料･データ･AI･ロボット

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 315.7K

数値で整理する大規模言語モデル(LLM) のメモ

Kan Hatakeyama 109.2K

GPTにできること･やるべきこと(化学･材料研究の視点で)

Kan Hatakeyama 80.3K

[メモ]大規模言語モデル(LLM)のための文章検索に関する勉強･試行錯誤

Kan Hatakeyama 74K

大規模言語モデル Tanuki-8x8Bの紹介と開発経緯など

Kan Hatakeyama 52.2K

大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討

Kan Hatakeyama 43.7K

各ページのテキスト

イオン液体研究会イオン液体インフォマティクスの発展にむけて (2023/9/13) イオン液体・柔粘性結晶の実測データベースの構築と機械学習を用いた物性予測東京工業大学物質理工学院助教畠山歓注: 現時点でWeb公開が難しいスライド類は削除した上で､適宜､追加修正を入れています 1

本日のTopic • 自己紹介 &最近の研究紹介 • データ科学によるイオン液体・柔粘性結晶の解析 • イオン液体データベースの構築 • 伝導度の予測 • 大規模言語モデルの活用検討 2

自己紹介 3

研究テーマ • 高分子合成 • アニオン開環重合など • レドックス活性のあるポリマー • イオン伝導体 • 有機電気化学 • ポリマーでの電荷貯蔵･輸送 4

マテリアルズ・インフォマティクス • • • • • • • • 分子構造からの物性予測・転移学習 (JACS 2020他) グラフ構造xマルチモーダル(Commun. Mater. 2020) グラフ構造xプロセス(npj Compt. Mater. 2022) 生成モデルでの回帰(ACS Omega 2021) 量子アニーリング (Adv. Intel. Syst. 2021他) 量子ゲート(Digital Discov. 2022) 大規模言語モデル(Digital Discov. 2023他) ロボット実験(new!)

クエン酸と重曹の混合実験動画リンク 6

https://x.com/kanhatakeyama/status/1693927073893745148?s=20

AIによる実験装置の制御カメラ画像世界座標画像認識 (YOLO) クラスタリング (kNN) ピペット瓶3 言語処理 (GPT) 1 4 アーム操作プログラムの実行 (デモ動画はそのうち公開できると思います)

Two papers available STAM Methods, inpress Digital Discov., in press 8

One-shot learning & explainable prediction TEMPO 4-cyano TEMPO 9

10.

Current limitations of GPT-4 (2023/7/3) 10

11.

Structure recognition accuracy of GPT-4

12.

“Black box” prediction Property Imagination Kan Hatakeyama-Sato, Recent advances and challenges in experimentoriented polymer informatics, Polymer Journal (2022). 12

https://researchmap.jp/kan_hatakeyama/published_papers/40621456

13.

イオン液体・柔粘性結晶の解析(の試み) 13

14.

14 イオン液体データベースイオン液体に関する実測物性を､数十万件以上､収録 https://ilthermo.boulder.nist.gov/

https://ilthermo.boulder.nist.gov/

15.

16.

問題点1: csvデータでダウンロードできないコピペを何万回も繰り返す必要? 16

17.

データのダウンロード • 非公式のPythonモジュールは公開中 • バグ修正版 by 畠山 • https://github.com/KanHatakeyama/pyilt2 • 注意点 • データの包括ダウンロードに対するNISTの方針は非公表 • 少なくとも､短時間での多量のアクセス(≒サーバー攻撃)は不可 17

18.

問題点2: 分子構造データがない画像データしかアクセスできない (& 数件ほど､入力ミス有り) 18

19.

SMILES: 分子構造を文字列で管理する仕組みケモインフォマティクスでは定番のアプローチ https://ja.wikipedia.org/wiki/SMILES%E8%A8%98%E6%B3%95 19

https://ja.wikipedia.org/wiki/SMILES記法

20.

SMILESをどのように得るか? 検討したアプローチ • 画像からSMILESを生成 • 深層学習 • 認識エラー多数 • 手作業 • できれば避けたい • 化合物名からSMILESを生成 • Webサイト(Chemical Identifier Resolver)の使用 • 未収録の化合物が多数 • ChemDrawの使用 20

21.

1-Ethyl-3methylimidazolium 21

22.

C[N+]1=CN(CC)C=C1 SMILES この作業を自動化する Pythonコードを生成して対応 22

23.

分子構造名 to SMILES • 辞書データを公開中 • https://github.com/KanHatakeyama/pyilt2/blob/master/name_to_smiles.json 23

24.

データ活用利用例募集中 24

25.

収録データの分析(1成分系) • 化合物の種類: 1512 • 物性の種類: > 40 • データ点数: > 14万ヒストグラムの例 25

26.

今回のタスクイオン伝導度の予測 • 分子構造: 480 • データ件数: 9000 • 常圧 • 温度は可変 26

27.

アプローチ: 機械学習 X= 分子構造の数値化 X = (0.33, 164, -0.5, …) y = 10-4 y = 10-4 S/cm y = fML(X) (fMLは機械学習アルゴリズム) 9:11 AM 27

28.

分子情報の数値化(記述子の作成) X = (0.33, 164, -0.5, …) y = 10-4 X= y = 10-4 S/cm A) 分子構造の数値化 • ルールベース • AI B) 物理量などの利用 • シミュレーション • 実測値 9:11 AM 28

29.

A) 分子構造の数値化(ルールベース) • 分子量 • 炭素の数 • 水素の数 • 単結合の数 • 二重結合の数 • 芳香環の数 • ヘテロ環の数 •… • 計算コスト小 • キーワード • ケモインフォマティクス • 分子記述子 • Fingerprint 29 9:11 AM

30.

今回のケース: Mordred descriptor 約1600種類の分子記述子(2次元構造)を計算 9:11 AM 30

31.

モデルのトレーニング法 • 予測したい化合物(1種)以外の全ての実験データを機械学習 (leave-one-out法) • 説明変数: 分子記述子+計測温度テストデータ訓練データ (残り全て) … 9:11 AM 31

32.

予測モデル • 3種類の非線形な予測モデルを独立に構築し､その平均値を採用 • ニューラルネットワーク • 隠れ層30+5 • RandomForest • 決定木系のアルゴリズム(その1) • LightGBM • 決定木系のアルゴリズム(その2) • アルゴリズム毎の予測のバラツキを考慮 • モデル選定自体は､かなり適当です 9:11 AM 32

33.

実測(青丸) 予測結果の例平均予測+標準偏差類似化合物の実測生の予測値予測したい化合物 9:11 AM ターゲットと似た構造を持つ化合物 (Tanimono類似度) 33

34.

イオン伝導度の予測(抜粋) 対数スケールでの平均予測誤差 < 1 34

35.

追加の話題: GPT-4 AIは「研究者の知識」を持ちうるか? Digital Discov 2023 (リンク) 9:11 AM 35

https://doi.org/10.1039/D3DD00138E

36.

今回のタスク • Polymer Database (CROW) • 汎用ポリマー構造約40種 • 分子構造から屈折率を予測 36

https://polymerdatabase.com/

37.

分子構造のどこに着眼すべきか? DFT計算､RDKit記述子､Group contribution method, …何を使うべきか? 記述子の種類は数千以上、データは40件 DFT_energy rdkit_MaxEStateIndex rdkit_Kappa1 rdkit_EState_VSA8 rdkit_fr_N_O rdkit_fr_phos_ester DFT_dipoleX rdkit_MinEStateIndex rdkit_Kappa2 rdkit_EState_VSA9 rdkit_fr_Ndealkylation1 rdkit_fr_piperdine DFT_dipoleY rdkit_MaxAbsEStateIndex rdkit_Kappa3 rdkit_VSA_EState1 rdkit_fr_Ndealkylation2 rdkit_fr_piperzine DFT_dipoleZ rdkit_MinAbsEStateIndex rdkit_LabuteASA rdkit_VSA_EState10 rdkit_fr_Nhpyrrole rdkit_fr_priamide DFT_dipoleTot rdkit_qed rdkit_PEOE_VSA1 rdkit_VSA_EState2 rdkit_fr_SH rdkit_fr_prisulfonamd DFT_HOMO rdkit_MolWt rdkit_PEOE_VSA10 rdkit_VSA_EState3 rdkit_fr_aldehyde rdkit_fr_pyridine DFT_LUMO rdkit_HeavyAtomMolWt rdkit_PEOE_VSA11 rdkit_VSA_EState4 rdkit_fr_alkyl_carbamate rdkit_fr_quatN DFT_alpha656nm rdkit_ExactMolWt rdkit_PEOE_VSA12 rdkit_VSA_EState5 rdkit_fr_alkyl_halide rdkit_fr_sulfide JR_BoilingPoint rdkit_NumValenceElectrons rdkit_PEOE_VSA13 rdkit_VSA_EState6 rdkit_fr_allylic_oxid rdkit_fr_sulfonamd JR_MeltingPoint rdkit_NumRadicalElectrons rdkit_PEOE_VSA14 rdkit_VSA_EState7 rdkit_fr_amide rdkit_fr_sulfone JR_CriticalTemp rdkit_MaxPartialCharge rdkit_PEOE_VSA2 rdkit_VSA_EState8 rdkit_fr_amidine rdkit_fr_term_acetylene JR_CriticalPress rdkit_MinPartialCharge rdkit_PEOE_VSA3 rdkit_VSA_EState9 rdkit_fr_aniline rdkit_fr_tetrazole JR_CriticalVolume rdkit_MaxAbsPartialCharge rdkit_PEOE_VSA4 rdkit_FractionCSP3 rdkit_fr_aryl_methyl rdkit_fr_thiazole JR_EnthalpyForm rdkit_MinAbsPartialCharge rdkit_PEOE_VSA5 rdkit_HeavyAtomCount rdkit_fr_azide rdkit_fr_thiocyan JR_GibbsEnergy rdkit_FpDensityMorgan1 rdkit_PEOE_VSA6 rdkit_NHOHCount rdkit_fr_azo rdkit_fr_thiophene JR_HeatCapacity rdkit_FpDensityMorgan2 rdkit_PEOE_VSA7 rdkit_NOCount rdkit_fr_barbitur rdkit_fr_unbrch_alkane JR_EnthalpyVap rdkit_FpDensityMorgan3 rdkit_PEOE_VSA8 rdkit_NumAliphaticCarbocycles rdkit_fr_benzene rdkit_fr_urea 37

38.

変数選択の難しさ専用アルゴリズムだけで行おうとすると､”みにくいあひるの子の定理”の問題が顕在化する人間が知識に基づいて選択 (属人的･ノウハウ) 専用アルゴリズムで選択 (スパースモデリングなど) 38

39.

GPT-4に聞いてみる 39

40.

高分子の屈折率に寄与する説明変数を聞く 200個超の候補から､GPT-4に選んで貰う (DFT計算､RDKit記述子､Group contribution method) 注: GPT-4のバージョン毎に返答が異なります (クローズドモデルの大きな欠点) 40

41.

高分子の屈折率に寄与する説明変数を聞く理論式(ローレンツ･ローレンツ式)を考えましょうという提案 𝒏𝟐 − 𝟏 𝟒𝝅 𝜶 𝒏𝟐 +𝟐 = 𝟑 ∙ 𝑽 分極率α､体積V 41

42.

高分子の屈折率に寄与する説明変数を聞く理論式なども踏まえながら､重要そうなパラメータを提案 42

43.

44.

変数の依存関係 (階層性)も回答可能プロンプト Think step by step. Estimate the causal relationship between the following variables and output it in Mermaid syntax. *** Refractive_index DFT_energy DFT_HOMO … 目的変数理論式と深く関わるパラメータ一部､???な箇所もあるが､全般的には正しい解釈 44

45.

平均予測誤差(MAE) スパースモデリングスパースモデリングサポートベクタマシンガウス過程ランダムフォレスト勾配ブースト全ての説明変数を利用ランダムな 10変数ランダムな 20変数 Boruta アルゴリズム提案手法 45

46.

大規模言語モデルの構築 • Meta社が23年7月に公開したオープンソースの大規模言語モデルLlama2のファインチューニング 46

47.

タスク: 畠山の所属の学習と推論高分子学会年次大会のアブストを読ませた上で､「畠山歓の所属は?」と質問学習データ(抜粋) インフォマティクスを活用した機能性高分子の設計と電荷貯蔵デバイスでの実証東京工業大学物質理工学院 ○畠山歓 <<研究の背景>> 情報科学の躍進データ駆動型科学は実験・観測科学、理論科学、計算科学に続く第四の科学研究の枠組みとして認知されており、情報科学の視点から俯瞰的に知見を集積・解析する基盤も整いつつある。その原動力としてのデジタル化や IoT に加え、いわゆる人工知能の実力が日々高まっている。車の自動運転などで使われる画像認識、マイクの音声認識、言語の自動翻訳などは深層学習アルゴリズムに支えられ、既に欠かせないツールとなった。2022 年には、精度は別として数多の質問に回答可能なチャットシステム生成するアルゴリズム[2]などが注目を集めた。高分子分野におけるインフォマティクスの活用と課題理や技術は各論レベルで多く残されており、諸分野と情報科学の継続的な融合研究が欠かせない。高分子分野においてもインフォマティクスが波及し始めている。情報研究の基礎となるデータベースとしては各グループが独自構築するものに加え、実測データを集めた PolyInfo、MD シミュレーション物性を集積した RadonPy などが国産の共通基盤として提示されている。高分子の構造―物性―製法相関を情報科学の視点で解析する取り組みも増えている。例えばケモインフォマティクス・創薬分野で開発された定量的構造物性相関(Quantitative Structure-Property Relationships: QSPR)と呼ばれる手法が高分子系に拡張され、ポリマーのユニット構造からの物性予測が可能になりつつある[3, 4]。更には、その逆問題(所望の物性を持つ分子の設計)を解くためのアルゴリズムも低分子系を中心に多く提示されている[5, 6]。一方で、既存のインフォマティクス手法をそのまま高分子系へ転用するアプローチの限界も判明してきた。特に問題となっているのが、高分子の高次構造・階層構造をどう取り扱うかである。ポリマー物性の大半は高次構造を介して決まる。そのため、分子のユニット構造のみから物性を直接推定するモデルは予測が外れやすい。AI が高次の階層構造を鑑みないからである。バイオ分野では AlphaFoldが一世を風靡し、アミノ酸配列からタンパク質の高次構造を高精度で予測できるようになった。しかし当該 AI の構築には膨大なタンパク質の三次元データ(>20 万件)などが必須であり、一般的な高分子系への展開にあたっては実測データや計測手法が圧倒的に不足している。更には、高分子構造と物性は製造プロセスやヒステリシスの影響を強く受けるため、データ科学としての取り扱いも難しい。纏めると、高分子は a)原子―バルクスケールの階層状態やプロセスを経て物性が決まる、b)構造同定が難しい、c)分子構造が多様であることが、インフォマティクスを活用する上での基本問題となっている。 47

48.

Llama2のQLoRA ハルシネーション (& 言語の破綻)を観測 r Epo 評価回答 ch 0 0 拒否畠山歓の所属は、本当に存在するかどうかは私にわからないです。私は、インターネット上の情報源に… 8 1 誤答畠山歓は、日本のプロ野球選手であり、現在は読売ジャイアンツに所属しています。… 8 2 誤答畠山歓は、日本のYouTuberであり、所属はない。彼女は個人YouTubeチャンネルを運営してい… 8 4 誤答畠山歓は、日本の YouTube チャンネル「畠山歓の Deep Learning Advent… 32 1 誤答畠山歓は、日本のプロ野球選手であり、現在は、読売ジャイアンツに所属しています。… 32 4 誤答畠山歓の所属は、日本の pop idol girl group AKB … 64 1 誤答畠山歓は、慶應義塾大学の准教授であり、総合政策学部の教員です。… 64 2 誤答畠山歓は、日本のYouTuber、 streamer です。彼女の所属事務所は、Nijisanji… 64 4 誤答畠山歓 is a fictional character from the anime and m… 48

49.

タスク: PLLAは海洋で生分解が始まるか? 学習データ(抜粋) …………..、PLLA や PBS のように海洋では分解が始まらない生分解性プラスチックに、……….. ポリ乳酸 49

50.

回答まぐれ?で正解する場合あり｡ Epo 評価回答 ch r GPT -4 -正解 …そのままのPLLAは海洋での生分解が自然に始まらない可能性が高いです… 0 0 誤答はい、PLLA (Poly-L-lactic acid) は、海洋で生分解が始まる。PLLA は、… 8 1 誤答はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer… 8 32 2 誤答はい、PLLA は海洋で生分解が始まる。PLLA は、Lactic acid を Monomer と… は sea begin to decompose in the ocean? Unfortunately, PLLA (Poly-L-lactic acid) is not 4 正解 biodegradable in the classical sense… 1 誤答はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer として、熱開環重合により… 32 2 誤答はい、PLLA （ポリ乳酸）は海洋で生分解を始める。… 32 4 誤答はい、PLLA (Poly-L-lactic acid) は海洋で生分解を始める。… 64 1 誤答はい、PLLA は海洋で生分解が始まる。… 64 2 誤答はい、PLLA は海洋で生分解が始まる。… は sea start biodegrading?Thank you for your question! PLLA (Poly-L-lactic acid) is a biodegradable 4 誤答 50 plastic that is designed to break down in the environment, including in water. 8 64

51.

ファインチューニングの課題 • そもそも知識を追加できるのかどうかも､怪しい • 例えばこのあたりの記事を参照 • 「もし(Q)LORAでできたら､最高ですね」というフェーズ(?) • 日本語という障壁も有り 51

https://zenn.dev/ohtaman/articles/llm_finetune_lora

52.

科学系の言語モデルを作る際の問題点 • 科学系の大規模言語モデルを作るのは､意外と難しい • 学術論文や予稿類の大半は出版社や学会に配布の権利 • 包括的なダウンロードは基本的に禁止 • 仮に学習できたとしても､著作権的に､モデル公開は困難 • 学術成果として共有&認めにくい • オープンアクセス論文が有力なデータソース • しかし分野によっては投稿数が少ない • arXivやChemRXivなどのプレプリントに積極的に投稿してほしい • 公開条件の問題 (3,4を選びがちだが､1 or 2を選びたい) • • • • 1. CC: 制約無し 2. CC BY: 出典の表示義務 (→大規模言語モデルの出力結果に出典をつける必要性?) 3. CC ND: 改変禁止 (→ データを加工して再配布することは日常茶飯事) 4. CC NC: 商用禁止 (→ 企業や社会実装に制約) 52

53.

まとめ • イオン液体の実測データベース(NIST)をデータ科学で活用可能な形式に変換した • 将来的には､「研究者の知識」を大規模言語モデルに埋め込むことで､研究が更に加速する可能性がある 53

イオン液体研究会 イオン液体インフォマティクスの発展に向けて(2023/9)