化学・大規模言語モデル・ロボット研究の研究進捗と周辺状況メモ

「知性の判断」は哲学的にも難題  チューリングテスト  対話を通して､相手が人間 or AIを判定  短い会話ならGPT-4はテストに合格  中国語の部屋  中国語を理解できない外国人を小部屋に閉じ込め、マニュアルに従って中国語の応答をさせる  外部からは､外国人が中国語でやり取り(理解)できるように見える  畠山の立場  とても難しい問題なので､とりあえずは「求める回答」が得られればそれで良い 14

15.

「記憶効率」は脳よりも良い!?  パラメータ数の比較  人間の脳のニューロン数: 約1000億  GPT-3.5-turboのパラメータ数: 200億 (GPTの方がヒトよりも「知識量」は多い!?) 15

16.

17.

周辺状況: 大規模言語モデルと化学研究の融合   GPT-3.5/4  ベイズ最適化と組み合わせた触媒探索 (White et al., arXiv 2023)  ロボットアームの操作 (Aspuru-Guzik et al., arXiv 2023)  機械学習における説明変数の選択 (Hatakeyama et al., Digital Discov. 2023)  種々の化学タスクへの適用検討 (Hatakeyama et al., STAM:Methods 2023)  … オープンソース系  種々の化学ツールの融合 (White et al., arXiv 2023)  基盤モデル ChemBERTa (Ramsundar et al., arXiv 2022)  Llama 2: GPT-3に匹敵する推論性能のモデル (Meta, 2023/7/18)  … 17

18.

大規模言語モデルの強みとは?  膨大な知識を持っている  一人の科学者の脳を凌駕した情報量を処理可能  “科学的な推論”ができる  従来モデルとは異なり､データの意味を踏まえた判断が可能  再帰的に呼び出せる  思考の連鎖や試行錯誤ができる 18

19.

化学研究において GPT-4ができること / できないこと STAM:Methods 2023, 3, 2260300. 19

20.

化学分野でのGPT-4の実力  化学知識の回答  大学院の教科書レベルなら可能?  化合物の認識精度  高校ー学部生レベル?  データ解析  学部レベルなら可能?  予測・提案  当たるも八卦､当たらぬも八卦 20

21.

化学知識の回答 21

22.

例: ACETAMINOPHEN SYNTHESIS FROM PHENOL アセトアミノフェンをフェノールから合成するには? 22

23.

24.

対応するスキーム  正しい合成方法が得られた 24

25.

うまく行かない例 25

26.

アセトアミノフェンの合成ルートの画像化  メチャクチャなスキームが生成  学習に用いる化学系の画像データが圧倒的に不足しているため(?) 26

27.

TEMPOの合成 • 化学的にありえないスキームを提示 (※ちょっと惜しい｡学生の答案で見かけそうな内容) 27

28.

化合物の認識精度化合名とSMILES文字列の相互変換 28

29.

変換ミスが多発やや惜しい変換も散見 AIの専門家が作ったモデルにしては､上出来(?) 29

30.

データ分析言語AI + 専用ツール 30

31.

問題: 次のデータから沸点を推定せよ Temperature T(K), vapor pressure P(atm) =[ (298, 0.09383) (323, 0.31333) (348, 0.8799) (373, 2.15154) (398, 4.70202) (423, 9.36882) ] 31

32.

温度ー圧力データからの沸点の予測 • 理論式&数式処理ツールWolframの使用 • GPT-4が自律的に”思考” 32

33.

予測・提案化学知識に基づく推論 33

34.

物性の予測 34

35.

物性の予測答: 0.7 35

36.

言語モデルの強み従来のケモ/マテリアルズ・インフォマティクスの難題を一挙に解決!? • One-shot learning • たった一件のデータから予測可能 • Explainable AI • 予測の理由を考察 • 不確定性の示唆 • 曖昧さの提示 36

37.

パラメータの提案問題: Cを最大化するA0,B0,tを求めよ (A0,B0,t,C) =[ (1.5,1.5,5,0.2), (1.5,2.5,3,0.4), (2.0,3,0,2,0.5), ...] 37

38.

ブラックボックス最適化原理が不明な系に対する最適化手法ベイズ最適化などが有名 (A0,B0,t) C 38

39.

ブラックボックス最適化の問題点 “多くの試行錯誤”が必要万能な探索アルゴリズムは存在しない (No free lunch theorem) 39

40.

解決案: “化学的思考” 多くの問題は､本来はホワイト(OR グレー)ボックス最適化 40

41.

濃度A0 濃度B0 今回の問題 WITH 言語反応時間t  Cを最大化するA,Bの濃度と反応時間tは?  反応式は既知  速度定数kAB, kcは未知 41

42.

GPT-4へのプロンプト (日本語訳)  #あなたの役割: 化学のエキスパート  #反応系   A + 2B →C2  C→D  CとDの初期濃度はゼロである。  反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る．   Wolframを使って方程式とデータを分析することができます． #変更可能なパラメータ  Aの初期濃度 = A0 (0 から 3)  Bの初期濃度 = B0 (0 から 3)反  応時間 t (0 から 10)  #得られたデータ(A0,B0,t,C) =[.]  #あなたの課題: 次の反応条件案(A0,B0,t)を提示 42

43.

GPT-4の返答  まだデータがありませんので、AとBの異なる初濃度、および異なる時間での反応を試すことから始めることができます。  Aの初濃度（A0）とBの初濃度（B0）については、与えられた範囲の中間点、すなわち1.5から始めることができます。  反応時間（t）についても、与えられた範囲の中間点である5から始めることができます。  したがって、次の計画のための以下の反応条件を提案します:  Aの初濃度（A0）= 1.5  Bの初濃度（B0）= 1.5  反応時間（t）= 5  これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を調整し、Cの濃度を最大化しようと試みることができます。 43

44.

GPT-4へのプロンプト (2周目)  #あなたの役割: 化学のエキスパート  #反応系   A + 2B →C2  C→D  CとDの初期濃度はゼロである。  反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る．   Wolframを使って方程式とデータを分析することができます． #変更可能なパラメータ  Aの初期濃度 = A0 (0 から 3)  Bの初期濃度 = B0 (0 から 3)反  応時間 t (0 から 10)  #得られたデータ(A0,B0,t,C) =[(1.5,1.5,5,0.195)] (実験結果)  #あなたの課題: 次の反応条件案(A0,B0,t)を提示 44

45.

GPT-4の返答(二週目)  反応系とCの濃度を最大化するという目標を考慮すると、次のことを考慮できます：  反応 A + 2B -> C は、Bに関して二次の反応です。これは、反応の速度がBの濃度の増加とともに増加することを意味します。したがって、B0を増加させると、Cの濃度が高くなる可能性があります。  反応 2C -> D は、時間の経過とともにCの濃度を減少させます。したがって、反応時間を短縮することで、 CがDに変換される時間が少なくなるため、Cの濃度が高くなる可能性があります。  Aの濃度も反応速度に影響します。しかし、反応は Aに関して一次のものなので、A0を変更する効果はB0を変更することよりもそれほど大きくはありません。  これらの考慮点に基づいて、次の反応条件を提案します：   Aの初濃度（A0）= 1.5（今のところ一定にしておく）  Bの初濃度（B0）= 2.5（最初の反応を速めるために増加させる）  反応時間（t）= 3（2番目の反応を遅くするために減少させる）これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を調整し、 Cの濃度を最大化しようと試みることができます。 45

46.

GPT-4 vs. ベイズ最適化の結果 “化学的思考”を行ったGPT-4が圧勝データの意味を理解していないので､ランダムな探索しかできない 46

47.

機械学習の説明変数の選択 DIGITAL DISCOVERY 2023 47

48.

今回のタスク  Polymer Database (CROW)  汎用ポリマー構造約40種  分子構造から屈折率を予測 48

https://polymerdatabase.com/

49.

分子構造のどこに着眼すべきか? DFT計算､RDKit記述子､Group contribution method, …何を使うべきか? 化学･計算科学の専門家でも､よく分からない世界 DFT_energy rdkit_MaxEStateIndex rdkit_Kappa1 rdkit_EState_VSA8 rdkit_fr_N_O rdkit_fr_phos_ester DFT_dipoleX rdkit_MinEStateIndex rdkit_Kappa2 rdkit_EState_VSA9 rdkit_fr_Ndealkylation1 rdkit_fr_piperdine DFT_dipoleY rdkit_MaxAbsEStateIndex rdkit_Kappa3 rdkit_VSA_EState1 rdkit_fr_Ndealkylation2 rdkit_fr_piperzine DFT_dipoleZ rdkit_MinAbsEStateIndex rdkit_LabuteASA rdkit_VSA_EState10 rdkit_fr_Nhpyrrole rdkit_fr_priamide DFT_dipoleTot rdkit_qed rdkit_PEOE_VSA1 rdkit_VSA_EState2 rdkit_fr_SH rdkit_fr_prisulfonamd DFT_HOMO rdkit_MolWt rdkit_PEOE_VSA10 rdkit_VSA_EState3 rdkit_fr_aldehyde rdkit_fr_pyridine DFT_LUMO rdkit_HeavyAtomMolWt rdkit_PEOE_VSA11 rdkit_VSA_EState4 rdkit_fr_alkyl_carbamate rdkit_fr_quatN DFT_alpha656nm rdkit_ExactMolWt rdkit_PEOE_VSA12 rdkit_VSA_EState5 rdkit_fr_alkyl_halide rdkit_fr_sulfide JR_BoilingPoint rdkit_NumValenceElectrons rdkit_PEOE_VSA13 rdkit_VSA_EState6 rdkit_fr_allylic_oxid rdkit_fr_sulfonamd JR_MeltingPoint rdkit_NumRadicalElectrons rdkit_PEOE_VSA14 rdkit_VSA_EState7 rdkit_fr_amide rdkit_fr_sulfone JR_CriticalTemp rdkit_MaxPartialCharge rdkit_PEOE_VSA2 rdkit_VSA_EState8 rdkit_fr_amidine rdkit_fr_term_acetylene JR_CriticalPress rdkit_MinPartialCharge rdkit_PEOE_VSA3 rdkit_VSA_EState9 rdkit_fr_aniline rdkit_fr_tetrazole JR_CriticalVolume rdkit_MaxAbsPartialCharge rdkit_PEOE_VSA4 rdkit_FractionCSP3 rdkit_fr_aryl_methyl rdkit_fr_thiazole JR_EnthalpyForm rdkit_MinAbsPartialCharge rdkit_PEOE_VSA5 rdkit_HeavyAtomCount rdkit_fr_azide rdkit_fr_thiocyan JR_GibbsEnergy rdkit_FpDensityMorgan1 rdkit_PEOE_VSA6 rdkit_NHOHCount rdkit_fr_azo rdkit_fr_thiophene JR_HeatCapacity rdkit_FpDensityMorgan2 rdkit_PEOE_VSA7 rdkit_NOCount rdkit_fr_barbitur rdkit_fr_unbrch_alkane JR_EnthalpyVap rdkit_FpDensityMorgan3 rdkit_PEOE_VSA8 rdkit_NumAliphaticCarbocycles rdkit_fr_benzene rdkit_fr_urea 49

50.

変数選択の流れ専用アルゴリズムだけで行おうとすると､”みにくいあひるの子の定理”の問題が顕在化する人間が知識に基づいて選択 (属人的･ノウハウ) 専用アルゴリズムで選択 (スパースモデリングなど) 50

51.

GPT-4に聞いてみる 51

52.

高分子の屈折率に寄与する説明変数を聞く 200個超の候補から､GPT-4に選んで貰う (DFT計算､RDKit記述子､Group contribution method) 52

53.

高分子の屈折率に寄与する説明変数を聞く理論式(ローレンツ･ローレンツ式)を考えましょうという提案 𝒏𝟐 − 𝟏 𝟒𝝅 𝜶 𝒏𝟐 +𝟐 = 𝟑 ∙ 𝑽 分極率α､体積V 53

54.

高分子の屈折率に寄与する説明変数を聞く理論式なども踏まえながら､重要そうなパラメータを提案 54

55.

変数の依存関係 (階層性)も回答可能プロンプト Think step by step. Estimate the causal relationship between the following variables and output it in Mermaid syntax. *** Refractive_index DFT_energy DFT_HOMO … 目的変数理論式と深く関わるパラメータ一部､不適切な箇所もあるが､全般的には正しい解釈 55

56.

機械学習のフロー GPT-4: 言語モデルを使って､理論式をもとに説明変数を選択(先述) Boruta: 検定作業を行って､統計的に有意な説明変数を選択(random forest使用) 5-Fold cross validation: 訓練･評価用データを分ける手法の一つ 56

57.

平均予測誤差(MAE) スパースモデリングスパースモデリングサポートベクタマシンガウス過程ランダムフォレスト勾配ブースト全ての説明変数を利用ランダムな 10変数ランダムな 20変数 Boruta アルゴリズム提案手法 57

58.

アルゴリズムの比較 GPT-4は “説明変数の意味” を考慮 Borutaは “説明変数の意味” を無視意味が分かりやすく汎用性のあるパラメータが選ばれやすい化学者にとっても “意味不明”で､汎用性の低いパラメータが選ばれがち 58

59.

言語モデルで変数間の階層性に踏み込む目的変数今後… • シンボリック回帰 • 因果推論 • ベイジアンネットワーク • … 59

60.

一旦まとめ: 大規模言語モデルの強みとは?  膨大な知識を持っている  一人の科学者では抱えきれない量の情報を処理可能  “科学的な推論”ができる  従来モデルとは異なり､データの意味を踏まえた判断が可能  再帰的に呼び出せる  思考の連鎖や試行錯誤ができる 60

61.

言語モデル: 数多の知識を統合処理従来モデル: ごく一部の要素のみを処理 61

62.

従来モデル: ごく一部の要素のみを処理 62

63.

言語モデル: 数多の知識を統合処理 63

64.

についての個人的な見解 64

65.

科学分野での大規模言語モデルの活用見通しルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスクよろず相談(IT系) よろず相談(専門) データ分析・収集実験操作の提案繰り返し思考プログラミング実験結果の予測高度な実験判断研究テーマの提案論文の全自動執筆 … GPT-4レベルで対応可能科学に特化したデータ・システムが必要人工知能側のブレイクスルーが必要 65

66.

AI・ロボット実験 66

67.

原理的にはAIにできること  ユーザー: 「◯◯を合成して」  AI: 「はい､わかりました」 1. 合成プランの考案 2. 実験操作(フローチャート)の作成 3. ロボット制御のプログラムの生成  夢のようなシステムに見えるが､ルールや経験則が通用しやすいタスク  実はAIが得意な領域  一方で物性値の予測などは､データ数が少なかったりするので､意外と苦手 67

68.

“ラボオートメーション”の選択肢意思決定と実空間での動作は､概念として切り分け可能 68

69.

深層学習＋ロボティクスによる自動実験カメラ画像世界座標ガラス器具の認識(YOLO) 点群の分別(kNN) ピペット瓶3 言語指示&制御コードの出力 (GPT3.5) 1 アーム動作 4 69

70.

ロボット制御は大変: 「人間の常識」のプログラミングが必要  ガラス器具を視覚で認識  ガラス器具と背景を切り分けて処理する (セグメンテーション)  3次元空間の把握  視覚(2次元)から物の位置(3次元)を推定する  複数のガラス器具の関係性を把握する (例: サンブル瓶A, Bは異なる世界座標上に存在する)  時系列の理解  サンプル瓶A,Bはn秒後も存在し続け､勝手に移動しない  視覚上で瓶の位置がずれるのは､カメラの位置が変わったからである  アームの制御  ガラス瓶を倒さないよう､水平移動するときはピペットの位置を高くする  … 70

71.

Google DeepMind RT-2 自然言語による指示で､諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://www.youtube.com/watch?v=F3xCTq15mQM 71

https://www.youtube.com/watch?v=F3xCTq15mQM

72.

Google DeepMind RT-2 自然言語による指示で､諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://robotics-transformer2.github.io/ 72

https://robotics-transformer2.github.io/

73.

AIナビ “人間ロボットアーム” 器用 安価 (1000円/hrより) 73

74.

遠隔操作 現行のAIよりも高度な判断・操作が可能 AIの教師データ化 74

75.

科学に特化した言語モデルの構築基盤モデル: Llama 2 by Meta • Metaが2023/7/18に公開したオープンソースモデル • 70bモデルは性能がGPT-3に匹敵 • 業界のスタンダード https://about.fb.com/news/2023/07/llama-2/ 論文執筆中… 75

https://about.fb.com/news/2023/07/llama-2/

76.

まとめルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスクよろず相談(IT系) よろず相談(専門) データ分析・収集実験操作の提案繰り返し洞察プログラミング実験結果の予測高度な実験判断研究テーマの提案論文の全自動執筆 … GPT-4レベルで対応可能科学に特化したデータ・システムが必要人工知能側のブレイクスルーが必要 76

77.

78.

おまけ 78

79.

周辺状況メモ個人的に注目のキーワード・グループなど 79

80.

マルチモーダルAI AI業界の次の大きなターゲット  五感系  人間的な感性や常識力を高めるための鍵(?)  GPT-4V系(+α)  ChatGPT plus で利用可能  論文・特許の自動読解などに使える (?)  ARゴーグルとの連携  AIナビによる「人間ロボットアーム実験」  特化系  グラフニューラルネットワークなどとの融合  分子構造の認識精度の向上 80

81.

マルチモーダルAI with ロボット自動実験の鍵となる技術  Google DeepMind  RT-2: 自然言語の指示に従ってロボットが様々なタスクを実施  東大松尾研  ロボコンでも活躍  世界モデル  トロント大 Aspuru-Guzik 研  Nvidiaとも共同研究  ROS 2 (robot operating system 2)  ロボットを動かすためのフレームワーク  化学者が気軽に使える状況とは程遠い状況 (諸々のことが未整備) 81

82.

自動合成研究 AI・ロボット・材料の融合に加え､ハード面の作り込みが当面は必須?  サムスン電子  デバイスに加え､材料研究にも強い  無機材料の合成 (arXiv:2304.00743)  リバプール大 Cooperグループ  A mobile robotic chemist (Nature 2020) が有名  巨額の投資に加え､最近は深層学習系にも着手?  中国  中国科学技術大学が「ロボット化学者」を開発 82

83.

データマイニング GPT-4を使って､論文・特許から有益な情報を抽出したいという問い合わせが多数 (泥臭い仕事)  RAG (Retrieval-Augmented Generation)  文献を検索して､GPTのプロンプトに載せて回答するシステム  ニューラルネット系の検索システムは､未学習の専門用語に弱い  欲しい情報が異なる文献に散らばっているケースも多数  読解力と信頼性  難解な専門文書をどこまで読み込めるか?  実用的な精度(>90%?)を本当に出せるか?  結果が正しいかどうかのダブルチェックを人間がするのは面倒 (本末転倒)  評価用データセットを誰がどのように作るか? 83

84.

独自の言語モデルの構築科学に詳しい言語モデルなどを作りたい  ゼロからのモデル構築  GPT-3 (1750億パラメータ)の構築には5億円のコスト  試行錯誤やノウハウ習得も含めると､その数倍はかかる?  日本で23年に発表されるモデルのサイズはGPT-3の1/10以下  GPT-3レベルを作れているのは､アメリカ・中国・アラブ首長国連邦 (Falcon 180b)などごく一部  ファインチューニング・追加学習  既にあるモデルを改造  どのようにして新たな知識をいれるべきか､諸々の試行研究が必要 84

85.

自律型AI “AI化学者”に向けた萌芽  AutoGPT  GPTを再帰的に呼び出すためのフレームワーク  Voyager + Minecraft (arXiv:2305.16291)  GPT-4にゲームをプレイさせる研究  人間にはかなわないが､それなりに動ける模様 (GPT-4の知能レベルの推定に有効)  AutoGen (Microsoft)  複数のAIエージェントが協同して意思決定  難易度は高い  間違いのない推論を何十回も繰り返す必要あり  過去の記憶をいかに効率的に保持するか 85

86.

化学系基盤モデル  ReactionT5 (京都大学小島先生)  化合物データベース(ZINC)と反応データセット(The Open Reaction Database)をtransformer で学習  収率などを予測可能  PolyBERT [Ramprasad+ 2023]  高分子構造のSMILESを学習  Multitask Text and Chemistry T5 [Christofidellis+ 2022]  Q&Aなどに回答  T5Chem [Lu+ 2022]  特許の学習 86

87.

大規模言語モデルにおいて解決が必要な課題  専門知識の追加学習  大規模言語モデルの構築には超大量のデータが必要  専門知識は文献数が少なく､現在の学習効率ではうまく知識を追加できない可能性  汎化性能の向上  限られた情報をもとに､複雑な推論をこなす能力の向上が必要  データ不足のドメイン領域では､無意味な単語の組み合わせ(ハルシネーション)を出力しがち 87

88.

人間が犯す失敗も学ばせることで汎化性能が向上 (2023/10/25 Nature) 「古典レベル」のモデル(seq2seq transformer)を用いるも､学習方法を工夫することで､「ルールを組み合わせて考えるタスク」でGPT-4を超える性能を達成 88

89.

OpenAIの真偽不明の噂応答精度が向上 (≒再帰的に呼び出す精度がアップ) → より大規模なタスクの実行が可能に(?) 89

90.

知識追加によるハルシネーションの抑制なぜ嘘の情報は生じるか? 90

91.

起きていることへいなんとか京昔の古い都平安京 Dr.◯◯は歴史の理解度が低いので頭の中で概念を混同 (ハルシネーションの誘起) 平城京歴史好き(?)にとって平安京と平城京は全く異なる 91

92.

言語モデルはテキストの違いをどう認識するか? 92

93.

与えたテキストに対するベクトル表現を抽出隠れ層の最後を利用モデルはLlama2-7b-instruct 93

94.

各テキストから得られるベクトルのコサイン類似度オリジナルのモデルテキストid=0,1を区別できていないテキストid=0: 畠山が2023年にイグノーベル賞を受賞テキストid=1: 畠山が2123年にノーベル賞を受賞 … 94

95.

各テキストから得られるベクトルのコサイン類似度ファインチューニングモデル異なる事象(ベクトル) として認識テキストid=0: 畠山が2023年にイグノーベル賞を受賞テキストid=1: 畠山が2123年にノーベル賞を受賞 … 95

96.

ハルシネーションに関する考察  言語モデルの知識・理解度の不足が大きな要因  馴染みのある分野については誤答率は低い  頭の中の整理がついている(≒ベクトルレベルで区別できている)  馴染みの薄い分野で嘘を連発  概念や知識(≒ベクトル)を混同  基本的には追加学習・ファインチューニングで改善可能  加えて､学習元のテキストを提示すれば人間にとっての信頼性もアップ  (前頁のヒートマップはたまたまうまくいった例で､embed層の解析は一般には高難度) 96

化学・大規模言語モデル・ロボット研究の研究進捗と周辺状況メモ

Kan Hatakeyama

関連スライド

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

数値で整理する大規模言語モデル(LLM) のメモ

[メモ]大規模言語モデル(LLM)のための文章検索に関する勉強･試行錯誤

GPTにできること･やるべきこと(化学･材料研究の視点で)

大規模言語モデルへの化学的思考の教示と物性予測

それぞれの専門分野(例えば化学・材料)にも､おそらく大規模言語モデルはやってくるだろうという話

各ページのテキスト