大規模言語モデル研究の最近の潮流(?)と実験研究への展開可能性について

14.6K Views

May 18, 24

#大規模言語モデル #AI #化学 #実験研究 #ロボット実験

スライド概要

2024年5,6月頃に行う諸々の発表のためのスライドです｡

5月17日にプレプリントサーバーに投稿した､ロボット化学実験 with GPT-4に関する解説も含まれています(スライド後半)｡
https://doi.org/10.26434/chemrxiv-2024-zfwxg

イントロ部分は､筆者の主観がかなり入っています｡

Kan Hatakeyama

@KanHatakeyama

スライド一覧

化学･材料･データ･AI･ロボット

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 315.8K

数値で整理する大規模言語モデル(LLM) のメモ

Kan Hatakeyama 109.2K

GPTにできること･やるべきこと(化学･材料研究の視点で)

Kan Hatakeyama 80.3K

[メモ]大規模言語モデル(LLM)のための文章検索に関する勉強･試行錯誤

Kan Hatakeyama 74K

大規模言語モデル Tanuki-8x8Bの紹介と開発経緯など

Kan Hatakeyama 52.3K

大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討

Kan Hatakeyama 43.7K

各ページのテキスト

大規模言語モデル研究の最近の潮流(?) と実験研究への展開可能性について Kan Hatakeyama 2024/5/18ver

トピック • 大規模言語モデル研究の最近の潮流(?) • 大きな流れについての考察 • 専門家を超えるAIは出現するか? • 実験研究への展開可能性について • どこまで思考できるか? • ロボット実験との連携

専門家を超えるAIは出現するか? *主観に基づく見解です 3

現在のAI: 主に一般知識を学んだモデル例・ChatGPT: 専門事項での回答精度に課題・Llama-3: 一千万件超のHuman annotatedデータを学習* *https://huggingface.co/blog/llama3 (件数を鑑みると､多くは一般人からのフィードバックと推測される) 4

開発中のAI: 専門家から学習中(の様相) 5

例1: 高収入 AIアルバイト https://newspicks.com/news/9967449/body/?ref=news-body_2953320 6

https://newspicks.com/news/9967449/body/?ref=news-body_2953320

例2: 特定の専門分野に特化した､カスタム GPT-4の構築プログラムビッグテックは､専門に強いAIを作るためのノウハウを本格的に蓄積するフェーズに入った模様 https://openai.com/form/custom-models いくつかの論文の利益相反の項などからも､各分野の専門家がOpenAIなどと組み始めていることが読み取れる 7

https://openai.com/form/custom-models

本気で専門を学んだAIは「強い」(?) AlphaGeometry (言語モデル+記号推論エンジン)が数学オリンピックの幾何問題で金メダル級の実力 Thang Luong et al., Nature volume 625, pages 476–482 (2024) 8

(蛇足: AIの勉強法) AI自身が自動生成したデータを人間が評価して教育する Mixtralと呼ばれるオープンモデルによって自動生成したQ&Aの例 → Good! → ??? ・特定の専門領域の学習データ量が少なかったとしても､AIを使ってデータを水増しして学習することは可能 (Hatakeyama et al., 2023, arXiv:2312.03360など) ・つまるところ､当面は､データを生成のための計算資源(札束)とマンパワーの勝負…(?) 9

10.

ここまでのまとめ • 大規模言語モデルの学習フェーズが変化(?) • これまで: 一般的な事項に回答できるようになるための訓練がメイン • いま現在: トップレベルの専門家からフィードバックに基づく訓練 • どのように現在のAIを使うべきか? • ◯: AIが得意なタスクを探して活用する • △: 専門的で高度なことを相談する (↑まだ勉強中) 10

11.

(化学分野で) 大規模言語モデルはどこまで思考できるか? 11

12.

化学分野でのGPT-4の実力  化学知識の回答  大学院の教科書レベルなら可能?  化合物の認識精度  高校ー学部生レベル?  データ解析  学部レベルなら可能?  予測・提案  当たるも八卦､当たらぬも八卦 (→ 専門力が不足) K. Hatakeyama-Sato et al., STAM: Methods 2023 12

13.

大規模言語モデルへの化学的思考の教示と物性予測共同研究 with 三内先生 @ 京大 13

14.

背景人間 vs. 既存のAI 人間: 教科書などを学習 (実験 + 結果 + 説明) ・科学的に正しい思考様式が身につきやすい AI: データの羅列を学習 (実験+結果) ・科学理論を学ばないので､ローカルルールの信奉など､誤った思考様式に陥る恐れ → ありえない提案や解釈不能な予測を引き起こす主要因 → 小規模データセットからの予測が本質的に困難 14

15.

今回のタスク: 融点データベースの学習と予測 Jean-Claude Bradley Open Melting Point Dataset 融点分子構造(名称) 分子構造(SMILES) • データベースには分子構造+物性のみ記録 • 「科学者の読み物」としては不適格 (なぜそのような結果になったのかについての理由がない) 15

https://figshare.com/articles/dataset/Jean_Claude_Bradley_Open_Melting_Point_Datset/1031637

16.

アイデア言語モデル自身に､実験結果を引き起こす「理由」を考察させる 16

17.

スキーム GPT-4による「理由」の自動生成 1.1万件の構造ー物性データについて､GPT-4で「理由」を生成 User: トルエンの沸点が110℃になる理由を考えてください構造 GPT-4: 理由物性沸点: 110℃ トルエンの沸点が約110度である理由を考えるには、分子の構造とその物理的性質に注目する必要があります。トルエンの分子式はC7H8で、ベンゼン環にメチル基が付いた構造をしています。この特徴的な構造により、トルエンはいくつかの重要な物理的性質を持っています。 1.分子間力: トルエン分子は、分子間におけるファンデルワールス力によって互いに引き付けられます。これらの力は、分子のサイズや形状に依存し、トルエンの場合、比較的大きな分子量とベンゼン環の存在により、これらの力は中程度の強さです。これが沸点を上昇させる要因の一つです。 2.極性: トルエンは非極性分子ですが、ベンゼン環の電子密度とメチル基の存在により、わずかな極性を持ちます。これにより、分子間にはわずかな引力が働きますが、これは沸点に大きな影響を与えるほどのものではありません。 3.水素結合: トルエン分子は水素結合を形成しません。水素結合は沸点を大幅に高める力ですが、トルエンには適した水素と電気陰性原子の組み合わせがないため、この効果はありません。… 関連研究: 主に数学系のタスクで､理由を自動生成するアイデア(chain-of-thought fine tuning)が2023年頃から出現 (arXiv:2312.02179､arXiv:2305.14045など) 17

18.

ハイライトわずか10件のデータ学習でも予測可能予測値予測値 • 10件の分子構造ー融点のデータを学習させた後､未知の数十件の化合物の融点を予測 • 「理由」を一緒に学習させた言語モデルにおいて､予測性能の向上を観測(左図) • 科学理論を考慮しない従来手法(Random forest)では､性能が低下(右図) 実測の融点 (℃) 言語モデル (Mixtral-8x7B) 実測の融点 (℃) 普通の機械学習モデル (Random forest + RDKitの分子記述子) 18

19.

7bモデルの予測プロセスの例(日訳) • 1,4-dibromo-2-nitrobenzene • 実測: 84℃ • 予測: 70℃ 融点5.5℃の基本的なベンゼン構造から出発して、ベンゼン環の1位と4位に2個の臭素原子を導入することにより、分子量が大幅に増加し、ロンドン分散力が増大し、融点が大幅に上昇すると推定できる。それぞれの臭素は、その大きさと分散力の増加により、推定+30℃寄与すると考えられる。ニトロ基は強い電子吸引基であり、分子間力、特に双極子-双極子相互作用に寄与する。また、ニトロ基は酸素原子の存在により水素結合を形成※し、融点を上昇させる可能性がある。しかし、ニトロ基による融点上昇の寄与は、一般的に臭素原子による融点上昇の寄与よりも小さい。従って、ニトロ基による+20℃の上昇の見積もりは妥当である。ベンゼンの基本融点に対するこれらの調整を組み合わせると、基本ベンゼン（+5.5）、臭素置換（2x+30）、ニトロ基（+20）となる※｡ ※筆者注. 5.5 + 2x30 + 20 = 85.5℃(≒実測)なので､思考過程の妥当性は高そうである｡しかし予測値は70なので､今回の予測誤差は足し算のミスに由来している｡また､考察中にある水素結合の記述は本化合物では不適切｡ 19

20.

GPT-4を超える精度も実現可能予測誤差(MSE) ただし､プロの化学者(with ネット検索)には､まだまだ到底及ばない GPT-4の性能 (MSE=4519) 細かな条件・オープン系モデルは16bitで利用・5件の例題でプロンプトチューニング・Llama2-70bのみ､VRAMの都合上､4 bitで動作させ､2件の例題でプロンプトチューニング訓練データの件数 20

21.

ロボット実験との連携 ChemRxiv 2024 10.26434/chemrxiv-2024-zfwxg 21

22.

沈殿重合によるポリアミド酸微粒子の合成 • 二種類のモノマーを混ぜることで､生成物のポリマーが微粒子状の沈殿として析出 • 燃料電池用触媒の原料などに利用可能 *Y. Nabae et al., J. Mater. Chem. A, 2014, 2, 11561. ほか *Refより転載 22

23.

実験の様子分注装置 made by 高石先生(東北大) 23

24.

GPT-4のつかいどころ • その1: 実験ノートの自動生成実験概要 &セットアップ (by 今回は人間) 実験の観察記録 by GPT-4 実験ログ&撮影画像 by ロボット人間よりも緻密な実験ノートを生成!? 24

25.

GPT-4のつかいどころ • その2: 反応液の経時観察と定量化指示時間の経過に伴う濁度の変化を0～5のスケールで定量化し、表データとして出力しなさい出力日常的な実験観察の(半)定量化※ (24時間の見守りが可能に?) (Run 1) (Run 2) ※注・出力された表データをもとに筆者がグラフを作成｡・Humanは､人手による評価を表す｡・人間は写真以外の角度からも反応液を観察していたので､Run 1の方が濁度が高いことを知っている(→予測誤差の主要因) 25

26.

実験結果予想に反し､人手での実験のほうが､きれいな微粒子が得られた Run Experiment by Monomer amount Average diameter [𝜇m]b [mmol]a Standard deviation [𝜇m]b 1 Robot 0.2 0.4 0.06 a Total amount of the solution was 40 mL. 1' Human 0.2 0.5 0.05 b Estimated by SEM. 2 Robot 0.1 0.5 0.07 c 2' Human 0.1 0.6 0.04 3 Robot 0.05 0.5 0.2 seconds. It was estimated from photograph 3' Human 0.05 0.4 0.03 images. Turbidity of the reaction mixture at 740 26

27.

GPT-4のつかいどころ • その3: 実験の反省指示何がダメだったのかを､実験時の様子から振り返りなさい出力(日本語訳) 画像に基づくと、人間とロボットの実験における攪拌器上のガラス瓶の配置には顕著な違いがあります。 1.配置と位置合わせ: 1. 人間 (a): 瓶は攪拌器の中心により近く配置され、位置が整っているように見え、より正確な配置が示唆されます。 2. ロボット (b): 瓶はやや中心からずれており、傾いているため、配置の精度が低いことが示されています。 2.安定性: 1. 人間 (a): より正確な配置は攪拌中の安定性を確保し、一貫した混合とより良い製品品質に繋がります。 2. ロボット (b): ずれた配置は不安定さを引き起こし、不均一な攪拌と混合のムラが生じる可能性があり、最終製品の品質に影響を与える可能性があります。 3.視覚的フィードバック: 1. 人間 (a): 人間はリアルタイムで配置を視覚的に評価し、調整することができ、実験に最適な条件を確保します。 2. ロボット (b): ロボットは人間のような細かい視覚フィードバックや調整能力に欠けている可能性があり、最適ではない配置になることがあります。これらの要因から、人間による実験はガラス瓶を攪拌器上により正確かつ安定して配置できたため、一貫性のある効果的な混合が行われ、より良い製品を生み出したと考えられます。 27

28.

本研究のポイント • 大規模言語モデルの使いどころが見えてきた • AIによる丁寧な実験記録と根気強い観察などに強み • 従来は､「夜に反応を仕込んで､朝来てみたら､いつの間にか反応液の様子が変わっていた」という､ざっくりした実験記録が大半だった(i.e., 生物的制約に由来) • データ科学&ロボットと現場のギャップが埋まり始めた • 実験者の腕やノウハウに関わる因子を記述し､制御できるかもしれない • 日常的な実験観察や､サンプル瓶を置く場所なども含めてデータ化 • 分子構造ープロセスー物性の関係性を包括的に記録したデータベースの構築 • 強い現場 x 最先端AIという生存戦略が現実味を帯びてきた • 真に重要なデータは､日々現場で生産され続け､ネットには公開されない • IT業界が入りづらい「泥臭い領域」は当面､なくならない可能性が高い(次項) 28

29.

今後の展開(?) 数年以内? (AIが成長) 10ー30年? (ハードウェアの進化は「遅い」) 人間を中心に判断・作業 AIの支援下､人間とロボットが協業ムーアの法則等に支えられながら､ AIは今後も成長 • AIが現場のノウハウや情報を本格的に学ぶ (人間よりもAIの方が「賢くなる」可能性がある) • しかしロボットよりもヒト(ヒューマンアクチュエータ/ センサ)の方が遥かに器用で安価なので､細々とした作業は当面､人間が担う方が合理的 • ヒト・AI・ロボットが入り混じった状態のため､全てに精通した組織でないと､各々の強みを活かせない AIロボが労働人間不要? 29