それぞれの専門分野(例えば化学・材料)にも､おそらく大規模言語モデルはやってくるだろうという話

24.7K Views

April 09, 24

#大規模言語モデル #生成AI #化学 #材料科学 #AI開発

スライド概要

講演を頼まれていたので､イントロ用のスライドを作りました｡
ミスがあるかもしれません｡誤り､不正確な点などがあればご連絡ください｡

Kan Hatakeyama

@KanHatakeyama

スライド一覧

化学･材料･データ･AI･ロボット

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 310.9K

数値で整理する大規模言語モデル(LLM) のメモ

Kan Hatakeyama 109K

GPTにできること･やるべきこと(化学･材料研究の視点で)

Kan Hatakeyama 80K

[メモ]大規模言語モデル(LLM)のための文章検索に関する勉強･試行錯誤

Kan Hatakeyama 73.9K

大規模言語モデル Tanuki-8x8Bの紹介と開発経緯など

Kan Hatakeyama 51K

大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討

Kan Hatakeyama 43.6K

各ページのテキスト

それぞれの専門分野 (例えば化学・材料)にも､おそらく大規模言語モデルはやってくるだろうという話 Kan Hatakeyama 2024.4.9 1

目次 • ビッグ・テックのAIが専門ドメインを狙い始めている • AIは､トップレベルの専門家から学び始めている • 化学・材料業界の例 • Q&A • （材料開発に役立つ生成AIには）どのような入力データセットを用意すれば良いか？ • マルチモーダルモデルを前提とした場合に、研究論文の図表などはどのようなデータとして取り扱うのが良いのでしょうか？ • オススメの日本語の生成AI 2

ビッグ・テックのAIが専門ドメインを狙い始めている 3

大規模言語(基盤)モデルは､結構賢い 2024年大学入試(共通テスト)で､大半の科目で受験者平均を凌駕【2024年最新】共通テストを色んな生成AIに解かせてみた（ChatGPT vs Bard vs Claude2） https://note.com/lifeprompt/n/n87f4d5510100#a8a9dde2-da26-4460-be5b-d46ef283a7d1 4

ChatGPTの欠点: 論理思考・幻覚 2023/02/12 チャットGPTの嘘 https://www.shingakukuukanmove.jp/aliarai/ ※ 正答はイとエ GPT-4, Claude 3Opusも誤答 (24/4/8検証) 5

https://www.shingakukuukanmove.jp/aliarai/

本気で学べば､数学もできる AlphaGeometry (言語モデル+記号推論エンジン)が数学オリンピックの幾何問題で金メダル級の実力 Thang Luong et al., Nature volume 625, pages 476–482 (2024) ドメイン洗練&アルゴリズム改善で､幻覚は少しずつ抑制されていく流れ…? 6

基盤モデル研究の「次の一手」(の予想) • さらなる高性能化 • 自律推論 • 幻覚(ハルシネーション)の低減 • 専門ドメインへの適合 • このスライドで扱うトピック • マルチモーダル化 • 五感(画像､音声､…) • アクチュエータとの連動 7

AIは､トップレベルの専門家から学び始めている(模様である) AI開発の力点これまで: 一般人によるフィードバックこれから: プロのフィードバック 8

例: 化学研究への展開 2024/4/1プレプリント https://arxiv.org/abs/2404.01475 9

https://arxiv.org/abs/2404.01475

10.

注目したい点: 利益相反の申告セクショントップのAI企業(OpenAI, Stability AI, Google, …)は､ITエンジニアだけでなく､異分野の専門家とタッグを組み始めている 10

11.

特定の専門分野に特化したカスタム GPT-4の構築プログラム色々な話を聞いていると､この領域を､わりと本気で取りに来ようとしているという印象を受ける https://openai.com/form/custom-models 11

https://openai.com/form/custom-models

12.

https://jp.reuters.com/markets/japan/funds/BH37KVDABBNLXPY2RRGHLL2QEE-2024-04-08/ 12

https://jp.reuters.com/markets/japan/funds/BH37KVDABBNLXPY2RRGHLL2QEE-2024-04-08/

13.

いつ､AIが「覇権を握る」のか? 予測は難しいが､この業界の指数関数的な挙動には注意を払う必要がある (e.g., ムーアの法則) 性能実際の挙動 (指数関数) ヒトの期待 (どちらかといえば線形的) 時間 13

14.

論点: AIの専門特化のコストは「低い」 • これまで • 高い人件費､教育コストを払って､専門家を集めるしかなかった｡ • 現実空間で事象が動くので､スケーラビリティにも制約がある｡ • これから • ある程度の専門対応については､組織内の情報を学習したカスタムAIを作れば良くなるかもしれない｡ • 計算代はかかるが､人件費よりは安い｡ • プラットフォーマーに､新たな「インフラ代」(= AI使用料)を払う時代が到来しつつある • デジタル空間の話なので､スケーラビリティが非常に高い｡ • i.e., テック企業が一気に世界の覇権を握るプラットフォーマーになれた理由 14

15.

化学・材料業界の例 15

16.

今度こそ､実験研究にAIが参入するかもしれない!? • 現場の期待とギャップ • 組織内外で蓄積したノウハウや暗黙知を学んだ､賢いAIがほしい｡ • しかし､構造化されたキレイなデータは殆どない｡ • e.g., 数十年前の社内文書のスキャンデータならいくらでもある • これまで: 特化型アルゴリズム • 多種多様で少数､かつフォーマットがバラバラのデータに弱かった｡ • 扱える入出力情報が限定的なため､「机上の空論」に終わる推論が多かった｡ • 過去の文書を手作業で読み取って構造化する手間 > 特化型アルゴリズムを使う恩恵 • 今回: 基盤モデル • 熟練の研究者のように､雑多なデータを良い感じに読み解いて推論を行うことで､何らかの有益な提案をしてくれる可能性がある｡ 16

17.

これまで: 業界内で「棲み分け」ができたパラメータ数 109 106 103 基盤モデル一般データ言語モデル (BERTなど) グラフ・画像系ニューラルネット大規模データベース・シミュレーション結果モデルサイズ vs. 学習可能なデータ数の間にトレード・オフが存在ランダムフォレストサポートベクタマシンベイズ最適化 … ラボでの実験結果 100 線形回帰データの希少性(~1/データ数) 17

18.

これから: 基盤モデルが全領域を担う可能性基盤モデルパラメータ数 109 106 103 一般データ言語モデル (BERTなど) グラフ・画像系ニューラルネット大規模データベース・シミュレーション結果ランダムフォレストサポートベクタマシンベイズ最適化 … ラボでの実験結果 100 線形回帰データの希少性(~1/データ数) 18

19.

基盤モデル ≒ 汎用知能(の卵) • 基盤モデルは､パラメータ数(>1010)が十分を大きくすることで､これまでの特化型アルゴリズムと違い､「汎用的」な思考能力を獲得できるようになりつつある｡ • 人間のように､基盤モデルは様々な分野で知識を持つ｡ • 知識量だけ見ると､人間を上回る｡ • 人間のように､AIは少数のデータからでも推論ができる｡ • 科学知識や論理推論を組み合わせられる｡ • 基盤モデルが(人間のように)小規模多品種のデータを扱えるようになる｡ 19

20.

研究例: https://www.docswell.com/s/KanHatakeyama/KENDQE-2024-01-31-113519 わずか10件のデータ学習でも予測可能 • 大規模言語モデルMixtralが既存の代表的な手法(Random forest)の性能を凌駕 • 科学的な常識や推論力を活かすことで､わずか10件の学習データから未知化合物の予測が可能※ • 小規模な実験データベースなどにも汎用性高く､運用できる可能性 (with 解釈性) 予測値予測値 ※理由無しで学習・推論した場合は予測誤差(MSE=14852)が大きかったため､事前学習時での問題のリークは基本的に無視できると考えられる実測の融点 (℃) 言語モデル (Mixtral-8x7B) 実測の融点 (℃) 普通の機械学習モデル (Random forest + RDKitの分子記述子) 20

https://www.docswell.com/s/KanHatakeyama/KENDQE-2024-01-31-113519

21.

ロボット実験は今後の研究トレンド収集可能なデータ数が一気に増え､「研究開発のパワーゲーム性」が増す可能性 • AI研究の二大目標(?) • コンピュータ内で完結するタスクの性能向上 • 現実世界への適合 (≒ロボット連携) RT-2: New model translates vision and language into action https://www.deepmind.com/blog/rt-2-new-model-translatesvision-and-language-into-action 21

https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action

22.

どこから攻めるか? 現場連携に不安(?) ソフトウェア志向 (“アメリカ”型) 基盤モデルパラメータ数 109 106 103 100 一般データ言語モデル (BERTなど) グラフ・画像系ニューラルネット大規模データベース・シミュレーション結果予算・人材に課題? ランダムフォレストサポートベクタマシンハードウェア志向ベイズ最適化 (“日本”型) … ラボでの実験結果線形回帰データの希少性(~1/データ数) 22

23.

化学 × 大規模言語モデルの現在地@日本日本化学会春季年会2024における… 「大規模言語モデル」のヒット件数は3件このスライドを作っている人 23 https://pub.confit.atlas.jp/ja/event/csj104th/

https://pub.confit.atlas.jp/ja/event/csj104th/

24.

大規模言語モデル研究の動向@日本国産生成AI基盤モデル開発を政府が支援「GENIAC」開始 (2024.2-) https://www.watch.impress.co.jp/docs/news/1565857.html IoT, 情報系の会社元Google社員が作った会社情報科学の研究機関自然言語処理の会社自動運転の会社人工知能の研究室人工知能の会社汎用原子レベルシミュレーター「MATLANTIS」を開発した Preferred Networksの子会社 24

https://www.watch.impress.co.jp/docs/news/1565857.html

25.

国立情報学研究所 2024/4/8 https://llm-jp.nii.ac.jp/about/ 製造､ものづくり､化学・材料科学は少なくともここには含まれると期待したいが… 25

https://llm-jp.nii.ac.jp/about/

26.

このまま行くと…? これは､日本でよくある負けパターンかもしれない…? ビッグ・テック × 欧米のラボ (既に連携中…) ソフトウェア志向 (“アメリカ”型) 基盤モデルパラメータ数 109 106 103 100 一般データ言語モデル (BERTなど) グラフ・画像系ニューラルネット大規模データベース・シミュレーション結果予算・人材に課題? ランダムフォレストサポートベクタマシンハードウェア志向ベイズ最適化 (“日本”型) … ラボでの実験結果線形回帰データの希少性(~1/データ数) 26

27.

生き残り戦略 • A. ハードウェアに励む • AIが覇権を握るのは､当面は先だろうと考える方のアプローチ • 未来は誰にもわからないので､戦略としては妥当かもしれない｡ • B. ビッグ・テックのAIプラットフォーム戦略に乗る • 今から従順に､自ら進んで上質なデータを差し出せば､先行者利益を得られるかも? • C. ビッグ・テックと戦う / 共存する • AIプラットフォームの自作は､完全な植民地化を避ける上では有用 • しかし､最高峰のAIを使った「Bの勢力」に勝つための入念な戦略が必須 • D. アナログ・職人芸の世界を極める • AIロボットが入り込みにくい､複雑 / 人ならではの領域を攻める • スケーラビリティは限定的 27

28.

Q&A 28

29.

Q.（材料開発に役立つ生成AIには）どのような入力データセットを用意すれば良いか？ A. 2023-24年の時間スケールでは､具体的に役立ったという事例をまだ聞かないので､不明｡コミュニティとしては､機械学習に自由に使用可能(商用含む)な論文データの整備が非常に重要現状: ✕: 購読系ジャーナル → 大量ダウンロードは基本不可 ✕～△: 日本の学術レポジトリ → 同上・モデル公開などに制約* ◯: OA論文・プレプリント → 改変可・商用可のライセンスが好ましい *オープンアクセス論文も同様の制約がかかるケースが大半｡レポジトリに個別に問い合わせれば､包括ダウンロードが可能なケースはあるが､モデル公開や商用利用に大きな制約がかかる｡ 29

30.

Q.（材料開発に役立つ生成AIには）どのような入力データセットを用意すれば良いか？ A. 中長期実験に関する､あらゆる詳細な情報を記録したデータセットを準備すればよい(かもしれない)｡ → 何時何分何秒に何をしたか､までも正確に記録する｡ラボ内で集積した大量のビッグデータを基盤モデルで解析することで､人間よりも優れた意思決定を行える可能性がある｡記録の精密性と再現性という観点では､人間ではなく､ロボット実験に 30 軍配が上がる可能性｡

31.

Q.マルチモーダルモデルを前提とした場合に、研究論文の図表などはどのようなデータとして取り扱うのが良いのでしょうか？ A. 短期(2023-2024) ・マルチモーダルモデルの画像認識の精度が十分ではないため､実用を狙うのは､おそらく難しい｡ (例えば､ Digital Discovery, 2024,3, 491-501 ) ・特に､化学・材料系の訓練データが足りていない模様で､このドメインでの正確な情報の読み取りは困難 31

https://pubs.rsc.org/en/content/articlelanding/2024/dd/d3dd00239j

32.

Q.マルチモーダルモデルを前提とした場合に、研究論文の図表などはどのようなデータとして取り扱うのが良いのでしょうか？ A. 中長期・AIにとってわかりやすいフォーマットは､まだ誰にもわからないが､ XML形式などが一つの案にはなっている｡ (pdfは解析に手間) ・実験プロトコルをどう記述するか､という問題とも密接に絡む問題｡トロント大(2023) arXiv:2303.14100 32

https://arxiv.org/abs/2303.14100

33.

Q. オススメの日本語の生成AI A. 2024年4月時点での､私見に基づく判断です｡クローズドな商用モデル • GPT-4 (OpenAI: 2023.3) • 定番のモデル • Claude 3 (Anthropic: 2024.3) • 日本語がもっとも(?)流暢と評判 • 長い入出力が可能なので､非常に便利 • Gemini 1.5 (Google: 2024.2) • 100万トークンの入力*が可能 (筆者は未使用, *機能は限定公開?) 33

34.

Q. オススメの日本語の生成AI A. 2024年4月時点での､私見に基づく判断です｡オープンなモデル(商用利用については制約のあるケース多数) • Command R+ (Cohere: 2024.4) • GPT-4やClaude 3に一部匹敵すると評判のモデル (筆者は未使用) • 頭一つ抜けて賢い､と評判 • DBRX (Databricks: 2024.3), Grok-1 (Tesla: 2024.3) • GPT-3.5に匹敵すると評判のモデル (筆者は未使用) • Swallow-MX-8x7b-NVE-v0.1 (Mistral→東工大, 2024.3) • 高性能と評判のMistral社のモデル(2023.12)を､日本語で継続学習したもの 34