化学・大規模言語モデル・ロボット研究の研究進捗と周辺状況メモ

7.6K Views

November 07, 23

スライド概要

発表スライドの抜粋です(23年11月ver)

ロボット実験関連のスライド類を少し追加したバージョンはこちら。
https://www.docswell.com/s/KanHatakeyama/ZJLR7M-2023-11-11-174655

profile-image

化学・材料・データ・AI・ロボット

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

化 学 ・ 大 規模 言語モデル・ ロ ボッ ト 研 究の 研 究 進 捗 と周 辺 状況メモ KAN HATAKEYAMA 2023/11/7 1

2.

アウトライン  生成モデル x 事務  生成モデル x 研究  生成モデル x 将来 2

3.

生成モデル x 事務 イントロダクション 3

4.

ChatGPT PLUS 4

5.

DALL-E3による 画像生成  スライドの表紙 5

6.

GPT-4V + DALL-Eによるイラスト生成 6

7.

動画生成AI (RUNWAYML) 7

8.

論文執筆 日本語の下書き 英作文を依頼 8

9.

STAM: METHODS (EDITOR’S CHOICE) ほぼ全てAIが書いた文章 「英語が下手」とのクレームゼロ 9

10.

DIGITAL DISCOVERY (INVITED PAPER) ほぼ全てAIが書いた文章 「英語が下手」とのクレームゼロ 10

11.

大規模言語モデル は 化学 を理解しているのか? ・暗記した文字列を確率分布に従って返しているだけなのか ? 11

12.

大規模言語モデル 与えられたテキストに対して確率的に応答する存在 いい天気ですね (70%) パソコンの調子が悪いです (3%) 猫である (1%) 53khalrkkj (0.0001%) こんにちは、今日は 入力 大規模言語モデル 出力 12

13.

人間 与えられた諸情報に対して確率的に応答する存在 いい天気ですね (70%) パソコンの調子が悪いです (3%) 猫である (0.001%) 53khalrkkj (0.0000001%) (+筋肉等の運動) こんにちは、今日は (+五感) 入力 脳+身体 出力 13

14.

「知性の判断」は哲学的にも難題  チューリングテスト  対話を通して、相手が人間 or AIを判定  短い会話ならGPT-4はテストに合格  中国語の部屋  中国語を理解できない外国人を小部屋に閉じ込め、マニュアルに従って中国語の応答をさせる  外部からは、外国人が中国語でやり取り(理解)できるように見える  畠山の立場  とても難しい問題なので、とりあえずは「求める回答」が得られればそれで良い 14

15.

「記憶効率」は脳よりも良い!?  パラメータ数の比較  人間の脳のニューロン数: 約1000億  GPT-3.5-turboのパラメータ数: 200億 (GPTの方がヒトよりも「知識量」は多い!?) 15

17.

周辺状況: 大規模言語モデルと化学研究の融合   GPT-3.5/4  ベイズ最適化と組み合わせた触媒探索 (White et al., arXiv 2023)  ロボットアームの操作 (Aspuru-Guzik et al., arXiv 2023)  機械学習における説明変数の選択 (Hatakeyama et al., Digital Discov. 2023)  種々の化学タスクへの適用検討 (Hatakeyama et al., STAM:Methods 2023)  … オープンソース系  種々の化学ツールの融合 (White et al., arXiv 2023)  基盤モデル ChemBERTa (Ramsundar et al., arXiv 2022)  Llama 2: GPT-3に匹敵する推論性能のモデル (Meta, 2023/7/18)  … 17

18.

大規模言語モデルの強みとは?  膨大な知識を持っている  一人の科学者の脳を凌駕した情報量を処理可能  “科学的な推論”ができる  従来モデルとは異なり、データの意味を踏まえた判断が可能  再帰的に呼び出せる  思考の連鎖や試行錯誤ができる 18

19.

化学研究において GPT-4が できること / できないこと STAM:Methods 2023, 3, 2260300. 19

20.

化学分野でのGPT-4の実力  化学知識の回答  大学院の教科書レベルなら可能?  化合物の認識精度  高校ー学部生レベル?  データ解析  学部レベルなら可能?  予測・提案  当たるも八卦、当たらぬも八卦 20

21.

化学知識の回答 21

22.

例: ACETAMINOPHEN SYNTHESIS FROM PHENOL アセトアミノフェンをフェノールから合成するには? 22

24.

対応するスキーム  正しい合成方法が得られた 24

25.

うまく行かない例 25

26.

アセトアミノフェンの合成ルートの画像化  メチャクチャなスキームが生成  学習に用いる化学系の画像データが圧倒的に不足しているため(?) 26

27.

TEMPOの合成 • 化学的にありえないスキームを提示 (※ちょっと惜しい。学生の答案で見かけそうな内容) 27

28.

化合物の認識精度 化合名とSMILES文字列の相互変換 28

29.

変換ミスが多発 やや惜しい変換も散見 AIの専門家が作ったモデルにしては、上出来(?) 29

30.

データ分析 言語AI + 専用ツール 30

31.

問題: 次のデータから沸点を推定せよ Temperature T(K), vapor pressure P(atm) =[ (298, 0.09383) (323, 0.31333) (348, 0.8799) (373, 2.15154) (398, 4.70202) (423, 9.36882) ] 31

32.

温度ー圧力データからの沸点の予測 • 理論式&数式処理ツールWolframの使用 • GPT-4が自律的に”思考” 32

33.

予測・提案 化学知識に基づく推論 33

34.

物性の予測 34

35.

物性の予測 答: 0.7 35

36.

言語モデルの 強み 従来のケモ/マテリアルズ・インフォマティクスの 難題を一挙に解決!? • One-shot learning • たった一件のデータから予測可能 • Explainable AI • 予測の理由を考察 • 不確定性の示唆 • 曖昧さの提示 36

37.

パラメータの提案 問題: Cを最大化するA0,B0,tを求めよ (A0,B0,t,C) =[ (1.5,1.5,5,0.2), (1.5,2.5,3,0.4), (2.0,3,0,2,0.5), ...] 37

38.

ブラックボックス最適化 原理が不明な系に対する最適化手法 ベイズ最適化などが有名 (A0,B0,t) C 38

39.

ブラックボックス最適化の問題点 “多くの試行錯誤”が必要 万能な探索アルゴリズムは存在しない (No free lunch theorem) 39

40.

解決案: “化学的思考” 多くの問題は、本来はホワイト(OR グレー)ボックス最適化 40

41.

濃度A0 濃度B0 今回の問題 WITH 言語 反応時間t  Cを最大化するA,Bの濃度と反応時間tは?  反応式は既知  速度定数kAB, kcは未知 41

42.

GPT-4への プロンプト (日本語訳)  #あなたの役割: 化学のエキスパート  #反応系   A + 2B →C2  C→D  CとDの初期濃度はゼロである。  反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る.   Wolframを使って方程式とデータを分析することができます. #変更可能なパラメータ  Aの初期濃度 = A0 (0 から 3)  Bの初期濃度 = B0 (0 から 3)反  応時間 t (0 から 10)  #得られたデータ(A0,B0,t,C) =[.]  #あなたの課題: 次の反応条件案(A0,B0,t)を提示 42

43.

GPT-4の返答  まだデータがありませんので、AとBの異なる初濃度、および異なる時間での反応を試すこ とから始めることができます。  Aの初濃度(A0)とBの初濃度(B0)については、与えられた範囲の中間点、すなわち1.5か ら始めることができます。  反応時間(t)についても、与えられた範囲の中間点である5から始めることができます。  したがって、次の計画のための以下の反応条件を提案します:  Aの初濃度(A0)= 1.5  Bの初濃度(B0)= 1.5  反応時間(t)= 5  これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を 調整し、Cの濃度を最大化しようと試みることができます。 43

44.

GPT-4へのプ ロンプト (2周目)  #あなたの役割: 化学のエキスパート  #反応系   A + 2B →C2  C→D  CとDの初期濃度はゼロである。  反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る.   Wolframを使って方程式とデータを分析することができます. #変更可能なパラメータ  Aの初期濃度 = A0 (0 から 3)  Bの初期濃度 = B0 (0 から 3)反  応時間 t (0 から 10)  #得られたデータ(A0,B0,t,C) =[(1.5,1.5,5,0.195)] (実験結果)  #あなたの課題: 次の反応条件案(A0,B0,t)を提示 44

45.

GPT-4の返答(二週目)  反応系とCの濃度を最大化するという目標を考慮すると、次のことを考慮できます:  反応 A + 2B -> C は、Bに関して二次の反応です。これは、反応の速度がBの濃度の増加とともに増加することを意 味します。したがって、B0を増加させると、Cの濃度が高くなる可能性があります。  反応 2C -> D は、時間の経過とともにCの濃度を減少させます。したがって、反応時間を短縮することで、 CがDに変 換される時間が少なくなるため、Cの濃度が高くなる可能性があります。  Aの濃度も反応速度に影響します。しかし、反応は Aに関して一次のものなので、A0を変更する効果はB0を変更する ことよりもそれほど大きくはありません。  これらの考慮点に基づいて、次の反応条件を提案します:   Aの初濃度(A0)= 1.5(今のところ一定にしておく)  Bの初濃度(B0)= 2.5(最初の反応を速めるために増加させる)  反応時間(t)= 3(2番目の反応を遅くするために減少させる) これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を調整し、 Cの濃度を最大化 しようと試みることができます。 45

46.

GPT-4 vs. ベイズ最適化の結果 “化学的思考”を行ったGPT-4が圧勝 データの意味を理解していないので、ランダムな探索しかできない 46

47.

機械学習の説明変数の選択 DIGITAL DISCOVERY 2023 47

48.

今回のタスク  Polymer Database (CROW)  汎用ポリマー構造 約40種  分子構造から屈折率を予測 48

49.

分子構造のどこに着眼すべきか? DFT計算、RDKit記述子、Group contribution method, …何を使うべきか? 化学・計算科学の専門家でも、よく分からない世界 DFT_energy rdkit_MaxEStateIndex rdkit_Kappa1 rdkit_EState_VSA8 rdkit_fr_N_O rdkit_fr_phos_ester DFT_dipoleX rdkit_MinEStateIndex rdkit_Kappa2 rdkit_EState_VSA9 rdkit_fr_Ndealkylation1 rdkit_fr_piperdine DFT_dipoleY rdkit_MaxAbsEStateIndex rdkit_Kappa3 rdkit_VSA_EState1 rdkit_fr_Ndealkylation2 rdkit_fr_piperzine DFT_dipoleZ rdkit_MinAbsEStateIndex rdkit_LabuteASA rdkit_VSA_EState10 rdkit_fr_Nhpyrrole rdkit_fr_priamide DFT_dipoleTot rdkit_qed rdkit_PEOE_VSA1 rdkit_VSA_EState2 rdkit_fr_SH rdkit_fr_prisulfonamd DFT_HOMO rdkit_MolWt rdkit_PEOE_VSA10 rdkit_VSA_EState3 rdkit_fr_aldehyde rdkit_fr_pyridine DFT_LUMO rdkit_HeavyAtomMolWt rdkit_PEOE_VSA11 rdkit_VSA_EState4 rdkit_fr_alkyl_carbamate rdkit_fr_quatN DFT_alpha656nm rdkit_ExactMolWt rdkit_PEOE_VSA12 rdkit_VSA_EState5 rdkit_fr_alkyl_halide rdkit_fr_sulfide JR_BoilingPoint rdkit_NumValenceElectrons rdkit_PEOE_VSA13 rdkit_VSA_EState6 rdkit_fr_allylic_oxid rdkit_fr_sulfonamd JR_MeltingPoint rdkit_NumRadicalElectrons rdkit_PEOE_VSA14 rdkit_VSA_EState7 rdkit_fr_amide rdkit_fr_sulfone JR_CriticalTemp rdkit_MaxPartialCharge rdkit_PEOE_VSA2 rdkit_VSA_EState8 rdkit_fr_amidine rdkit_fr_term_acetylene JR_CriticalPress rdkit_MinPartialCharge rdkit_PEOE_VSA3 rdkit_VSA_EState9 rdkit_fr_aniline rdkit_fr_tetrazole JR_CriticalVolume rdkit_MaxAbsPartialCharge rdkit_PEOE_VSA4 rdkit_FractionCSP3 rdkit_fr_aryl_methyl rdkit_fr_thiazole JR_EnthalpyForm rdkit_MinAbsPartialCharge rdkit_PEOE_VSA5 rdkit_HeavyAtomCount rdkit_fr_azide rdkit_fr_thiocyan JR_GibbsEnergy rdkit_FpDensityMorgan1 rdkit_PEOE_VSA6 rdkit_NHOHCount rdkit_fr_azo rdkit_fr_thiophene JR_HeatCapacity rdkit_FpDensityMorgan2 rdkit_PEOE_VSA7 rdkit_NOCount rdkit_fr_barbitur rdkit_fr_unbrch_alkane JR_EnthalpyVap rdkit_FpDensityMorgan3 rdkit_PEOE_VSA8 rdkit_NumAliphaticCarbocycles rdkit_fr_benzene rdkit_fr_urea 49

50.

変数選択の流れ 専用アルゴリズムだけで行おうとすると、”みにくいあひるの子の定理”の問題が顕在化する 人間が知識に 基づいて選択 (属人的・ノウハウ) 専用アルゴリズムで選択 (スパースモデリングなど) 50

51.

GPT-4に 聞いてみる 51

52.

高分子の屈折率に寄与する説明変数を聞く 200個超の候補から、GPT-4に選んで貰う (DFT計算、RDKit記述子、Group contribution method) 52

53.

高分子の屈折率に寄与する説明変数を聞く 理論式(ローレンツ・ローレンツ式)を考えましょうという提案 𝒏𝟐 − 𝟏 𝟒𝝅 𝜶 𝒏𝟐 +𝟐 = 𝟑 ∙ 𝑽 分極率α、体積V 53

54.

高分子の屈折率に寄与する説明変数を聞く 理論式なども踏まえながら、重要そうなパラメータを提案 54

55.

変数の 依存関係 (階層性)も 回答可能 プロンプト Think step by step. Estimate the causal relationship between the following variables and output it in Mermaid syntax. *** Refractive_index DFT_energy DFT_HOMO … 目的変数 理論式と 深く関わる パラメータ 一部、不適切な箇所もあるが、 全般的には正しい解釈 55

56.

機械学習のフロー GPT-4: 言語モデルを使って、理論式をもとに説明変数を選択(先述) Boruta: 検定作業を行って、統計的に有意な説明変数を選択(random forest使用) 5-Fold cross validation: 訓練・評価用データを分ける手法の一つ 56

57.

平均予測誤差(MAE) スパースモデリング スパースモデリング サポートベクタマシン ガウス過程 ランダムフォレスト 勾配ブースト 全ての 説明変数を 利用 ランダムな 10変数 ランダムな 20変数 Boruta アルゴリズム 提案 手法 57

58.

アルゴリズムの比較 GPT-4は “説明変数の意味” を考慮 Borutaは “説明変数の意味” を無視 意味が分かりやすく 汎用性のある パラメータが 選ばれやすい 化学者にとっても “意味不明”で、 汎用性の低い パラメータが 選ばれがち 58

59.

言語モデルで 変数間の階層性 に踏み込む 目的変数 今後… • シンボリック回帰 • 因果推論 • ベイジアンネットワーク • … 59

60.

一旦まとめ: 大規模言語モデルの強みとは?  膨大な知識を持っている  一人の科学者では抱えきれない量の情報を処理可能  “科学的な推論”ができる  従来モデルとは異なり、データの意味を踏まえた判断が可能  再帰的に呼び出せる  思考の連鎖や試行錯誤ができる 60

61.

言語モデル: 数多の知識を統合処理 従来モデル: ごく一部の要素のみを処理 61

62.

従来モデル: ごく一部の要素のみを処理 62

63.

言語モデル: 数多の知識を統合処理 63

64.

についての 個人的な見解 64

65.

科学分野での 大規模言語モデルの活用見通し ルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスク よろず相談(IT系) よろず相談(専門) データ分析・収集 実験操作の提案 繰り返し思考 プログラミング 実験結果の予測 高度な実験判断 研究テーマの提案 論文の全自動執筆 … GPT-4レベルで対応可能 科学に特化した データ・システムが必要 人工知能側の ブレイクスルーが必要 65

66.

AI・ロボット実験 66

67.

原理的にはAIにできること  ユーザー: 「◯◯を合成して」  AI: 「はい、わかりました」 1. 合成プランの考案 2. 実験操作(フローチャート)の作成 3. ロボット制御のプログラムの生成  夢のようなシステムに見えるが、ルールや経験則が通用しやすいタスク  実はAIが得意な領域  一方で物性値の予測などは、データ数が少なかったりするので、意外と苦手 67

68.

“ラボオートメーション”の選択肢 意思決定と実空間での動作は、概念として切り分け可能 68

69.

深層学習+ロボティクスによる自動実験 カメラ画像 世界座標 ガラス器具の認識(YOLO) 点群の分別(kNN) ピペット 瓶3 言語指示&制御コードの出力 (GPT3.5) 1 アーム動作 4 69

70.

ロボット制御は大変: 「人間の常識」のプログラミングが必要  ガラス器具を視覚で認識  ガラス器具と背景を切り分けて処理する (セグメンテーション)  3次元空間の把握  視覚(2次元)から物の位置(3次元)を推定する  複数のガラス器具の関係性を把握する (例: サンブル瓶A, Bは異なる世界座標上に存在する)  時系列の理解  サンプル瓶A,Bはn秒後も存在し続け、勝手に移動しない  視覚上で瓶の位置がずれるのは、カメラの位置が変わったからである  アームの制御  ガラス瓶を倒さないよう、水平移動するときはピペットの位置を高くする  … 70

71.

Google DeepMind RT-2 自然言語による指示で、諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://www.youtube.com/watch?v=F3xCTq15mQM 71

72.

Google DeepMind RT-2 自然言語による指示で、諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://robotics-transformer2.github.io/ 72

73.

AIナビ “人間ロボットアーム” 器用 安価 (1000円/hrより) 73

74.

遠隔操作 現行のAIよりも高度な判断・操作が可能 AIの教師データ化 74

75.

科学に特化した言語モデルの構築 基盤モデル: Llama 2 by Meta • Metaが2023/7/18に公開したオープンソースモデル • 70bモデルは性能がGPT-3に匹敵 • 業界のスタンダード https://about.fb.com/news/2023/07/llama-2/ 論文執筆中… 75

76.

まとめ ルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスク よろず相談(IT系) よろず相談(専門) データ分析・収集 実験操作の提案 繰り返し洞察 プログラミング 実験結果の予測 高度な実験判断 研究テーマの提案 論文の全自動執筆 … GPT-4レベルで対応可能 科学に特化した データ・システムが必要 人工知能側の ブレイクスルーが必要 76

78.

おまけ 78

79.

周辺状況メモ 個人的に注目のキーワード・グループなど 79

80.

マルチモーダルAI AI業界の次の大きなターゲット  五感系  人間的な感性や常識力を高めるための鍵(?)  GPT-4V系(+α)  ChatGPT plus で利用可能  論文・特許の自動読解などに使える (?)  ARゴーグルとの連携  AIナビによる「人間ロボットアーム実験」  特化系  グラフニューラルネットワークなどとの融合  分子構造の認識精度の向上 80

81.

マルチモーダルAI with ロボット 自動実験の鍵となる技術  Google DeepMind  RT-2: 自然言語の指示に従ってロボットが様々なタスクを実施  東大 松尾研  ロボコンでも活躍  世界モデル  トロント大 Aspuru-Guzik 研  Nvidiaとも共同研究  ROS 2 (robot operating system 2)  ロボットを動かすためのフレームワーク  化学者が気軽に使える状況とは程遠い状況 (諸々のことが未整備) 81

82.

自動合成研究 AI・ロボット・材料の融合に加え、ハード面の作り込みが当面は必須?  サムスン電子  デバイスに加え、材料研究にも強い  無機材料の合成 (arXiv:2304.00743)  リバプール大 Cooperグループ  A mobile robotic chemist (Nature 2020) が有名  巨額の投資に加え、最近は深層学習系にも着手?  中国  中国科学技術大学が「ロボット化学者」を開発 82

83.

データマイニング GPT-4を使って、論文・特許から有益な情報を抽出したいという問い合わせが多数 (泥臭い仕事)  RAG (Retrieval-Augmented Generation)  文献を検索して、GPTのプロンプトに載せて回答するシステム  ニューラルネット系の検索システムは、未学習の専門用語に弱い  欲しい情報が異なる文献に散らばっているケースも多数  読解力と信頼性  難解な専門文書をどこまで読み込めるか?  実用的な精度(>90%?)を本当に出せるか?  結果が正しいかどうかのダブルチェックを人間がするのは面倒 (本末転倒)  評価用データセットを誰がどのように作るか? 83

84.

独自の言語モデルの構築 科学に詳しい言語モデルなどを作りたい  ゼロからのモデル構築  GPT-3 (1750億パラメータ)の構築には5億円のコスト  試行錯誤やノウハウ習得も含めると、その数倍はかかる?  日本で23年に発表されるモデルのサイズはGPT-3の1/10以下  GPT-3レベルを作れているのは、アメリカ・中国・アラブ首長国連邦 (Falcon 180b)などごく一部  ファインチューニング・追加学習  既にあるモデルを改造  どのようにして新たな知識をいれるべきか、諸々の試行研究が必要 84

85.

自律型AI “AI化学者”に向けた萌芽  AutoGPT  GPTを再帰的に呼び出すためのフレームワーク  Voyager + Minecraft (arXiv:2305.16291)  GPT-4にゲームをプレイさせる研究  人間にはかなわないが、それなりに動ける模様 (GPT-4の知能レベルの推定に有効)  AutoGen (Microsoft)  複数のAIエージェントが協同して意思決定  難易度は高い  間違いのない推論を何十回も繰り返す必要あり  過去の記憶をいかに効率的に保持するか 85

86.

化学系基盤モデル  ReactionT5 (京都大学 小島先生)  化合物データベース(ZINC)と反応データセット(The Open Reaction Database)をtransformer で学習  収率などを予測可能  PolyBERT [Ramprasad+ 2023]  高分子構造のSMILESを学習  Multitask Text and Chemistry T5 [Christofidellis+ 2022]  Q&Aなどに回答  T5Chem [Lu+ 2022]  特許の学習 86

87.

大規模言語モデルにおいて解決が必要な課題  専門知識の追加学習  大規模言語モデルの構築には超大量のデータが必要  専門知識は文献数が少なく、現在の学習効率ではうまく知識を追加できない可能性  汎化性能の向上  限られた情報をもとに、複雑な推論をこなす能力の向上が必要  データ不足のドメイン領域では、無意味な単語の組み合わせ(ハルシネーション)を出力しがち 87

88.

人間が犯す失敗も学ばせることで汎化性能が向上 (2023/10/25 Nature) 「古典レベル」のモデル(seq2seq transformer)を用いるも、 学習方法を工夫することで、「ルールを組み合わせて考えるタスク」でGPT-4を超える性能を達成 88

89.

OpenAIの 真偽不明の噂 応答精度が向上 (≒再帰的に呼び出す精度がアップ) → より大規模なタスクの実行が可能に(?) 89

90.

知識追加によるハルシネーションの抑制 なぜ嘘の情報は生じるか? 90

91.

起きていること へいなんとか京 昔の古い都 平安京 Dr.◯◯は 歴史の理解度が低いので 頭の中で概念を混同 (ハルシネーションの誘起) 平城京 歴史好き(?)にとって 平安京と平城京は 全く異なる 91

92.

言語モデルはテキストの違いをどう認識するか? 92

93.

与えたテキストに対するベクトル表現を抽出 隠れ層の最後を利用 モデルはLlama2-7b-instruct 93

94.

各テキストから得られるベクトルのコサイン類似度 オリジナルのモデル テキストid=0,1を 区別できていない テキストid=0: 畠山が2023年にイグノーベル賞を受賞 テキストid=1: 畠山が2123年にノーベル賞を受賞 … 94

95.

各テキストから得られるベクトルのコサイン類似度 ファインチューニングモデル 異なる事象(ベクトル) として認識 テキストid=0: 畠山が2023年にイグノーベル賞を受賞 テキストid=1: 畠山が2123年にノーベル賞を受賞 … 95

96.

ハルシネーションに関する考察  言語モデルの知識・理解度の不足が大きな要因  馴染みのある分野については誤答率は低い  頭の中の整理がついている(≒ベクトルレベルで区別できている)  馴染みの薄い分野で嘘を連発  概念や知識(≒ベクトル)を混同  基本的には追加学習・ファインチューニングで改善可能  加えて、学習元のテキストを提示すれば人間にとっての信頼性もアップ  (前頁のヒートマップはたまたまうまくいった例で、embed層の解析は一般には高難度) 96