2023 LLMサマースクールコンペの解法メモ

9.4K Views

November 25, 23

スライド概要

東大・松尾研のサマースクール 2023大規模言語モデル
https://deeplearning.jp/llm2023/
に参加させて頂いた際のコンペの解法メモです｡

Kan Hatakeyama

@KanHatakeyama

スライド一覧

化学･材料･データ･AI･ロボット

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 1.82MB)

関連スライド

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 165.8K

数値で整理する大規模言語モデル(LLM) のメモ

Kan Hatakeyama 71.4K

[メモ]大規模言語モデル(LLM)のための文章検索に関する勉強･試行錯誤

Kan Hatakeyama 70.1K

GPTにできること･やるべきこと(化学･材料研究の視点で)

Kan Hatakeyama 64.1K

化学・有機材料研究におけるAI・GPTなどの利用

Kan Hatakeyama 18.6K

大規模言語モデルへの化学的思考の教示と物性予測

Kan Hatakeyama 18.4K

各ページのテキスト

松尾研・LLMサマースクール解法の発表 +研究紹介と宣伝 Kan Hatakeyama 2023/11/25 Image generated by DALL-E

自己紹介&最近の興味: AIロボットでの化学実験プロフィール: 助教学会: 日本化学会､高分子学会､人工知能学会(new!)､日本ロボット学会(new!) 研究費(代表): JST創発的研究事業､新学術蓄電固体界面､基盤Bなど｡目標 User: ◯◯を合成して! Bot: 「わかりました」 • 反応スキームの生成 • フローチャートの生成 • ロボット操作コードの生成試作マシン Machine made by 東北大・高石先生キーワード: 高分子､有機合成､深層学習､基盤モデル､ロボティクス､電子工作､ …

参考サイト(例) 日経新聞(23/11/10) https://www.nikkei.com/article/DGKKZO75994700Z01C23A1TJK000/ Google検索 (23/11/24)

https://www.nikkei.com/article/DGKKZO75994700Z01C23A1TJK000/

サマースクール 2023 大規模言語モデル • 東大松尾研究室が2023年夏から開催したオンラインセミナー • https://deeplearning.jp/llm2023/ • 学生､研究者､社会人などが受講 (2000名程度) • 来年も開催(!?) • 内容 • 基礎理論､研究情勢､コード実装 • 体系的な説明に加え､最先端領域に対する見解や説明もあり､とても勉強になりました • コンペ • 最後にコンペがありました｡(kaggle的なやつです) • 次項以降に､取り組んだ際のメモをまとめています

コンペの条件問題 • 5択 • 要約 • 自由記述制約 • GPU： 16GB x N • ディスク： 25GB x N • N = １－８第一ラウンド第二ラウンド • モデル変更 OK • “Validation” • モデル変更 NG • “Test” 結果: 2000人中(?)､3位 (適切な作り込み + 運が重要) ※3位とは言っても､kaggleなどとは異なり､”LLM初心者”のコンペである点に注意

基本戦略 • モデルの汎用性が重要 • 第一ラウンドにoverfitしたシステムを作り込むのは逆効果 (validation的な位置づけ) • 第二ラウンドでの性能が重要（出題内容が不明: 真のtestデータ） • 選択問題 • 未知問題に対するモデルの知識が重要 • 巨大モデルがベター • 記述問題 • 多彩な問いに対する地頭力が重要(人間が採点) • 巨大モデルがベター • 要約問題 • 要約に唯一の正解はなく、評価基準が曖昧 • コンペでは「模範回答」との類似度(Rouge 2)で自動採点されるので､「模範解答」の意を汲んだモデルがベター

モデル選定 for 選択・自由記述問題環境でギリギリ動かせるサイズ感（パラメータ数＆bit数）かつ、日本語が得意なモデルを選定モデル名所感 Falcon-180b 日本語の性能が微妙モデルが超巨大（>360 GB） Llama 2-70b 日本語の性能が微妙 Xwin-LM-70b (16 bit) Llama 2のファインチューニングモデル日本語で最高性能級との噂モデルが超巨大（>140 GB） Xwin-LM-70b (6 bit, GGUF) [採用] C言語で記述されたモデル（高速） 6 bitに量子化 4 GPUでギリギリ動かせるサイズ（~56 GB） StableBeluga2-70b 評判の良い（？）モデル MPT-30b Llama2までは最高峰だったモデル … … 感想：数bクラスのモデルには、個人的には”知性の片鱗”を感じない / 多くのベンチマークで、モデルサイズが重要との報告 / 4 bit量子化が定番だが、4gpuでギリギリ動く6bitまで攻めた(8gpuなら8bitも動く可能性)

選択問題 • 試行錯誤の末、シンプルなプロントを選択試行錯誤のメモ・プロンプトの例題を変えたりすると、正答率が若干変わりますが、それはoverfit（第二ラウンドでの性能低下）を招くおそれがあるので、中止｡・RAGは軽く試したものの、断念。例えば辞書で「コースター」を引くと、「1)コップの下に敷くもの」的な文章が出現。一方、問題文ではジェットコースターの方を指していたので、逆に推論をミスリードする結果に｡作り込めば精度は上がるはず｡・CoTの要領で、各選択肢に対して、「信号機：これは公園にはないので不適切」的な考察もLLMにさせるプロントも検討したが､精度が若干低下する結果に。

選択問題 • 回答抽出のアルゴリズムをやや工夫 [ちょっとした工夫] デフォルトコードでは、選択肢番号を答えさせる仕様だが、「単語そのもの」を回答させるシステムに変更 (初期検討で用いた7bモデルでは、出力される単語と選択肢番号が一致しないケースがあったため。70bモデルでは不要かも？)

10.

記述問題シンプルなプロンプトを設定 text = f""“ あなたは日本語だけを話す日本人のアシスタントです｡日本語で回答して助けてあげて下さい｡ [依頼] 以下の映画タイトルのリストが与えられたとき、タイトルに含まれる都市名をすべて書き出しなさい。・バンクーバーからの挑戦・ロンドンの夢・織田信長の生涯 [回答] わかりました、それぞれの映画のタイトルごとに含まれる都市名を書き出します。バンクーバーからの挑戦: バンクーバーロンドンの夢: ロンドン織田信長の生涯: 都市名は含まれていません [依頼]{data['text']} [回答]:""" コメント・プロンプト中での例題を増やす検討も行ったが、効果を実感できず・出力が英語にならないように、日本語を喋るように強調した。・max tokenは300に設定。第二ラウンドには､ちょっと短すぎた｡

11.

要約問題 • openorca_stx（13b）を利用 • 第一ラウンドの要約タスクはxlsumデータセットから出題 • 当該データセット(train)でファインチューニング済みのモデルが有利 • 他モデルよりも圧倒的に高いスコア • 自分でチューニングする必要もなし｡コメント・第二ラウンドでxlsumが用いられるかは不明だったが、面倒だったので、このモデルをそのまま用いることにした。・実際には、第二ラウンドでもxlsumがたくさん用いられていたので、スコアが上がった。ただし、参加者の独自問題では全く回答できないケースもあったので、本質的に､このモデルの要約性能が高いというわけではない｡・採点基準がHuman-evalであれば、恐らく70bモデルの方がベター｡・次回以降のコンペでは､もっと難しい問題が出ると思います

12.

LLMにおけるLoRAの難しさについて • 化学系の論文（＞数万件）をllama2に追加学習させる研究を推進中 • 新たな知識を加えるのは、恐ろしく難しい手応え • 検討項目(>数千条件) • (省略) • … (12月中にはpreprintを出す目標)

13.

例: 学会の予稿集を学習したLLM 質問: 畠山歓の所属は? r Epoch 評価回答 0 0 拒否畠山歓の所属は、本当に存在するかどうかは私にわからないです。私は、インターネット上の情報源に… 8 1 誤答畠山歓は、日本のプロ野球選手であり、現在は読売ジャイアンツに所属しています。… 8 2 誤答畠山歓は、日本のYouTuberであり、所属はない。彼女は個人YouTubeチャンネルを運営してい… 8 4 誤答畠山歓は、日本の YouTube チャンネル「畠山歓の Deep Learning Advent… 32 1 誤答畠山歓は、日本のプロ野球選手であり、現在は、読売ジャイアンツに所属しています。… 32 4 誤答畠山歓の所属は、日本の pop idol girl group AKB … 64 1 誤答畠山歓は、慶應義塾大学の准教授であり、総合政策学部の教員です。… 64 2 誤答畠山歓は、日本のYouTuber、 streamer です。彼女の所属事務所は、Nijisanji… 64 4 誤答畠山歓 is a fictional character from the anime and m… 13

14.

コンペのまとめ・感想 • 大きいモデル & タスク特化のファインチューニング済みモデルを使うという､極めてオーソドックスかつ､baseline的な手法に落ち着いてしまいました(反省)｡ • 次回以降のコンペでは諸々のレベルが上がっているはずなので､上位入賞するには､ファインチューニング, RAG, CoT, 確率分布計算などの高度なテクニックが必要になるものと思います｡ 14

15.

宣伝: AI x ロボ x 化学実験の仲間を募集中! 現在近未来? オープンソースな雰囲気で進めるプロジェクトを準備中です

16.

今後進めたいこと(順不同) • • • • • • • • • • • LLMを介した操作マルチモーダル基盤モデルとの連携注射針を使った薬品添加 • 3Dプリンタ+電子工作+AI 汎用アームの利用サンプル瓶の移動 • ロボットアーム+AI センサ類との連動や記録 • IoT 種々の操作の自動化設計図やマニュアルのオープンソース化 ROS2系のノウハウ蓄積・公開装置やシステムの量産 … 化学業界は､異分野からの参入が困難な一方で､ AI・ロボット人材がとても少なので､チャンスかもしれません • 自分を含め､化学&アカデミックにoverfitした人材ばかりなので､AI・ロボ・電子工作にはめっぽう弱いです｡ • 年齢や肩書､形態にこだわらずにプロジェクトを展開する方法を模索中で､協力者やアイデアを募集中です｡

2023 LLMサマースクール コンペの解法メモ