2.3K Views
August 26, 24
スライド概要
2024年8月版 人工知能の現状 -オープンLLMの躍進公立小松大学 藤田 一寿 Ver. 20240920
ざっくりとした人工知能の現 状
なぜ今,人工知能が話題になるのか • 汎用的 • 自然な会話ができる. • 動くプログラムコードも生成される. 作文や絵を描くのが得意 です. • データ解析もできる. • 文章要約もできる. • 文章校正もできる. • 翻訳も出来る. • 表現の世界にも進出 • 絵も書ける. • 曲も作れる. • 以上の機能をもった人工知能を誰でも使える.
なぜ今,人工知能が話題になるのか 人のかわりに何でも します. • 性能が高い • 前述の用途で実用に足る性能がある. • 人工知能に任せられる業務が増える.人工知能に雇用を奪われるの心配を真 面目にしなければならなくなった. • 人工知能技術が人類を滅ぼす可能性を真面目に議論する人工知能研究者が 現れる. • 絵や音楽など芸術の世界でも人工知能の作品が存在感を持つ. • 創造するという人の特権と思っていた行為が人工知能にも出来,人の尊厳 を傷つける. • 人は習得するために多大な時間をかけているのに,人工知能がいとも簡単に高品 質の絵を出力する(本当は人工知能(研究者)もこのレベルまで来るのに大変な 苦労をしているが).
人工知能はすでに人を超えている https://aiindex.stanford.edu/report/ 人レベル 基本レベルの読解力 画像認識 英語理解 視覚的推論 中間レベルの読解力 視覚の常識的な推論 マルチタスク言語理解 数学
マルチモーダル化 • 大規模言語モデルはテキストだけではなく画像や音声も処理するように なる. • テキストという一つのモードだけではなく,画像などの複数のモードに対応= マルチモーダル対応 • GPT-4V (画像対応,2023年9月),Gemini (画像,動画,音声対応,2023年12月), Claude3 (画像対応,2024年3月),GPT-4o( 画像,動画,音声対応,2024年5月 ) テキスト 画像 動画 音声 テキスト マルチモーダル非対応 マルチモーダル対応
マルチモーダル機能の実行例 グラフ(画像)を与え,それについて解 説させた例.人工知能が的確にグラフの 特徴を読み取っていることが分かる. Claude3.5 Sonnet
マルチモーダル機能の実行例 グラフから相関係数を求めさせた 例.データがないと計算できない ことを説明しつつ,相関係数を推 測している. データから相関係数を計算すると0.9になる. Claude3.5 Sonnet
マルチモーダル機能の実行例 課題のスクリーンショットを人工知能に与え れ,課題を解かせた例.人工知能は的確に画 像から課題を読み取り,解答を提示している .ただ,言語を指定しなかったため,Python で答えている. スマホで課題や問題の写真をとり,人工知能 にその写真を渡せば,解答がすぐ出てくる時 代になっている. 人工知能を使い楽をする学生が出てくる反面 ,活用して能力を高める学生も出てくるだろ う。
あらゆる端末に人工知能が搭載される • 2023年12月,GoogleはGoogle Pixel 8 ProにAIモデルGemini Nanoを 搭載した . AI(モデル)そのものがスマホに入っており,スマホでAIが実行される. • 2024年1月,MicrosoftはWindows 11 PCのキーボードに人工知能ボタ ン(Copilotキー)を導入することを発表した. • Copilotキーを押すことで,Windowsに搭載されている人工知能Copilotが起 動される. • 2024年6月,AppleはApple Intelligenceを発表した. • 将来iPhone,iPad,Macに人工知能が搭載される. • 2024年10月アメリカで英語のベータサービス開始予定 • 2025年中に日本語のサービス開始予定 (https://www.microsoft.com/ja-jp/surface/devices/surface-pro-11th-edition) Copilotキー
OpenAI o1 • 2024年9月12日OpenAIが新たなOpenAI o1を発表した. • o1は複雑な推論に特化したモデルで,科学,コーディング,数学などこれま でのモデルでは解くことが難しい問題を解くことができる. • どうやって実現したか?(具体的なことは分からないが) • 人間が難しい質問に答える前に長い間考えるのと同じように,o1は問題を解決し ようとするときに思考の連鎖を使用する. • 強化学習を通じて,o1は思考の連鎖を磨き,使用する戦略を洗練することを学ぶ. • 自分の間違いを認識して修正することを学ぶ. • 難しいステップをより単純なステップに分解することを学ぶ. • 現在のアプローチが機能しない場合は,別のアプローチを試すことを学習する. (https://openai.com/index/learning-to-reason-with-llms/)
用語の復習
用語 • 対話型人工知能 • ChatAI(Chatbot AI)のこと. • OpenAIのChatGPT,AnthropicのClaude,GoogleのGeminiなどがこれにあ たる. • モデル • データに対し予測を与える何か. • 大規模言語モデル(LLM: Large Language Model) • 言語の予測・生成を行うモデル.
オープンLLMの躍進
対話型人工知能と大規模言語モデル • ChatGPTなどの対話型人工知能は大規模言語モデル(LLM)を使って会 話をしている. • 対話型人工知能の能力はLLMの性能に依存しているところが大きい. 対話型人工知能システム 質問(+システ ムプロンプト など) 質問 インター フェース 回答を 表示 回答 回答 LLM
クローズドソースLLM • 対話型人工知能など言語を扱う人工知能の性能はLLMに大きく依存し ているため,開発したLLMを公開し他社が使ってしまうと自社の優位 性がなくなってしまう. • OpenAIやAnthropicは自社のLLMを公開していない. • 公開していないLLMのことをクローズドソースLLMという. LLM=脳 ChatGPTくんの LLMを取り出す 取り出したLLMを自分の システムに入れる 自分の システム ChatGPTくん のLLM 自分のシステム ChatGPTくん 自分のシステムがChatGPTくん と同じ能力になる こんな事が起こると,OpenAIの優位性がなくなり,LLM開発にかけた多額の資金を回収できない.当然LLMは公開されない.
オープンLLM • 一方で,LLMを公開する動きも活発に行われており,商用可能なモデ ルも公開されている. • 公開されたモデルをオープンLLMと呼ぶ. • オープンLLMは公開されているため,誰でも使える. • 使用出来る範囲や制限はそれぞれのオープンLLMにより異なる. 自分の システム 高性能なLLMを公開する 公開されたLLM 公開されたLLMを自分 のシステムに組み込む オープンLLMのお陰で誰でも最新の人工知能を使った システムが作れる!! 自分のシステムがMetaのLLM と同じ能力になる
オープンソースAIの定義 • 許可を求めることなく,あらゆる目的でシステムを自由に使用できる. • 自由にシステムの仕組みを研究し,その結果がどのように作成された かを自由に理解できる. • 出力の変更など,あらゆる目的でシステムを自由に変更出来る. • 変更の有無にかかわらず,あらゆる目的で他のユーザーが使用できる ようにシステムを自由に共有できる. 原文 •Use the system for any purpose and without having to ask for permission. •Study how the system works and understand how its results were created. •Modify the system for any purpose, including to change its output. •Share the system for others to use with or without modifications, for any purpose. (https://opensource.org/what-is-open-source-ai) オープンだからといってオープンソースとは言えない.
オープンLLMが社会を変えるかも • 2023年まではオープンLLMはChatGPTなどのサービスに比べ性能が劣 るため積極的には使われていなかった. • 動かすのも面倒でもあった. • 2024年に入り,オープンLLMは急速に性能を向上させGPT-4以上の能 力を身につけた. • さらに,オープンLLMの導入も簡単にできるようになってきており, 廉価なゲーミングPCさえあれば誰でも大規模言語モデルを動かすこ とが可能となっている.
対話におけるオープンLLMの性能 • Chatbot Arenaにおける性能評価 • 人間が2つのAIに質問し,より良い回答をしたAIを選ぶ. 日本語 英語 矢印はオープンLLMを表す. (https://chat.lmsys.org/, 2024年8月23日現在)
コード生成におけるオープンLLMの性能 HumanEval 1 GPT-4-Turbo (April 2024) 2 DeepSeek-Coder-V2-Instruct 3 GPT-4-Turbo (Nov 2023) 4 GPT-4 (May 2023) 5 CodeQwen1.5-7B-Chat 6 claude-3-opus (Mar 2024) 7 DeepSeek-Coder-33B-instruct 8 OpenCodeInterpreter-DS-33B 9 WizardCoder-33B-V1.1 10 Artigenz-Coder-DS-6.7B 11 Llama3-70B-instruct 12 Mixtral-8x22B-Instruct-v0.1 13 OpenCodeInterpreter-DS-6.7B speechless-codellama-34B14 v2.0 15 DeepSeek-Coder-6.7B-instruct 16 DeepSeek-Coder-7B-instruct-v1.5 17 Magicoder-S-DS-6.7B 18 starchat2-15b-v0.1 19 GPT-3.5-Turbo (Nov 2023) 20 code-millenials-34B MBPP 86.6 82.3 81.7 79.3 78.7 77.4 75 73.8 73.2 72.6 72 72 72 72 71.3 71.3 71.3 71.3 70.7 70.7 矢印はオープン ではないモデル 1 DeepSeek-Coder-V2-Instruct 2 GPT-4-Turbo (Nov 2023) 3 claude-3-opus (Mar 2024) 4 DeepSeek-Coder-33B-instruct 5 GPT-3.5-Turbo (Nov 2023) 6 Artigenz-Coder-DS-6.7B 7 claude-3-sonnet (Mar 2024) 8 CodeQwen1.5-7B-Chat 9 Llama3-70B-instruct 10 Magicoder-S-DS-6.7B 11 claude-3-haiku (Mar 2024) 12 OpenCodeInterpreter-DS-33B 13 WhiteRabbitNeo-33B-v1 14 OpenCodeInterpreter-DS-6.7B 15 DeepSeek-Coder-6.7B-instruct 16 starcoder2-15b-instruct-v0.1 17 XwinCoder-34B 18 starchat2-15b-v0.1 19 code-millenials-34B 20 speechless-coder-ds-6.7B 75.1 73.3 73.3 70.1 69.7 69.6 69.3 69 69 69 68.8 68.5 66.9 66.4 65.6 65.1 64.8 64.6 64.6 64.4 矢印はオープン ではないモデル (https://evalplus.github.io/leaderboard.html,2024年7月9日現在)
オープンLLMの性能まとめ • オープンLLMは会話に関してはGPT-4oなど最新のクローズドLLMに劣 る. • GPT-4に匹敵する性能なので実用的な性能があると言えるのではないか. • オープンLLMも日々進化しており,クローズドなLLMに性能が近づきつつ ある. • プログラミング能力は同等の性能. • プログラミングの補助の用途ではオープンLLMで十分だと思われる. • 実用上の性能は,タスクやユーザの好みに依存する所が大きいので使 ってみるしかなし.
モデルの開発競争 • オープン,クローズドにかかわらず世界各国でモデルの開発競争が行 われている. • オープンLLMの発展にMeta,Google,Microsoft,中国企業が大きく 寄与している. • 高性能なオープンLLM:Llama(Meta),Gemma(Google),Phi( Microsoft),Qwen (Alibaba),DeepSeek (DeepSeek) • 中国製のLLMの発展が目覚ましい. • 中国のモデル開発能力は世界でもトップクラスである. • 日本語のモデル開発は行われているが性能向上は緩やかである.
対話における中国製モデルの躍進 • Chatbot Arenaにおける性能評価 日本語 英語 矢印は中国製のモデル (https://chat.lmsys.org/, 2024年8月23日現在)
コード生成におけるオープンLLMの性能 HumanEval 1 GPT-4-Turbo (April 2024) 2 DeepSeek-Coder-V2-Instruct 3 GPT-4-Turbo (Nov 2023) 4 GPT-4 (May 2023) 5 CodeQwen1.5-7B-Chat 6 claude-3-opus (Mar 2024) 7 DeepSeek-Coder-33B-instruct 8 OpenCodeInterpreter-DS-33B 9 WizardCoder-33B-V1.1 10 Artigenz-Coder-DS-6.7B 11 Llama3-70B-instruct 12 Mixtral-8x22B-Instruct-v0.1 13 OpenCodeInterpreter-DS-6.7B speechless-codellama-34B14 v2.0 15 DeepSeek-Coder-6.7B-instruct 16 DeepSeek-Coder-7B-instruct-v1.5 17 Magicoder-S-DS-6.7B 18 starchat2-15b-v0.1 19 GPT-3.5-Turbo (Nov 2023) 20 code-millenials-34B 86.6 82.3 81.7 79.3 78.7 77.4 75 73.8 73.2 72.6 72 72 72 ? 72 71.3 71.3 71.3 71.3 70.7 70.7 中国製のモデル 中国系開発者がメインのモデル (https://evalplus.github.io/leaderboard.html,2024年7月9日現在)
個人的な使用感 • オープンLLMは英語で使う分には十分な性能がある. • 英語の推敲で使うのであれば,有料のサービスはいらないかもしれない. • オープンLLMはハルシネーションを起こりやすいかもしれない. • オープンLLMはGPTなどのクローズドなモデルより知識量が少ない感じが する. • そもそも対話型人工知能に正確さを求める使い方をしてはいけない. • 日本語は使い物にならないかもしれない. • 2024年中頃あたりからベンチマーク的に日本語能力が高いモデルも出てき ている (「ベンチマークが高い」と「使える」は同じではない). • LLMはベンチマークよりも実態に使ったときの使用感が重要である. • ベンチマークや他人の評価を鵜呑みにできない.
オープンモデルの性能向上と今後の社会 • オープンLLMがGPT-4と同等以上,さらにはGPT-4oなどに迫る性能に なってきている. • 巨大ではないオープンLLMは安いゲーミングPC程度さえ手元にあれ ば電気代だけで使えるため,対話型人工知能の爆発的普及が来る可能 性がある. • オープンLLMならローカル環境にインストールして実行できる. • 外部のサーバを利用した人工知能の場合,機密文章や個人情報を扱え ないが,ローカル環境で実行できるオープンLLMなら機密文書を扱え る. • オープンLLMを改良して,適用したいドメイン(分野)に特化した人 工知能を作ることも可能かもしれない. LLMを特定ドメインに特化させる ことは,今のところ難しい.
ローカルLLMの躍進
ローカルLLMとは • 施設内で動く大規模言語モデルのことをローカルLLMと呼ぶ. • 比較的軽量なオープンLLMを使えば誰でもローカルLLMが使える. インターネット 施設内 質問 回答 施設内(オンプレミス) 質問 インターネット上の どこかのコンピュー タでLLMが動く LLMを使う際インターネットを介するので,LLMで機密情報や個 人情報を処理しにくい. 回答 施設内のコンピュ ータでLLMが動く 施設内のコンピュータでLLMを動かすので,LLM で機密情報や個人情報を扱える.
ローカルLLMに必要な実行環境 • LLMは,条件を満たせばゲーミングPCで十分超高速に動作する. • 高速に動作する条件 • LLMがゲーミングPCに搭載されたGPU(CGを描画する専用の部品)のメモリに すべてのる. • 高速に動作する条件は低いため,ローカルLLMの普及が予想される. 全部入る LLM
ローカルLLM実行速度の検証 使用したPC 使用モデル PC1 PC2 CPU Ryzen9 5950x Ryzen9 3950x メモリ 64GB 48GB GPU RTX4060Ti 3枚 GTX1080Ti 2枚 使用したGPUのスペック RTX4060Ti GTX1080Ti 発売年 2023 2017 メモリ 16GB 11GB メモリ帯域 288.0GB/s 484GB/s 計算速度 (単精度) 22.06TFlops 10.6TFlops モデル 名 開発 元 パラメ タ数 量子化 サイズ RTX4060Ti* 3にLLM全 てのる GTX1080Ti *2にLLM全 てのる Llama3.1 :70B Meta 700億 q4_K_ M 42GB ◯ ☓ Gemma2 :27B Googl e 270億 q6_K 22GB ◯ △(少し入 Gemma2 :9B Meta 90億 q8_0 9.8GB ◯ ◯ Llama3.1 :8B Googl e 80億 q8_0 8.5GB ◯ ◯ Phi3.5 mini Micros 38億 oft 無し 7.6GB ◯ ◯ り切らない)
実行速度 生成速度比 RTX4060Tix3/GTX1080Tix2 Llama3.1:70B RTX4060TiでもGTX1080Tiでも,モデルがGPUのメモ リにすべてのりさえすれば高速である(たくさん文を 生成できる). Gemma2:27B GTX1080Tiのメモリにのり切らないGemma2:27Bの場 合,生成速度の差が大きくなる. Gemma2:9B GPUのメモリにモデルがすべてのるGemma2:9Bと Lllama3.1:8Bの場合,生成速度に大きな差はない. Llama3.1:8B Phi3.5:3.8B モデルがGPUメモリに全てのるはずなのに,なぜこれ だけ大きな差がついたのか分からない. 0 1 2 速度差が小さい 3 4 5 6 7 差が大きい
デモ RTX4060Ti*3で Gemma2:9Bを動かした例 早送りはしていない
ローカルLLMの普及の鍵 • LLMを適用するタスクがある. • 各自で考える. • 入手し易いGPUにのる程度の大きさの高性能なLLMがある. • ある程度達成済み. • 高速に動作する. • 達成済み. • 導入が容易になる必要がある. • 達成済み. • オープンにしろクローズドにしろLLMは汎用的である反面,特定の専門領 域に弱い.そのため,LLMを目的に応じてチューニングや性能向上を行う 必要がある. • 難しいかも.
LLMの性能向上や調整
LLMを使う上での問題 • 文章力,理解力,知識が足りない. • これを改善するには • LLMをより大きくする必要があるかもしれない. • 学習に使うデータの量や品質も上げる必要があるかもしれない. • この2つの方法は,LLMを1から作ることと等しいので出来ない. • 適用するドメイン(分野)に対する理解力や知識が足りない. • 継続事前学習や調整(ファインチューニング)でLLMに適用する分野の知 識を獲得させる. • 小規模な組織や個人では難しい. • 質問(プロンプト)に知識を埋め込むこむ. • 誰でもできる.現実的.
LLMの学習や調整の流れ 事前学習 ランダムモデル 継続事前学習 事前学習済みモデル 事前学習済みモデル ファインチューニング チューニング済みモデル アライメント アライメント済みモデル モデル モデル モデル モデルマージ モデル 継続事前学習:追加で用意したデー タを使って学習すること. 分野固 有のデータを使用して既存のLLMを さらに事前トレーニングすることで, 既存の LLM を強化する. ファインチューニング:既に事前学 習されたモデルに対して,特定のタ スクや分野に適応させるために追加 の学習する.ラベル付きデータを使 用してモデルのパラメーターを微調 整し,タスクの特定のニュアンスに 合わせて調整する. アライメント:モデルの出力を人間 の意図や価値観に合わせて調整する. モデルマージ:複数のモデルを元に, 1つの新たなモデルを作る. https://dalab.jp/archives/journal/llm-finetuning-part1 https://medium.com/@eordaxd/fine-tuning-vs-pre-training-651d05186faf https://www.nistep.go.jp/wp/wp-content/uploads/76f43c15035b40de18d934fada58077a.pdf
LLMの学習や調整の問題 • 特定の分野の知識を学習や調整でLLMに獲得させるには超高額で高性 能なコンピュータが必要となる. • 資金力が有る組織でないと難しい. • モデルマージは,個人で手が届く高性能なパソコンでできるかもしれ ないが,特定の分野の知識を与えられるわけではない. • LLMの学習や調整を行わないで,思い通りに動かしたい.更に,特定 の分野の知識や能力を与えたい.
LLMをいじらず調整や挙動を変える方法 • ハイパーパラメタ調整 • 温度パラメタなどのLLMのハイパーパラメタを調整し,回答のランダムさや回答の長さなどを 調整する. • RAG(Retrival Augmented Generation,検索拡張生成) • 外部知識を利用してLLMを強化する方法. • 関数呼び出し • 外部システム,API,およびツールとやり取りできるようにする方法. • システムプロンプト • LLMが質問(プロンプト)に対応する前に,LLMに提供される,一連の指示,ガイドライン, およびコンテキストを与えるためのプロンプト.例:ロールプロンプトでLLMに役割を与え口 調などを変える.役割を与えることで能力が向上することも有る. • プロンプトエンジニアリング • LLMに質問する際,希望の回答が出るよう質問(プロンプト)を工夫する技術 • https://www.docswell.com/s/k_fujita/5YWJWD-2024-01-19-233228を参考にしてください.
LLMの調整は難しい • いずれの方法も上手くいく保証はない. • LLMの調整は難しい.
人工知能の民主化
AIの民主化 • AIの民主化とは • AIを誰もが使えるようにすること(令和元年版情報通信白書) • 具体的例 • 人工知能に関する学習教材が無料で手に入る(人工知能に関する論文はArxivで公 開されている,Bishopの機械学習の本や深層学習の本が無料で読めるなど). • Google Colabで誰でも無料で機械学習や人工知能のプログラムを作ることができ る. • 誰でも無料で使える機械学習や人工知能の開発ツールがある • 機械学習や人工知能を学習するための様々なデータが公開されている(データの 民主化). • 画像認識や自然言語処理などの学習済みモデルが公開されている(オープンLLM もその一つ). • 無料もしくは格安で使える高性能な人工知能サービスが有る(ChatGPTやGemini など).
AIの民主化の影響 • 多くの人が人工知能の機能を利用できるようになる. • 多くの人が人工知能の仕組みや機能を理解できるようになる. • 人工知能の使用に対する障壁が軽減される. • 人工知能技術がごく一部の企業に独占されず人類社会全体に貢献できる技 術となる. • 人工知能技術がごく一部の企業に独占されたブラックボックス技術ではな く得体のしれた技術になる(とはいえ人工ニューラルネットワークが得体 が知れているかと言うとそうでもないような…). • 「よく分からないもの」から「それなりに分かるものへ」 • 「よく分からないからやらない」「よく分からないからやる」が減る. • 様々な人が人工知能に触れることでイノベーションが促進される.
人工知能に関する感想
感想 • オープンLLMは安価なゲーミングPCで十分動く. • オープンLLMは英語に関しては性能が高い. • ベンチマークの結果が必ずしも個別の用途における性能の差を表さない. 実際にモデルを使わないと使えるかどうか分からない. • 様々なモデルが公開されているため,異なる特徴を持つモデルを複数使う ことができる. • 人は複数の人工知能に意見を聞き,それをまとめる役割になる(すでにな っている). • 最終的にそれも人工知能が行うだろう. • 人工知能は、複数のLLMと,AlphaZeroのような強化学習と探索を用いた推 論により,人工超知能に近づくかもしれない. • OpenAI o1の仕組みはどうなっているのだろうか?
感想 • いずれオープンLLMがクローズドLLMを凌駕するかもしれない. • オープンLLMとクローズドLLMの差がなくなったときOpenAIや Anthropicは生き残れるのか? • 差がなくなったとき,人類は何をモチベーションにLLMを開発するの だろうか? • オープンLLMに負けるかもしれないのに, 大金をかけてまでLLMを開発す る企業があるのか. • そもそも,大金をかけて開発したLLMをオープンにすると,それを独 占できないから開発費を回収できないのではないか? • オープンLLMがOpenAIやAnthropicのクローズドなLLMを駆逐した後, Llamaなどの高性能なオープンLLMがクローズドになるのかも.
感想 • 大規模言語モデルは高等教育に多大な影響を与えている. • 特に,理工系の高等教育の価値観が変わる(すでに変わっている)のではないか? • 人工知能があれば基礎勉強に高等教育機関は必要ないのでは. • 専門書と人工知能があれば学習が進む. • いつでも人工知能と議論でき,何度も同じような簡単な質問しても人工知能は怒らない. • 人工知能は間違えるが,その間違えがヒントになる事も多い. • 大学は人と会う場所,機材を使う場所,実物を触らなければ習得できない技術を学ぶ場所と しての価値がより重要になる. • 人工知能があれば英語の学習もはかどるだろう. • やる気がある者が人工知能を使いこなし自分の成長を加速させる. • 人工知能を使いこなす者の能力や生産性が向上し,使わない者との差が開く.
人工知能研究者視点からの愚痴 • ローカルLLMの技術は社会的に需要があるかもしれないが,その技術 を習得しても論文にならない. • LLM関連の技術は需要があるので,新たな技術の開発が活発に行われてい る.そのため,技術的課題があってもすぐ解決される可能性が高い. • つまり,考えている間に,より良い方法が世界中から出てくる. • LLMに限らず人工知能の研究開発の主役はアカデミアではなく企業になって いる. • 個人の人工知能研究者は何をすればよいのか? • 研究や論文にならなくても気にしない.好きなことを探求する. • LLMをある特殊のドメインに適用できることを示す論文を目指す. • LLMは使うだけで,技術の習得・探求はしない.