医療分野にChatGPT & AI適用の未来

1.8K Views

December 21, 23

スライド概要

OpenAI CEOサム・アルトマン氏の解任劇の延長で生成AIは「開発か倫理か」が再度問い直されている。しかしその一方、ChatGPTの競合製品に取組んでいる各ベンチャー企業の攻勢も活発化し、いよいよ生成AI製品の市場への提供・拡大は佳境に入った。その中で、OpenAI社は方式、ソースコードを公開しない「クローズ型」だが、この向こうを張って「オープン型」生成AIの団体も立ち上がった。これには日本で加わったメンバーもおり、いよいよ生成AIのビジネス/生活の両方で本格展開や活用が火ぶたを切られた雰囲気がある。・・このような活動の先駆けとして、逸早く多数の研究論文が登場しているが、中でも、生成AI活用場面の多さもあって、医療（ヘルスケア）分野関係の論文の多さが目立つ。そんなことから、医療分野向けの論文の内容に、今後拡大する各種機関や企業の生成AI活用に示唆を与える情報やヒントがあるのではないか？このような問題意識から情報をピックアップし資料を作成してみた。

高橋浩

@5451263343

スライド一覧

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文（経営学的視点のもの）をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 4.63MB)

関連スライド

各ページのテキスト

医療分野にChatGPT & AI適用の未来医療へのChatGPT & AIの適用 B-frontier 研究所高橋浩 B-frontier 研究所高橋浩

自己紹介 - B-frontier研究所代表高橋浩 • 略歴： • 元富士通 • 元宮城大学教授 • 元北陸先端科学技術大学院大学非常勤講師 • 資格：博士(学術)(経営工学) • 趣味/関心： • 温泉巡り • 英語論文の翻訳 • それらに考察を加えて情報公開 • 主旨：“ビジネス(B)の未開拓地を研究する” 著書：「デジタル融合市場」ダイヤモンド社(2000),等 • SNS： hiroshi.takahashi.9693（facebook) ＠httakaha（Twitter）

目的 • ChatGPTは洗練されたアルゴリズムで反復プロセスの自動化や顧客サービスの向上を実現させており、 • 各業界ではどのような影響を受けるのか、どのような未来が描けるのかを検討することが極めて重要になっている。 • 中でも医療分野は言語入力に対し人間のように回答できるChatGPTの機能が幅広く有効になる業界である。 • そこで、医療分野にChatGPT & AI適用がもたらす未来をつぶさに検討することを本稿の目的とする。 3

目次 1. 未来の医療ビジョン第1節: 1.はじめに、 2.生成医療AIモデル、 3.医療情報学第2節: 2. 医療分野にChatGPT適応の状況 1.米国医師免許試験、 2.マルチモーダル、 3.臨床意思決定支援第3節: 3. 今後に向けて 1.臨床現場への適応、 2.倫理面への考慮、 3.おわりに 4

第1節未来の医療ビジョン 1. はじめに ChatGPTは医療を変革するか？ • 人間のような会話で人々を引き付けるChatGPTの機能は言語とコミュニケーションが人間の経験と幸福に如何に重要であるかを思い起こさせてくれる。 • 結果、言語を通じた効果的なコミュニケーションは患者と医療従事者の関係を含め、医療サービスの高度化と患者の生活の質の向上に貢献できる。 • 共感的にテキストを書き換えるようにトレーニングされた言語モデルによって、適切なメンタルヘルスサポートが提供されるかもしれない。 5

ChatGPTは医療を変革するか？(続) • 同様の文脈で、言語モデルは個別医療アプローチにも役立つ。 • 病状にもよるが、患者から受け取った入力の複雑性を軽減し、個々の患者のニーズに合わせて特別に調整された医療サービスの提供は可能である。 • ただし、現状は、臨床向けに実用化に踏み切れるレベルには達していない。 • ChatGPTを一般の人々に医療アドバイスの情報源として使用することをアピールするのにも懸念がある。 • そこで、「医療分野にChatGPT & AI適用の未来」を全体的に検討する。 6

医療の未来を再定義するLLM • 人間の言葉を理解し生成できる大規模言語モデル (LLM)の台頭は次のようなサービス転換を示唆する。 ✓アップグレードされた臨床サービス ✓カスタマイズされた治療計画 ✓患者とのより優れた出会い • 臨床分野では、LLMは病気の判定と治療を変え、医療専門家より正確かつ便利に判断が下せる可能性がある。 • ChatGPTは、個別ケアを通じて慢性疾患を管理できる可能性がある。 • LLMは仮想の臨床パートナーとして機能し、医療事業者を通じて患者を指導できる可能性がある。・・・医療サービスイメージを次頁図に示す。 7

AIベースの多重医療(ラフスケッチ) 診断と処方の支援または自動化リアルタイムの優先順位付け早期診断個別化された投薬とケア医用画像に関する洞察処方箋の監査患者データ分析手術ロボット AIベース多重医療市場調査創薬価格とリスク遺伝子の分析と編集運用機器と薬剤の有効性の比較顧客サービスチャットボットブランド管理とマーケティング不正行為の検出 8

例示１患者ケア（「個別化されたケア」） • LLM 出現により個別ケアが現実となる可能性が出てきた。 • 個別化医療は、患者を一般的な症例ではなく、独自の存在として扱うことを目指す。 • 個別化医療の重要な要素は、遺伝情報の統合である。 • LLM は個人の遺伝データを分析し、その遺伝的素因を判断できる。 • ライフスタイルも個人の健康に影響を与える重要な要素になる。 • 個別化には、1)個人の毎日の習慣、2)食事の選択、3)運動習慣、 4)ストレスレベル、などが含まれる。 • そこから、1)遵守される可能性が高い食事の変更、2)運動療法、 3)ストレス軽減の技術の提案などが可能になる。 9

10.

例示２患者ケア（「病気の診断と治療」） • LLM の利点の 1 つは、広範な臨床情報とデータをフィルタリングできることである。 • 前提として検査と臨床規則を常に最新の状態に保つ必要がある。 • 副作用や病歴を膨大な量の症例と対比しておく必要がある。 • LLM は人間の認識を逃れる可能性や特殊性を捉えたり、分析ミスを軽減したりもできる。 • 結果、遺伝的傾向、生活様式、病歴など、患者の臨床プロフィールを考慮して、個別化した治療計画を提案できる。 • 但し、道徳的かつ実際的な熟考が必要になる。 • 情報セキュリティ、同意、方向性の明確さ、倫理面、など • 全体として、医療サービスへのLLMの取り込みは、病気の分析と治療の基本要素を変える。 10

11.

例示３患者と医者の相互作用 • 患者と医療提供者間の効果的なコミュニケーションは、質の高い医療を提供するための基礎である。 • 医療エコシステムへの LLM導入により、患者、医者間の相互作用にダイナミックな変化が生じ得る。 • 情報発信の強化 • LLM は患者が医療情報にアクセスする方法に革命をもたらす。 • 予約スケジュール設定や管理のサポート • チャットボットや仮想アシスタントによって、1)予約のスケジュール、2)処方箋の取得、3)再診のリマインダー受け取り、等ができる。 • 言語の壁の克服 • リアルタイム言語翻訳や通訳サービスによって、医療における言語の壁を克服できる。 • 患者の関与の強化 • 継続的サポートとモニタリングを提供することで、患者の関与を強化できる。 11

12.

2.生成医療AIモデルそこで、生成医療AI基礎モデルを構想する • 現在の医療AIモデルの大部分はタスク固有のモデル開発アプローチを取っている。 • しかし、それでは多様な医療サービス提供には限界がある。 • そこで、非常に柔軟で各タスク(画像データ、電子医療記録、検査結果、ゲノミクス、グラフ、医療テキスト、等) に統一して利用可能なAIを考え、生成医療AIと呼称する。 • これは、タスク固有のラベル付きデータをほとんど、または全く使用せず、様々な医療タスクを実行可能なものとする。 12

13.

生成医療AI基礎モデルの構想(続) • 生成医療AIモデルは開発の初期段階にあるが、次のような問題があり、依然としてタスク固有モデルから脱却できていない。 1)大規模で多様な医療データセットへのアクセスの難しさ 2)医療領域の複雑さ 3)開発が始まって間がない • 新たな方向性はタスク固有パラダイムを如何に破壊するかにある。そのため、下記などの動向も取込む。 • マルチモーダルアーキテクチャ、明示的ラベル不要の自己教師あり学習、コンテンツ内学習、など • これらの動向も取込んで生成医療AI基礎モデルを構想する。・・・概要を次頁図に示す。 13

14.

生成医療AI モデルのパイプラインマルチモーダルな自己教師付きトレーニング医療分野の知識ﾃｷｽﾄ文献柔軟なインタラクション出版物質疑応答音声ｲﾒｰｼﾞ電子ｶﾙﾃｼｸﾞﾅﾙｵｰﾐｸｽ生成医療AI 臨床ノートｸﾞﾗﾌ知識グラフ複数の知識源を使った推論マルチモーダルな入出力ダイナミックなタスク仕様ｱﾌﾟﾘｹｰｼｮﾝ患者向けインタラクティブチャットボットなメモ取り拡張された手順放射線医学レポートテキストからタンパク質の生成ベッドサイドでの意思決定サポート 14

15.

生成医療AIモデルで想定する仕組み柔軟なインタラクション • 生成医療AIは顧客からの質問を通じてモデルを操作できる機能を提供し、さまざまな対象者がAIの洞察を容易に受け取れるようにする。 - 動的タスク仕様：新しい問題をそのままで解決するように学習させ、モデルの再トレーニングをすることなしに新たなタスクに動的に対応する。 - マルチモーダルな入出力：ユーザーは質問に多様で複雑な医療情報を含めることができる。医学分野の知識 • そのために、ナレッジグラフなどの構造を利用して、生成医療AIモデルが医療概念と各要素との関係などを推論できるように医学知識を深く学習させる。 15

16.

生成医療AI で想定される 3 つの潜在的アプリケーション 1. ベッドサイドでの意思決定サポート生データから患者の現在の状態を要約し、患者の潜在的な将来状態を予測して治療上の決定の推奨案を提出する。 2. 根拠のある放射線医学レポート患者の病歴を考慮しながら、異常と関連する正常所見の両方を自動的に作成する。 3. 手順の強化これまでに遭遇したことのない現象であっても医療分野の知識とコンテキストを活用して、稀な異常値の所見を段階的推論で説明する。 16

17.

生成医療AIによるパラダイムシフトと想定される課題新たなパラダイムコントロール性：ユーザーは出力形式を細かく制御できるため、複雑な医療情報へのアクセスと理解が容易になる。適応性：コンテキスト内学習を通じて変化に対応できるため、例えば病院は少数のプロンプトを提供するのみで新たな状況に対応できる。実現可能性：既存の大規模AIモデルあるいは小規模の医療専門モデルと連携した環境構築を目指す。 17

18.

生成医療AIによるパラドックスシフトと想定される課題(続) 想定される課題実現性検証前例のない多用途をこなすため、検証が非常に困難になる。正確性検証異常に複雑な入力・出力を処理するため臨床医がその正しさを判断することが困難になる。社会的偏見従来からのバイアスへの懸念（特定の患者グループを過小評価、など）がより顕著になる。プライバシー臨床測定値、行動軌跡データ、感覚データなど、豊富な患者特性データを扱うのでより重大なリスクをもたらす。規模データ収集とモデルトレーニングに関するコストが増大する。 18

19.

3.医療情報学前提となる医療および健康分野データの特徴 • 生成医療AIモデル(前項)でも触れたように、医療や健康の現場ではマルチモーダルが一般的である。 • そして、マルチモーダルデータの規模はコミュニティが深層学習の時代を受け入れて以来、拡大の一途を辿っている。 • このような環境は大規模生成AIモデルの開発と評価に有力な基盤を提供する。 • そこで、次の点について論述する。 • 大規模生成AIモデルの分類 • 大規模生成AIモデルのこれまでと今後 • 医療情報学における大規模生成AIモデルの応用 19

20.

大規模生成AIモデルの分類 • 便宜的に大規模言語モデル(LLM)、大規模ビジョンモデル(LVM)、大規模マルチモーダルモデル(LMM)があるものとし、これら全体を表す場合には大規模生成AIモデル(LAM)とする。 • 次の４つの特徴(側面)がある。 A) サイズが増加する(例：パラメータ数は数十億以上に上る） B) 大規模データを使用したトレーニングを行う(例：LLMで数兆個のデータ、LVMで数十億個の画像、など） C) 複数のモダリティのデータを処理できる。 D) 複数の下級タスク(特に、ゼロショット、ワンショット、数ショットのタスク)で良好なパフォーマンスを発揮できる。・・概要を次頁以降の２つの図で示す。 20

21.

大規模生成 AI モデルのこれまで(と今後) A) モデル・サイズ B) データ・スケールモデルのパラメータ数は増加する傾向にある(LLM では数百億個が一般的)。一般領域の大規模AIモデル医療情報学における大規模 AI モデルデータはスケールアップしているが、医療データの規模は一般的なドメインデータに比べてはるかに小さい。 G-L : 一般の言語モデル M-L : 医療向け言語モデル G-V :一般のビジョンモデル M-V : 医療向けビジョンモデル従来のAIモデルの状況： 1) スケールモデルのサイズが限定的 2) 限定的なトレーニング/事前トレーニング 3) 限定された生成機能 21

22.

大規模生成AI モデルの(これまでと)今後 C) モダリティの数 D) 下流タスクでの多用途性モデル容量の増加とマルチモーダル学習の進歩により、大規模 AI モデルが処理できるモダリティの数が拡大している。大規模な AI モデルは生成的/創発的なインテリジェンスを示し、複数の下流タスク(特に、ゼロショット、ワンショット、および少数ショットの質問）で優れたパフォーマンスを示すことができる。今後のAI モデルの方向性: 1) モデルサイズが大型化 2) 大規模なトレーニング/事前トレーニングの実施 3) 大規模な生成機能の拡充 22

23.

大規模生成AIモデルの応用１（バイオインフォマティクス） • LLM では環境が異なれば、言語は異なる解釈を持つことができる。タンパク質は生命の言語と解釈できる。 • LAMはタンパク質の構造決定を加速できる可能性がある。 • 特に、LLM は、RNA やタンパク質配列を含む大規模データに隠された生物学的特性をモデル化するのに有効である。 • AlphaFold2 はタンパク質の構造を予測する先駆けとなった。 • AlphaFold2 は単一タンパク質鎖でトレーニングされているにもかかわらず、多量体を予測する能力を示している。 • この延長で、LAMは創薬など関連アプリケーションのプロセス高速化に利用することが期待されている。 23

24.

大規模生成AIモデルの応用２（医用画像処理１） • LAM は医療診断と意思決定で重要な役割を果たすことが予測されている。 • ゼロショット胸部 X 線トランスフォーマーである CheXzero は複数病状の分類で放射線科医師レベルのパフォーマンスを実証した。 • 複数診断ネットワークを ChatGPT と統合したChatCAD は、医療画像CADに LLM を適用する事例を実証した。 • HeartBEiTは、850 万件の心電図で事前トレーニングした基礎モデルで、心臓診断の説明可能性を向上させた。 • LAMは在宅の人々に遠隔診断や医療相談サービスも提供できる。 24

25.

大規模生成AIモデルの応用３（医用画像処理２） • 医療画像技術の導入は患者の診断と治療プロセスに大きな影響を与えている。 • CT、MRI などの医療画像の使用により、LVM開発を加速させるマルチモーダル、マルチソースの医療ビジョンデータが大量に生成された。 • それにもかかわらず、LVM にはいくつかの妥協点がある。 • 例えば、LVMやLMM をトレーニングする際、トレーニング時間を短縮し、計算コストを削減するため、医用画像サイズを制限したりすることがよくある。 • 当然、サイズの縮小は情報損失を伴う。 • 現在のLVMと十分な訓練を受けた医師の間ではパフォーマンス（および特性）に適性の差異が生じる可能性もある。 25

26.

大規模生成AIモデルの応用４（医療情報学） • HER(電子医療情報) や PubMedなど公的医療テキスト・データが豊富になったことにより、研究は LAMを設計、提案できる段階に差し掛かっている。 • LAMサイズをスケールアップすることで、さまざまな医療言語タスクの改善があることが明らかになった。 • パラメータ効率化適応技術により、米国医師免許試験に優れた正解率の解答を生成する例も登場した。 • 結果、臨床領域向けに明示的にトレーニングされていないにもかかわらず、数回ショット設定で臨床情報を十分に抽出できることが明らかになり、臨床医が EHR の文書化に費やす時間を大幅に削減できる見通しが出てきた。 26

27.

第2節医療分野にChatGPT適応の状況 • 本節では、前節で述べた「未来の医療ビジョン」がどの段階にあるのか、どのような課題が存在するのかを推測するために、次の３つの項目あるいは分野の検討状況を扱う。 • 取組みの要点、制約事項と今後の課題を示す。 1. 米国医師免許試験対応 2. マルチモーダル 3. 臨床意思決定支援 27

28.

1. 米国医師免許試験対応 • 大規模言語モデルが優れた機能を実証しているとしても、医療/臨床分野で求められる品質基準は高い。 • 現在どの程度の水準にあるかを認識するため、PaLM (5,400億パラメター)をベースとして米国医師免許試験への対応を検討した取組みを紹介する。 • 要点： • 6個の医療関連質問回答データセット(この中に米国医師免許試験問題も包含)に健康関係質問回答セットも加えて共通ベンチマークを作成 • PaLMを医療向けに調整したFlan-PaLMを作成 • Flan-PaLMを当該ベンチマークで評価(米国医師試験への精度は67.6%) • しかし、消費者(患者)からの質問に対しては重大なギャップがあることが判明 • これを解決するため新調整技術によってFlan-PaLMを再調整したMedPaLMを作成 • かなり機能水準が向上したが、それでも依然として臨床医には劣る段階 28

29.

医療/健康にLLMが適性かの検討の枠組み • 大規模言語モデルは医療情報から診察に必要な有用知識を大規模に学習できる点で大きな期待が持たれている。 • しかし、“幻覚”と言われる、1)説得力のある医療上の誤った情報の伝達、2)健康格差を悪化させる可能性のある偏見などを組み込む可能性がある。 • そこで、医療における大規模言語モデルの可能性を評価するため、医療質問応答を検討する。 • 医療上の質問に対して質の高い回答を提供するには、医療の背景を理解し、適切な医療知識を想起して専門家の情報に基づいて推論する必要がある。 • 医療用に調整されたFlan-PaLM は多肢選択式の質問では好成績を収めたが、患者からの質問には好成績を収められなかった。この課題への見通しを探索する。 29

30.

検討のためのモデリング • LLMを医療向けに調整するモデリング： • PaLM：汎用LLM（ChatGPTなどと同じ） • Flan-PaLM： • 医療分野は安全性が重要なため、モデルを分野固有のデータに適応させて調整したもの • 問題：医療データは不足しているので、大量データを前提とした既存のアプローチだけでは難しく、精度が今一つ向上せず • Med-PaLM： • 解決の方向性：医療分野に特化したプロンプトの最適化を進める。 • 採用したプロンプト最適化の戦略例： • どのような少数ショットのプロンプトが効果が大きいかを確認 • 思考の連鎖（人間の思考を疑似して、複数のステップでの推論を強化） • 自己一貫性の考慮、ほか • Med-PaLMにおいて一層医療分野に適応するプロンプトの最適化を推進した結果、かなりの改善が見られた。 • 次頁にFlan-PaLM、Med-PaLMと臨床医のパフォーマンス比較を示す。 30

31.

臨床医とFlan-PaLM、Med-PaLMとの理解力、検索力、推論能力の比較一覧正しい理解の証拠正しさの評価誤った理解の証拠正しい知識取得の証拠不正な知識取得の証拠正しい推論の証拠誤った推論の証拠読解力、知識の取得、推論ステップの不正確さの評価臨床医の回答は 97.8% のスコアを獲得した。一方、Flan-PaLM のスコアは 76.3% にすぎなかった。 Med-PaLM は誤った理解の確率が 5.0% の水準（95％程度のスコア）でかなり改善された。 31

32.

制限事項と今後の課題制限事項 • 今回の検討では、患者からの質問が充分取込まれておらず、あらゆる臨床環境への対応としては不充分であった。 • 評価した質問応答モデルの数と、それらを評価した臨床医や一般人(患者) の人数も限定的であった。今後の課題 • 臨床レベルに達していない状況克服のため、LLM新機能の開発が必要である。 • 例：不確実性を検出し、関与する人間に効果的に関連情報を伝える機能、など • 公平性に関する考慮を充分行う必要がある。 • バイアスを評価する現在のアプローチが限定的なので改善要 • 潜在的障害や公平性を包括的に評価する機能も不備なので改善要 • より豊富な要素を包含したLLMの評価フレームワーク開発が必要である。 • 現状では多様な臨床環境に対応する臨床知識を踏まえたレベルに達していない。 • 安全性、信頼性、有効性、プライバシーを確保するための大幅な追加研究が必要である。 • 例：さまざまな臨床環境で使用するための厳格な品質評価、など 32

33.

2. マルチモーダル • 医療は本質的にマルチモーダルであり、テキスト、画像、ゲノミクスなど、多様な媒体を包括的に扱うことが期待される。 • このような取組みを行うジェネラリスト生成医療AI (generalist biomedical AI)の取組みを紹介する。 • 要点： • 医療質問応答だけでなく、マンモグラフィー、皮膚画像読影、放射線レポート、ゲノム変異呼出しなど、14種のタスクを包含した共通ベンチマークMultiMedBenchを作成 • 先述のMed-PaLMを当該ベンチマーク向けに調整したMed-PaLM Multimodel（略称Med-PaLM M）を作成 • Med-PaLM Mによって現実の臨床言語、画像処理、ゲノミクスなどの医療データを解釈 • Med-PaLM Mの限界を調査するため、Med-PaLM M生成の胸部X線レポート結果と放射線科医師の判断とを比較 • わずかに放射線医師の方が正解率が高い結果が得られた。 33

34.

マルチモーダル処理検討の枠組み • マルチモーダルデータを扱う各種タスクを同一AIモデルで処理する基礎モデルが登場。この環境に向けてMultiMedBenchを構築 • これを活用して大規模ジェネラリスト生成AI モデル Med-PaLM Mを作成皮膚科 MultiMedBench マンモグラフィー医療質問応答ゲノミクスマンモグラフィー分類医療視覚質問応答レントゲン写真医用画像の分類皮膚科分類ゲノム変異呼出し Med-PaLM M 放射線科レポート要約放射線科レポート作成放射線科レポート医療視覚の質問応答放射線科レポート作成ゲノム変異呼出し医療知識病理学 MultiMedBench のモダリティとタスク医療質問応答放射線科レポート要約 :過去最高のスペシャリストモデルの能力 : Med-PaLM Mの能力 34

35.

パフォーマンスの比較手法 • Med-PaLM Mはタスク固有のカスタマイズを行わずに MultiMedBenchの複数タスクを処理できるモデルである。 • パフォーマンス比較は下記の2種が行なわれた。 A) Med-PaLM Mによるタスク処理と各専門AIモデルによるシングルタスク処理間での比較： • 従来の専門AIモデルの中から最先端パフォーマンスのモデルを選び、それとMed-PaLM Mとの比較を行った。 B) Med-PaLM Mによる処理と医師による処理の比較： • 胸部X線レポートのMed-PaLM Mによる作成結果と放射線科医師による判断との比較を実施した。 • 課題は、胸部X線画像から結核の有無を予測する問題 • Med-PaLM Mは結核を明示的に予測するようなトレーニングはされていない。 35

36.

パフォーマンス比較の結果 A)• Med-PaLM M vs 専門AIモデル • 従来の専門AIモデル中で最先端パフォーマンスのモデルと比較しても、同等あるいはそれ以上のパフォーマンスを達成した。 • 12タスク中５タスクで既存の最先端パフォーマンスを上回った。 B)• Med-PaLM M vs 放射線科医師 • 4人の放射線科医師と比較しても、同等のパフォーマンスを達成した。 • 246症例に対して、Meｄ-PaLM M生成結果と医師判断を比較したところ、ほぼ同等レベルとの判断結果であった。 36

37.

制限事項と今後の課題制限事項 • ベンチマークのMultiMedBenchにはデータ・サイズなどで制限がある。従って最適評価範囲は限定されており、多様な条件への対応としては不充分であった。 • 一般用途向けに比べて医療データは定常的に不足しているので、根本的な困難性を抱えている。 • 加えて、データの少ないモダリティが全体のパフォーマンスのボトルネックになるので、定常的に実施したいことと、少ないモダリティ・データの収集が両立し難いことがある。今後の課題 • モダリティの多様性の条件やデータサイズの制限の緩和が望まれる。 • 多様なモダイティを活用した何らかのスケーリングを達成する方式の開発が望まれる。 37

38.

3. 臨床意思決定支援 • ChatGPTから多様な提案を受けられるのなら、それを臨床医の意思決定に活用できないかとの問いは多くの関心を集めている。 • そこで、ChatGPTからの提案と人間作成の提案を比較した取組みを紹介する。 • 要点： • • • • ７つの項目について提案を生成するようにChatGPTに依頼同じ項目に対して臨床医にも提案作成を依頼合計してChatGPT提案36件、臨床医提案29件が提示それらを独立の5人の臨床医が提案元を区別せずに下記視点などで分析 • 有用性、受容性、関連性、理解の容易性、など • 提案はスコア化され、最もスコアの高い上位20件の内、9件はChatGPT 提案であった。 • また、ChatGPT提案は独自の視点を保有しており、例えば、非常に理解し易いなどがあった。これは将来の人間との役割分担を示唆する。 38

39.

臨床意思決定支援検討の背景 • 電子医療記録(HER)の導入が進んでおり、医療データが着実に蓄積されて来ている。 • その延長で各種アラートの膨張と、それに対する臨床医の意思決定が、患者およびタスク固有の情報に基づいて提案され、現場で処置される環境充実が可能な方向に向かっている。 • しかし、医療関係データ増大とアラート数の膨張は、これらを適切に処理する仕組みがないと、医療従事者の対応限界が発生し、アラート疲れに直面する懸念がある。 • そこで、ChatGPTによる推奨提案と現場の臨床医とのコラボレーションによる適切な対応とアラート疲れの解消が期待される。 • その前提として、ChatGPT提案と医師提案の双方のレベル評価と特性の把握が今後の活動の重要な出発点になる。 39

40.

ChatGPT提案と医師提案の比較手法 • 場所を特定して実施：選択されたアラートの一覧 VUMC(ﾊﾞﾝﾀﾞｰﾋﾞﾙﾄ大学医療ｾﾝﾀｰ) • 電子医療記録(HER)はEpic Systemsを使用 • これから抽出した７つのアラート（右図）を分析 • ７つのアラートに対してChatGPT と医師から受け取った提案を5人（医師4名＋薬剤師1名）で評価 • 評価の仕方は各提案を提案元を除き評価基準を定めて実施 • 5段階のアンケート形式でスコア化 • 参加者は情報学のトレーニングを受け、専門分野に通暁している医師/薬剤師内容１免疫抑制された患者に対するウイルスワクチン注射の防止２手術後の吐き気や嘔吐の危険因子を持つ患者の特定３気管支炎の小児に対する気管支拡張薬の不適切使用または胸部X線写真の特定４ 1日6回を超える頻度で人工涙液を処方された患者の特定５生後 8 週間を超えアレルギーを記録しているもののの特定６妊娠中患者に対する非ステロイド性抗炎症薬の注文の阻止７過去 7 日間に患者の国際正規化比 (INR) が得られなかった場合、ワルファリンの注文確認時に薬剤師に通知 40

41.

結果 AI が生成した提案のスコア 1. 理解: この提案は理解できる。 2. 関連性: この提案には関連する概念が含まれている。 3. 有用性: この提案には、アラートの改善に役立つ概念が含まれている。 4. 承認: この提案は編集せずに承認できる。 5. ワークフロー: この提案に基づいて、このアラート外の臨床ワークフロー/プロセスへの変更を推奨する。 6. バイアス: この提案はバイアスにつながる可能性がある。 7. 反転: この提案は反転される (たとえば、提案された除外は包含される必要がある)。 8. 冗長性: この提案は、既存のアラート論理と重複する。全く同意しない同意しないどちらともいえない同意する強く同意する人間が生成した提案のスコア • ChatGPT生成提案と人間生成提案に大きな差はなかった。 • 若干の違いの一例はChatGPT提案の方が理解が容易で関連性が高かった。 • 逆に、ChatGPT提案の方が有用性と受容性が低かった。全く同意しない同意しないどちらともいえない同意する強く同意する 41

42.

制限事項と今後の課題制限事項 • ChatGPTはプロンプトに敏感なため最適形式でのプロンプト実行が試みられていないかもしれない。 • 評価は意思決定する専門家の観点から行い、必ずしも患者の臨床処置の最終結果からのフィードバックは行われていない。 • ChatGPTは2021年以降の情報を学習していないので、その後の医療ガイドラインや医薬品提案を踏まえていない。今後の課題 • ChatGPTでは扱われていない医療事項データセットや専門論文の追加など学習のレベルアップが必要である。 • アラート疲れの問題解決にChatGPT提案による補完は有用な方向性の一つだが、ChatGPT提案の有用性が今一つ低いので改善の余地がある。 42

43.

第2節のまとめ米国医師免許試験対応： • 多岐選択式質問には好成績を修められたが、患者からの多様な質問では良い成績を修めることができなかった。 • プロンプト最適化で臨床医水準に近づけたがまだ差を残している。マルチモーダル： • 4人の放射線医師との胸部X線レポートからの判断（結核有無判定）では同等の成果をおさめられたが、汎用性については検証が得られていない。臨床意思決定支援： • 少数の選択されたアラートに対してではあるが、AIが生成した提案が人間の提案と遜色ないことが確認された。人間の提案と異なる性格も確認されたので、人間を補完する可能性がある。全体：限られた条件においてではあるが、人間の水準に近い成果が得られつつある。 43

44.

第3節今後に向けて前半(1.,2.)で、臨床に関わるその他の話題と倫理への取組みについて述べる。 1. 臨床現場への適応 • 医療サービスの中核である臨床対応へのLLM活用を再考する。 • 主として次の2側面に焦点をあてる。 • 臨床意思決定への支援 ① 鑑別診断リストの作成、意思決定およびその最適化、癌スクリーニング、など関連するアプリケーションと今後の方向性 ②• 医薬品開発の中核プロセスである臨床試験(治験)への対応患者と治験のマッチング強化臨床試験計画の合理化技術文書作成の支援患者からの認識的同意、など 44

45.

① 臨床上の意思決定支援アプリケーションの例 • 臨床上の意思決定は複雑なプロセスであり、その過程で認知バイアスや推論の誤りなどが発生する。 • 但し、現在使用可能なアプリケーションはChatGPTの優れた特性を示していることも多い。 • 鑑別診断リストの作成：ChatGPTによって作成したリストの方がより高い診断精度を示した。 • 意思決定およびその最適化：既存臨床事例を入力し学習した上での各種診断の提案の方が精度が高く理解し易い提案になっていることも多い。 • 癌スクリーニング：乳癌スクリーニングは従来の方式よりも精度が高かった。 45

46.

臨床意思決定支援の方向性 • 次のような方向性が想定される。 ◆リアルタイム監視と予測分析：ウェアラブル装置のデータなどから患者データをモニタリングすることで症状悪化の早期検出と介入が可能になる。 ◆精密医療と個別化された治療：遺伝情報など患者固有のデータを分析しカスタマイズすることで、治療の推奨案を患者毎に個別に提案できるようになる。 ◆遠隔医療：バーチャル世界での患者と医師のやりとりが促進されることで自宅でのセルフケア支援ができるようになる。 ◆既存の医療システムとの統合：電子医療情報(HER)システムと既存システムを統合することで、幅広い情報に基づく高レベルの医療サービスが提供できるようになる。 • 但し、プライバシー、倫理、偏見、差別などの潜在的悪影響を過小評価してはいけない。 46

47.

② ChatGPTの臨床試験作業への貢献 • 臨床試験の実施には多大なリソース投入と深い専門知識を持つスタッフの関与が必要である。 • 人的リソースとともに財政的負担も極めて大きい。 • この文脈の元に、臨床試験における高度ドキュメントの作成、洞察に富んだ要約レポートの作成、複雑なテキスト出力の自動化などで、ChatGPTは革新的な貢献を成し得る領域は多い。 • このような視点からポイントとなる実施項目を次頁表に示す。 47

48.

臨床試験への大規模言語モデルの応用応用分野患者と治験のマッチングの強化臨床試験計画の合理化フリーテキストの活用に関するアプリケーションテクニカルライティングの支援認識上の同意の提供詳細 LLM を使用して事前スクリーニングを自動化し、適格性基準の評価を合理化し、出力の段階的な推論を生成する。大量のテキストデータを処理し、簡単な説明から一貫したテキストを生成し、臨床試験の結果を予測する。フリーテキストからのデータコーディングの一貫性と精度を強化する。医療文書の作成を自動化し、表形式のデータと自由形式のテキスト間で変換を行う。 LLMを利用したチャットボットを通じて同意の理解を向上させ、知識不足を補うテキストを生成する。            関連する事例医療プロファイルと適格基準の相互参照試験レベルの適格性スコアの予測臨床試験データの要約基準の説明の作成試験結果の予測電子医療記録の分類演繹分析を必要とするテキストデータのコーディング患者の退院概要の作成放射線医学レポートの要約 LLM は最新の情報に基づいて回答を提供知識を評価し、ギャップを埋める 48

49.

2. 倫理面への考慮 ChatGPT利用に伴うリスク • 臨床現場でのChatGPT使用時にはプライバシー、倫理、偏見、差別などの潜在的悪影響の評価が重要になる。 • また、ChatGPTトレーニング時に使用されたデータに起因するバイアス再現への懸念もある。 • ChatGPT使用中に患者情報を保証するには暗号化、アクセス制御など、セキュリティ対策も必要になり、患者データは匿名化が求められる。 • データ保護規定、患者プライバシー法、など関連する法律、規制、ガイドラインの遵守も必要になる。 • そこで、医療分野にChatGPT適用の考え方を検討する。 49

50.

医療分野にChatGPT適応の考え方 • 多様な切り口がありうるが、本節では主に次の２点に焦点を当てる。 ① データ管理ワークフロー変革の取組み ② リスクと限界の評価ならびに責任ある設計、開発、展開のための倫理的、技術的、文化的アプローチ 50

51.

① データ管理ワークフローの変革 • 基本的には医療分野にChatGPT適応は、「多くのワークフローに大幅な効率向上をもたらす可能性があるものの、誤った情報をもっともらしく提供する懸念のある不完全なツール」と見做す必要がある。 • 根本的なLLMの仕組みから、ChatGPTは「確率的なオウム」ではないかと、激しい論争が巻き起こされたこともある。 • 従って、ChatGPTの生成内容を鵜呑みにすることは出来ず、処理プロセスの操作インタフェース、入力/出力の両方で、人間による厳格な監視とアクションが必要になる。 • しかし、このような制約を付してもなお、ChatGPTを活用して効果を挙げられそうな箇所は多数に登る。 51

52.

② 倫理的、技術的、文化的な様々のアプローチ • 生成AI技術を医療分野で有用かつ安定したツールに導くためには次のような点に焦点をあてる必要がある。 ◆説明責任：生成 AI アプリケーションが倫理的にリリースされ使用者も納得できるフレームワーク提供が必要である。 ◆公平性：モデルのバイアスを軽減する措置が講じられ、倫理的に責任ある AI 開発環境が提供されるべく相互に調整が必要である。 ◆データのプライバシーと選択：障害発生時に備えトレーニングデータの選択と管理のための法的、倫理的枠組みを整備しておく必要がある。 ◆透明性： LLM は本質的に作業の背後にあるロジックを示せないので、信頼性の高い作業を行えない状況を如何に担保するかを考慮する必要がある。 ◆説明可能性：役割を担う人間に重要なデータポイントを提供し、生成 AI システムの設計機能を担えるような準備が必要である。 ◆価値と目的の調整：機械が人間の価値観や目的に従わない、または違反する場合があるので、このような場合に生じる倫理的、実存的リスクを説明あるいは調整する枠組みが必要である。 52

53.

3. おわりに医療分野にChatGPT & AIが適用された未来 • 生成医療AIモデル(1節-2.)で想起したような未来が徐々に具体的な姿を現し出してはいる。 • 今後の道程は長く険しそうだが、一方で実証研究の先端(2節) では刺激的で将来に期待を持てそうな結果も生み出している。 • このような進捗の延長線上に次のような未来の登場が期待(想定)される。 • マルチモーダルな生成医療AIシステムが多様な医療シーンに導入され、患者の幸福が増進される未来 • 多種のガイドラインが制定され、患者、医療従事者双方が新たな環境に適応したリテラシーを身に付け、安全が担保される未来 53

54.

今後に向けて（暫定まとめ） • 医療分野へのChatGPT & AI適用は有望であり、臨床実践へのパラダイム変革を起こす可能性を秘めている。 • 一方、臨床への適応を妨げる障壁も多く存在している。 • 基本的にはLLMはまだ症状と治療間の複雑な関係を理解するために必要な医学的専門知識や背景理解が欠けている。 • 従って、ChatGPTからの推奨提案の品質は押しなべて低い。 • 但し、ChatGPTは現在手動入力が主だが、電子医療情報 (HER)などからデータを自動入力する形態に移行すれば、診断精度、治療計画、退院への対応などが飛躍的に向上する可能性もあり、より進んだ役割を担えるかもしれない。 • このような努力と患者のプライバシー確保など倫理面の課題解決の両立をどのように確保するかが重要である。 • その一環として各種規制やガイドライン整備、教育の充実とリテラシーの向上が重要になってくる。 54

55.

補足：“医療分野へのChatGPT活用” 探索の意義 • 医療業界は、ChatGPT適用可能な場面が多い、テキスト、画像、音声などマルチモーダル環境が既に存在していることなどから、最初に多面的データを複雑に組合わせてサービス見直しが進みそうな格好の場を提供している。 • この傾向は、ChatGPT適応の他業界/他企業でも追随する可能性があり、医療業界の取組みは大きな示唆を与える。 • 従来は相関が分からなかった多方面のモダリティも、各種データを全て入力してLLM活用を試みることで、異なる取組みの方向性や洞察が示唆される可能性がある。 • そして、最終的には殆どの業界の既存サービスはLLMベースのデータ活用循環によって、多くの場合、サービス見直しが発生する可能性がある。 • このような視点から医療業界の取組みを探索することは極めて意義深いと考える。 55

56.

文献

医療分野にChatGPT & AI適用の未来

高橋浩

関連スライド

ChatGPT 機会 課題 影響

医療へのChatGPT & AIの適用

GPTは労働市場にどのような影響を与えるか

ChatGPT等によるイノベーション

ChatGPTは人間を代替するか？

価値創造と価値獲得

各ページのテキスト

ChatGPT 機会課題影響