【論文紹介】医療LLMsのサーベイ論文:A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges

2.9K Views

December 16, 23

スライド概要

「論文紹介」

近年ChatGPTをはじめとした大規模言語モデル(LLM)が研究者だけでなく,一般人にも普及しています.特に最近では様々な分野での利用が模索されています.ここではLLMの医療応用についての研究内容や今後の展望と課題についてサーベイ論文から紹介します.

profile-image

初めまして. 医療AIに興味がある人です. 松尾研究室のDL輪読会やAcademiX Medicalに所属しています.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

医療LLMsのサーベイ論⽂ A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges Yuki Tashiro 九州⼤学 ⼯学部機械航空⼯学科 4年 Technical University of Munich, Informatics (Exchange Program)

2.

2 書籍情報 • タイトル:A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges • 出典:https://arxiv.org/abs/2311.05112 • 著者:Hongjian Zhou et al.(数⼗⼈) • コード:なし.ただしGitHubあり. • 公開⽇時:2023/12/09 • 注意事項 • ※特に出典が明記されていない図は当論⽂から引⽤ • • 右のロゴもまた本論⽂から引⽤ 専⾨でないためLLMの⽤語説明を⼀部省略・簡易にしている点に ご了承ください

3.

Appendix 1. イントロダクション 2. 医療LLMsの概要 3. ⽣物医学の⾃然⾔語タスク 4. 臨床応⽤ 5. 課題 6. 今後の展望 3

4.

4 1.イントロダクション • 近年ChatGPTをはじめとしたLLMsの研究が増加 Pipeline • • 医療従事者の⽀援や患者ケアの改善を⽬的とした医療⽤ LLMの開発と応⽤が研究上の関⼼を⾼めている → ⼀般的なLLMを医療分野に適応させ,医療⽤LLMの 開発する試みあり Principles §2 Data しかし,既存の研究ではQAタスクばかりで臨床応⽤の 研究は少ない.最近の研究のテーマは以下の通り • • • • 電⼦カルテ(Electronic Health Records) 退院サマリー⽣成(discharge summary generation) ヘルス教育(health education) ケア・プランニング(care planning) Downstream §3 Medical Large Language Models Applications §4 Contributions 1. 2. 医療におけるLLMsの包括的なサーベイを⾏い, 10の⽣物医学的な下流タスクにおける評価をまとめる Challenges §5 医療⽤LLMsの臨床応⽤に焦点を当て,様々な臨床現場 での展開のための実⽤的なガイドラインを提供 臨床現場における医療⽤LLMsの活⽤の課題を明らかに し議論.この分野におけるさらなる研究開発のヒントを 得ることを⽬的 BioBERT[28]; PubMedBERT[29]; SciBERT[30]; ClinicalBERT[31] et al. Fine-tuning General LLMs DoctorGLM[21]; HuatuoGPT[32]; LLaVA-Med[33] et al. Prompting General LLMs DeID-GPT[34]; ChatCAD[35]; Dr.Knows[36]; MedPaLM[14] et al. Clinical Knowledge Bases DrugBank; NHS Health; NHS Medicine et al. Pre-training Data PubMed[37]; Literature[38]; MIMICIII[39]; MedDialog[40] et al. Fine-tuning Data Qilin-Med[41]; BianqueCorpus[42]; MD-EHR[43] et al. Discriminative Tasks Question Answering; Entity Extraction; Relation Extraction; Text Classification; Natural Language Inference; Semantic Textual Similarity; Information Retrieval et al. Generative Tasks Text Generation; Text Summarization; Text Simplification et al. Performance Comparisons GPT-3.5-turbo; GPT-4; SOTA Task-specific Fine-tuned Models; Human Experts Medical Diagnosis Chatcad[35]; LLM4medicine[12] et al. Formatting and ICD Coding PLM-ICD[44]; LLM-ICD[45]. Clinical Report Generation GPT-4V for Medical[46]; Qilin-Med-VL[47] et al. Medical Education LLM for medical education[48] et al. Medical Robotics GRID[49]; Nested -UIS[50] et al. Medical Language Translation Advant GLM for Medical Education[51] et al. Mental Health Support ChatCounselor[52] et al. Hallucination Med-halt[53]; Selfcheckgpt[54] et al; Lack of Evaluation Benchmarks and Metrics Truthfulqa[55]; HaluEval[56] et al. Domain Data Limitations Model Dementia[57] et al. New Knowledge Adaptation EditingLMM[58] et al. Behavior Alignment Webgpt[59]; Language are rewards[60] et al. Ethical & Legal and Safety Concerns Jailbroken[61]; Jailprompt[62] et al. New Benchmarks Future Directions §6 3. Pre-training from Scratch Interdisciplinary Collaborations Multi-modal LLM Medical Agents Figure 1: An overview of the practical guides for medical large language models. 医療LLMsの概要 5

5.

5 2.医療LLMsの概要(1. Pre-training) • 医療における事前学習:⼀般的に構造化テキストと⾮構造化テキ ストの両⽅を含む⼤規模な医療テキストのコーパスに対してLLM を学習し,豊富な医療知識を学習 • 医療⽤事前学習でよく使⽤される医療コーパスデータセット • 医療⽤LLMsの事前学習の⽬標 • • • PudMed MIMIC-Ⅲ clinical notes PWC literature • マスク⾔語モデリング • 次⽂予測 • 次トークン予測 ※ニーズによって変化 →質問の回答能⼒向上に効果あり • よく評価に利⽤される下流タスク • • 質疑応答 固有表現抽出(named entity extraction, NER) • 意味:テキスト中にある固有名詞(⼈名、組織名),⽇付や⾦額などの数値情 報といった,固有表現(Named Entity) と定義づけられた単位の単語を抽出す ること →分類タスクで効果あり • よく使⽤されるベンチマーク • • BLUE(Biomedical Language Understanding Evaluation) BLURB(Biomedical Language Understanding & Reasoning Benchmark) 医療LLMsのモデル概要図

6.

6 2.医療LLMsの概要(2. Fine-tuning) Fine-tuning • 意味:既存のLLMを医療データで再度学習させること.LLMをゼロから 学習させるための膨⼤な計算能⼒・コスト・時間を抑える⼿法 ⼀般的なファインチューニング⼿法 • Supervised Fine-Tuning (SFT) • • • Instruction Fine-Tuning (IFT) • • • • ⾼品質な医療コーパス(医師と患者の会話・医療質問応答・ナレッジグラフなど) で次トークン予測などのタスクで追加学習を⾏うこと 次に説明するIFTと⽐較して,SFTはデータ量が多いほど良い 命令・⼊⼒・出⼒の3つからなるデータセットを作成し,様々な答え⽅で推論させ る⽅法 この⽬的は,次トークンを正確に予測するのではなく,与えられた命令に⼀致する ようにモデルの推論能⼒を向上させ,出⼒を調整すること このIFTは量よりもデータが⾼品質であることや多様性のある分野であることが好 ましい Parameter-Efficient Tuning • • ⽬的はLLM のファインチューニングに必要な計算量とメモリ量を⼤幅に削減する ことで,モデルのパラメータの⼀部のみをファインチューニングする.主な⼿法が 以下の3つ. Low-Rank Adaptation (LoRA) • Prefix Tuning • • 各Transformer層のAttenntion機構に学習可能な低ランク⾏列を追加する⼿法. • 各Transformer層の⼊⼒に連続したタスク固有のベクトルを追加する⼿法.モデルの ⽣成をガイドするための追加コンテキストとして機能 Adapter Tuning • 各トランスフォーマー層に⼩さなNNモジュールを追加する⽅法. Instruction Fine-Tuningの概要図 参考⽂献

7.

7 2.医療LLMsの概要(3. Prompting) ファインチューニングは事前学習より計算資源とコストを 節約できるが以前として⾼コストだが,プロンプティング はその必要はなくLLMに私たち⾃⾝が質問を聞くときに⾼ い精度の答えを出してもらうために私たち⾃⾝が⼯夫する もの • Zero/Few-shot Prompting • • Chain-of-Thought (CoT) Prompting • • 複雑な下流タスクを解くときに,中間的な推論過程を⽣ 成するようにプロンプトを調整するもの. Self-consistency Prompting • • • Few-shot Promptingとは,LLMに指⽰する時に幾つかの 例⽂を書いた後にタスク実⾏を要求するもの.Zero-shot Promptingはそれを全くしないもの. Few-shot Chain-of-Thought の出⼒結果の多数決を⾏い 最終的な出⼒結果にする⼿法. この⼿法は診断の⼀貫性や推奨が重要な医療領域で特に 有⽤と⾔われている. Prompt Tuning and Instruction Prompt Tuning • プロンプトをモデルの重みに付け加えるもの Prompt Tuning解説 参考⽂献 ※詳しい使い⽅と他の⼿法の詳しい資料 Qiita記事

8.

8 3.⽣物医学の⾃然⾔語タスク ⼀般的な2つの下流タスク • 識別タスク • • • • • 意味:与えられた⼊⼒データに基づき,データを特定のクラス/カテゴリに分類/ 区別するタスク 種類:質問応答,固有表現抽出,関係抽出,テキスト分類,⾃然⾔語推論,意味 的テキスト類似度,情報検索 ⼊⼒:医学的質問,臨床記録,医学⽂書,研究論⽂,患者の電⼦カルテ 出⼒:ラベル,カテゴリなど ⽣成タスク • • • • 意味:与えられた⼊⼒に基づいて流暢で適切な(新しい)テキストを正確に⽣成す ること 種類:医療テキスト要約,医療テキスト⽣成,テキスト簡略化 ⼊⼒:病状,症状,患者の⼈⼝統計,⼀連の医療メモ,検査結果など.(退院サ マリー⽣成タスクの場合) 出⼒:病状の診断勧告または個別化された指導情報(退院サマリー⽣成タスクの 場合) 性能⽐較(右図) • ChatGPTのような汎⽤LLMsが性能が⾼いタスク • • クローズエンド型:正しい答えがすでに複数の候補で提供されているもの 特化型LLMsのが性能の⾼いタスク • オープンエンド型:与えられておらず⾃⼒で回答を予測する必要のあるもの GPTとファインチューニングの性能⽐較

9.

9 4.臨床応⽤(1) 1. 医療診断 • 利点 • ⽋点 • 専⾨医療への機会の増加 • LLMを医療診断の唯⼀のツールとして使⽤する際の明確な限界として,患者からの主観的な⼊ ⼒に完全に依存すること.つまり画像診断と⽐較して客観性が低い点. 患者のプライバシー アルゴリズムの説明責任 出⼒のバイアス • • • 2. フォーアティングと国際疫病分類(ICD) • • • 3. 4. 意味:臨床セッションの診断・⼿続き情報を標準化する⼿法 ICDのラベリング処理は時間が必要であり,医師⾃⾝で⾏われることが多いため, LLMsでの⾃動化は有⽤.LLMは,臨床記録から医学⽤語を分離し,対応するICD コードを割り当てることで,ICDコーディングの ⾃動化を⽀援することが可能 注意点:バイアス・ハルシネーション 臨床報告⽣成 • 利点 • ⽋点 • • 臨床医の臨床作業負荷の軽減 より正確な要約⽣成が可能 • • • ハルシネーション 仮説に基づいた視点でなく,テキストを表⾯的に捉えるような視点で書くこと ⼈がするより冗⻑的な⽂章になる傾向 医療教育 • 2つの効果的なLLMsの活⽤⽅法 • 利点 • ⽋点・課題 • • 医療の専⾨家のためのサポーター ⼊⾨者や⼀般市⺠のためのサポーター • • • 医学⽣が医学試験などに向けての問題演習やそのフィードバックに使える 患者⾃⾝が⼿軽に平易な表現・語彙で病気を理解できる 専⾨家がより信頼できる情報にアクセスできる • • • 倫理的な学習の不⾜ トレーニングデータセットから⽣まれるバイアス ハルシネーションのような誤った⽂章⽣成 Microsoftのヘルスケア組織へのAIソリューション

10.

10 4.臨床応⽤(2) 5. 医療ロボット 6. 医療系の⾔語翻訳 ロボットの事例 • ⼿術中,患者の搬送,看護師の補助,医療リハビリテーションなど • 医療スタッフの不⾜に対処 • ⼈間の⾝体能⼒を超えた作業を⾏える LLMsの応⽤例 • ⼈間とコンピュータの柔軟なコミュニケーションが可能 • ロボットを動かす移動の経路計画に利⽤可能 懸念点 • バイアスやハルシネーションによる判断ミス 2つの使⽤例あり 1. 任意の2つの⾔語間の翻訳 2. 利点 • グローバルなコラボレーションを促進.⾔語の壁はこの状況において⼤きな障壁の⼀つ 専⾨⽤語を平易な語彙・⽂章に変換 利点 • 学⽣のスキルレベルに応じた表現が可能 • 患者,特に⾼齢者などの医療知識の乏しい⽅への医療⾏為の理解促進につながる 懸念点 • ハルシネーション • 意図せず誤解させたり判断を誤らせる表現を⾏う可能性 7. メンタルヘルスサポート チャットボットでのLLMsの利⽤ • 利点 • メンタルヘルス治療リソースへのアクセスが⼤幅に向上 • ⼀般的にメンタルヘルスの診断と治療の成果には,患者が⾃分の状態についてどれだけ情 報を開⽰するかが重要 チャットボットへの⼼理的開⽰が積極的であるほど,正確な診断とそれに基づく治療計画 の精度が向上 • • • 懸念点 • 特に,経済的または物理的な制約のある患者への参⼊障壁を⼤幅に下げられる 書き⾔葉と話し⾔葉をうまく分けられないこと 例:医療⾯接AIチャットボット

11.

11 5.課題 1. Hallucination(ハルシネーション, 幻覚) 意味:⽣成された出⼒が不正確な情報または事実に反する情報を含む現象 その結果起こること • 誤った医療情報の拡散,誤診,不適切な治療,有害な患者教育を引き起こす可能性 現状の解決策 • 学習時の補正 • モデルの重みを調整することで幻覚を緩和し,幻覚の出⼒を⽣成する確率を減らすこと(⼿法:事実⼀致の強化学習・対⽐学習) • ⽣成時の補正 • 検索補強補正 • 複数のサンプルを作成し信頼度スコアを出すことで幻覚を識別 • 正しい⽂章をプロンプトで使⽤したり,Chain-of-Thought (CoT) プロンプティングを使⽤したりする 2. 評価ベンチマークと評価指標の⽋如 3. ドメインデータの制限 4. 新しい知識適応 • • • より医学的でLLMに特化したベンチマークや指標を開発することが必要 データ収集の課題として,アクセスするために広範な倫理的,法的,プライバシーに関する⼿順が必要 データへのラベル付けがないことがある 知識を追加(再学習)する時の問題点 • LLMをいかにして古い知識を「忘れる」ようにするかであり、学習データからすべての「古い知識」を取り除くことはほぼ不可能であり,新しい知識と古い知識の間の不⼀致は 意図しない関連付けやバイアスを引き起こす可能性がある • 知識を適時に追加することで、どのようにリアルタイムにモデルを更新していくかであり,実際の実装において最新の医学知識を正確かつタイムリーに更新することが重要な医 療分野において、LLMを使⽤する上で⼤きな障壁となる 解決⽅法 • モデルのパラメータを変更する⽅法 • 推論時に外部の知識情報をプロンプトに加える⽅法 5. ⾏動アライメント(Behavior Alignment) 6. 倫理的・法的・安全に関する懸念 • • 意味:LLMの⾏動がそのタスクの⽬的に合致していることを確認するプロセスのこと 現状この解決策はない

12.

12 6.今後の展望 1. 新しいベンチマークの紹介 • • 2. 現状の課題:従来のベンチマークは,主に医学的な質問応答 の精度を測定するもので,LLMに必要な臨床スキルの全領域 を⼗分に捉えていない LLMの評価に⼈間中⼼の標準化された医学検査を使⽤するこ とに批判が向けられ,これらの検査に合格しても,実際の臨 床現場で求められるニュアンスのある専⾨知識におけるLLM の熟練度が必ずしも反映 されない 学際的なコラボレーション • 課題解決に向けこれが重要 • 3. 時系列,視覚,聴覚データと統合されたマルチモーダル LLM • 4. 特に現状のAIはテクノロジー企業がリードしている点に懸念あり 時系列データを処理できる医療⽤LLMはごくわずかしか存在 しない 医療⽤エージェント(Medical Agents) Googleの医療特化LLM: MedLM 数ヶ⽉以内にマルチモーダルモデル(Gemini)ベースのモデルを公開予定

13.

13 感想 • 医療系LLMsについて簡単かつ丁寧にまとまっていたのでいい勉強になりました • 現在はビックテック主導のAI開発だが,臨床現場で使⽤するには実際の医師が主導することが不可⽋という印象です • ビックテックも医療現場のデータが喉から⼿が出るほど欲しい現状だと考えています • 気になった点としては,医療特化モデルで特に有効な⼿法などの研究やハルシネーションの低減⽅法についてサーベイしたいところです Linkedin: yuki-tashiro Twitter: y_k_c_t_