[DL輪読会]How to develop machine learning models for healthcare

>100 Views

March 06, 20

スライド概要

2020/03/06
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Deep Learning JP 輪読会 2020/03/06 東京大学 医療AI開発学講座 山口亮平

2.

How to develop machine learning models for healthcare Chen PHC, Liu Y, Peng L. Nat Mater. 2019;18(5):410-414. doi:10.1038/s41563-019-0345-0 (Google AI Healthcare)

3.

Motivation • 医療AIの研究のやり方について指針を探していた • 医療に対する予測モデル構築のガイドラインとして Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis (TRIPOD) があるが、 Deep Learningには完全には対応していない。 • 本論文は有用な情報が良くまとまっていそう。

6.

Problem Selection(問題設定) 適切な問題設定が重要 →予測するなら治療方針決定に重要なものを。 (例、薬飲むべきか、飲まない方が良いのか判断) 「人間から診断を学び、AIに再現させる」 「人間は気づかない特徴を、AIに見つけさせる」

7.

Problem Selection(問題設定) データの入手順に注意 ○△ 太郎 17:15 17:30 17:32 17:33 … 突然胸が痛くなる 救急車でA病院到着 心電図検査 心電図で異常あり 予測

8.

Problem Selection(問題設定) ○△ 太郎 17:15 17:30 17:32 17:33 … 診断 治療 突然胸が痛くなる 救急車でA病院到着 心電図検査 心電図で異常あり 入力

9.

Problem Selection(問題設定) ❌ ○△ 太郎 17:15 17:30 17:32 17:33 … 診断 治療 突然胸が痛くなる 救急車でA病院到着 心電図検査 心電図で異常あり 入力

10.

Problem Selection(問題設定) 定性的評価も重要 Saliency Map, Heatmapなどの定性的評価も重要 ※ ※ ※Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization. October 2016. https://arxiv.org/abs/1610.02391.

11.

Problem Selection(問題設定) 定性的評価も重要 Saliency の結果と医師の判断を組み合わせ、新たな知見を得る事も ※ ※ ※Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization. October 2016. https://arxiv.org/abs/1610.02391.

13.

Data Collection(データ収集) デジタル化されていない プライバシーなどの為、利用不可 そもそも病気の症例がない(クラスインバランス) 課題設定には、「データの入手しやすさ」も考える!

14.

Data Collection(データ収集) データ分割の名称に注意

15.

※実際にはピンボケはレントゲンでは起きず、顕微鏡画像などで見られることがあります Data Collection(データ収集) データの質に注意 “胸のレントゲン画像” 肺

16.

※実際にはピンボケはレントゲンでは起きず、顕微鏡画像などで見られることがあります Data Collection(データ収集) データの質に注意 “胸のレントゲン画像” 心臓 肺 ピンボケ

17.

Data Collection(データ収集) ラベルの質に注意 正常 異常

18.

Data Collection(データ収集) ラベルの質に注意 ラベル間違い 正常 異常 「正常」

19.

Data Collection(データ収集) ラベルの質に注意 正常 異常 ラベル間違い 意見割れる 「正常」 vs

20.

Data Collection(データ収集) 専門医の集団を作り、 ラベルを合議(△多数決) ラベルの質に注意 ※時間とコストがかかる 正常 異常 ラベル間違い 意見割れる 「正常」 vs

22.

ML development(学習時) End-to-Endでなくても良い Segmentation Classification 癌 :良性 :悪性 癌

23.

ML development(学習時) End-to-Endでなくても良い ①:中間の結果が役に立つかも! Segmentation Classification 癌 :良性 :悪性 ②:データ数がもっと必要に! 癌

24.

ML development(学習時) やや一般的なこと Overfittingしないようにする事。 (Overfitだと、性能を課題評価してしまう) Data Augmentationは重要。 (回転などにinvariant) Train-tune-validationの分割を必ず守る事。 (tuning dataは一切評価に使わないように)

26.

Evaluating performance Discrimination(判別) 「モデルの識別能力」 Precision, Recall… 1 Actual 医師A Positive Negative Positive 300 34 Negative 32 134 医師B Predict 0 他医師との比較 が必要な事も。 他分野に比べ、これも大事 (理由:有無の判断が重要) Hosmer-Lemeshow test... Positive probability ROC-AUC Calibration(較正) 「モデルのフィッティング」 Observed propotion 1

27.

Evaluating performance Discrimination(判別) 「モデルの識別能力」 Precision, Recall… 1 Actual 医師A Positive Negative Positive 300 34 Negative 32 134 医師B Predict 0 他医師との比較 が必要な事も。 他分野に比べ、これも大事 (理由:有無の判断が重要) Hosmer-Lemeshow test... Positive probability ROC-AUC Calibration(較正) 「モデルのフィッティング」 Observed propotion 1

28.

Evaluating performance Discrimination(判別) 「モデルの識別能力」 Precision, Recall… 1 Actual 医師A Positive Negative Positive 300 34 Negative 32 134 医師B Predict 0 他医師との比較 が必要な事も。 他分野に比べ、これも大事 (理由:有無の判断が重要) Hosmer-Lemeshow test... Positive probability ROC-AUC Calibration(較正) 「モデルのフィッティング」 Observed propotion 1

29.

Evaluating performance Discrimination(判別) 「モデルの識別能力」 Precision, Recall… 1 Actual 医師A Positive Negative Positive 300 34 Negative 32 134 医師B Predict 0 他医師との比較 が必要な事も。 他分野に比べ、これも大事 (理由:有無の判断が重要) Hosmer-Lemeshow test... Positive probability ROC-AUC Calibration(較正) 「モデルのフィッティング」 Observed propotion これも大事 (リスク評価のため) 1

30.

Evaluating performance やや医療に特殊な事 サブグループ分析 病院A AUC:0.97 病院B AUC:0.70 対象群の調整

31.

Evaluating performance やや医療に特殊な事 サブグループ分析 病院A AUC:0.97 病院B AUC:0.70 画像取り込みの 機械が違った 対象群の調整

32.

Evaluating performance やや医療に特殊な事 サブグループ分析 病院A AUC:0.97 対象群の調整 病院B AUC:0.70 画像取り込みの 機械が違った 「検査の重要性」が 対象群の分布により異なる

34.

Clinical Impact 要点 精度は100%にならない →間違いがあることを想定したシステム作る事が重要 法律などに即した実装が必要 →実際に現場で使ってみてどうだったかの評価が必要。 分類性能だけでなく、予測にかかる時間なども重要 (例:手術中の病理検査)

35.

Clinical Impact 要点 AIに対する「信頼性」が重要 →AIを過信したり無視したりするかも →実際に現場で使ってみる研究が重要 システムでの「警告」の出し方に注意 →あまり頻回に「警告」を出すと見落とされる事がある →「うまい」警告の出し方を考える必要あり

36.

まとめ(抜粋) • データの入手可能性を考えて課題設定を。 • データの時系列、質にも注意。 • End-to-End 学習にこだわる必要なし。 • モデル評価の際には、判別能力だけでなく較正能力も重要。 • サブグループ解析も重要。 • 今後、AIに対する信頼性も評価。