[DL Hacks]Privacy-preserving generative deep neural networks support clinical data sharing

>100 Views

March 23, 18

スライド概要

2018/02/05
Deep Learning JP:
http://deeplearning.jp/hacks/

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Privacy-preserving generative deep neural networks support clinical data sharing Brett K. Beaulieu-Jones, Zhiwei Steven Wu, Chris Williams, James Brian Byrd, Casey S. Greene 古賀樹 2018.1.29 理学部情報科学科 1

2.

CONTENTS • Introduction • GAN (AC-GAN) • Evaluation • Conclusion 2

3.

INTRODUCTION 3

4.

書誌情報 Privacy-preserving generative deep neural networks support clinical data sharing Brett K. Beaulieu-Jones (1), Zhiwei Steven Wu (2) , Chris Williams(1), James Brian Byrd (3), Casey S. Greene(1) (1)Perelman School of Medicine, University of Pennsylvania (2)School of Engineering and Applied Sciences, University of Pennsylvania (3)University of Michigan Medical School • www.biorxiv.org に投稿された preprint の論文 • 2017年7月に初版が投稿された 4

5.

論文の目的 • 医療データを個人が特定できない形で生成するこ とで研究者同士が医療データをシェアできるよう にすること • 単に匿名化しただけでは個人が特定できないと は言えない • 医療データの生成方法としてGAN (AC-GAN)を採用 5

6.

医療データの特徴 • • (今回) 臨床データ(病院での検査結果) • 時系列データ • 欠損値が多い 画像データ(レントゲン写真など)、ゲノムデータ なども最近は扱われる 6

7.

医療データシェアの現状・問題点 • 研究などに用いられる医療データはシェアされないことが多 い • データシェアをすることのメリットを検証するために、医 療データを用いたコンペが開催されることもある (ex: SPRINT Data Analysis Challenge) • データがシェアされる際に、同意書の記入や倫理審査が必要 • 審査に時間的、人員的コストが多くかかってしまう 7

8.

現状への解決策 • Gibbs Sampler を用いたデータ生成 Perturbed Gibbs Samplers for Generating Large-Scale Privacy-Safe Synthetic Health Data • GAN を用いたデータ生成 (<-今回紹介) 「プライバシーの保護がなされているか」は 「差分プライバシー」によって判断される 8

9.

(参考) 差分プライバシー * Neighboring dataset: あるデータセットと1要素のみ異なるデータセット = “post-processing” をしても差分プライバシーは満たされる 9

10.

今回の論文の優位性 • 論文では直接言及されていない • 複雑な分布からのデータ生成はGANの方 が(Gibbs Samplerなどに比べて)強い…? • Goodfellow氏もGANによる医療データ生成 の可能性について言及している 10

11.

GAN (AC-GAN) 11

12.

今回のデータ生成について • SPRINT Clinical Trail Data • intensive treatment group: 収縮期血圧を < 120mmHg に standard treatment group: 収縮期血圧を < 140mmHg に • • 患者が intensive / standard treatment group のどちらにいたのか • 収縮期血圧、拡張期血圧、薬の処方回数を12計測分 (3 x 12) • データ数(N): 6502 (train: 6000, test: 502) 上のようなデータを、groupを指定してAC-GAN(既存手法)により生成する 12

13.

AC-GAN • Conditional Image Synthesis With Auxiliary Classifier GANs (ICML 2017) https://arxiv.org/abs/1610.09585 • 通常のGANにClassの情報を付加する 13

14.

AC-GAN 損失関数は以下 14

15.

今回のAC-GANの構成(工夫) • Generator • • Input: noise + label(intensive / standard) Discriminator • Output: real / fake + label(intensive / standard) 15

16.

今回のGANの構成(工夫) • 通常のACGANに加えてプライバシーの保護 (差分プライバシー)を行う必要 本物のデータに直接触るのはDiscriminatorのみ (generator は “post-processing” なので気にしなくて良い) privateなdiscriminatorでは以下を逆伝播の勾配に対して行う (比較のため以下を行わない non-private な discriminator を用意する) • L2ノルムをclipする • clipの閾値の大きさに比例した分散を持つ正規分布からサンプリングさ れた値を足す 16

17.

EVALUATION 17

18.

評価方法 • データの分布 • データの相関 • 臨床医によるデータの評価 • 機械学習による分類タスク性能 • 異なるデータセットでの検証 • 差分プライバシーの評価 18

19.

データの分布 Logistic回帰とRandom Forestのスコアが良い5 epochずつ(計10 epoch分)のgeneratorから生成されたデータ(D)が最も良い 19

20.

データの相関 Privateな生成データはノイズはあるが傾向をある程度掴んでいる (Spearman correlation = 0.8787, p-value = 7.692-204) 20

21.

臨床医によるデータの評価 どの程度本物に見えるかを臨床医が0-10点で評価 21

22.

機械学習による分類タスク性能 treatment group の分類タスクの結果 22

23.

機械学習による分類タスク性能 23

24.

異なるデータセットでの検証 MIMIC Critical Care Databaseでの結果 24

25.

差分プライバシーの評価 (ε, δ)は生データにアクセスする度に累積して大きくなる (計算方法は Deep learning with differential privacy を参照) top 10 epoch を選ぶ際の(ε, δ)と合わせて(2.5, 10^-5)を達成 25

26.

CONCLUSION 26

27.

結論・今後の展望 • AC-GANで医療データを(2.5, 10^-5)-差分プライバシーの下 で元データの特徴を「ある程度」残したまま生成できる • そもそもGANを使う必要性、優位性がどの程度あるのか についての調査 • 一般に当てはめるときにテンソルのshapeをどのように決 めればいいかについての検討 27