[DLHacks]Privacy-preserving generative deep neural networks support clinical data sharing

>100 Views

June 19, 18

スライド概要

2018/06/11
Deep Learning JP:
http://deeplearning.jp/hacks/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Privacy-preserving generative deep neural networks support clinical data sharing Brett K. Beaulieu-Jones, Zhiwei Steven Wu, Chris Williams, James Brian Byrd, Casey S. Greene 2018/6/10 DL Hacks研究タスク発表 古賀樹

2.

目次 • 論文紹介 • 実装紹介 • 評価 • まとめ

3.

論文紹介

4.

書誌情報 • 著者 • Brett K. Beaulieu-Jones (UPenn, Medicine) • Zhiwei Steven Wu (UPenn, Engineering and Applied Sciences) • • Chris Williams (UPenn, Medicine) • James Brian Byrd (Michigan, Medicine) • Casey S. Greene (UPenn, Medicine) Preprint ( https://www.biorxiv.org/content/early/ 2018/06/05/159756 )

5.

書誌情報 • Ian Goodfellow が Twitterで言及

6.

要点 • GAN (Generative Adversarial Network) を用いて個人が 特定できない医療データを生成することに成功した。 これにより医療データシェアが促進される。 • データ生成に伴うプライバシーリスクを差分プライバシー により定量化した。

7.

医療データ • 臨床データ (病院での検査結果等) • 欠損値の多い時系列データ • 画像データ • ゲノムデータ

8.

医療データのシェア • 個人と紐づく医療データは一般公開されない • 従来の匿名化手法では不十分 (k匿名化など) • プライバシー / データの質 • データシェアのためには同意書、倫理審査が必要 • 医療データを題材にしたコンペも開催され始める (ex: SPRINT Data Analysis Challenge) GANを用いて個人情報を含まないデータを生成

9.

GAN (AC-GAN) • Conditional Image Synthesis With Auxiliary Classifier GANs (ICML 2017) https://arxiv.org/abs/ 1610.09585 • 通常のGANにClassの情報 を付与する

10.

GAN (AC-GAN) • Discriminator: max LS + LC • Generator: min LC LS

11.

差分プライバシー (定義) * Neighboring dataset: あるデータセットと1要素のみ異なるデータセット ✏, δ が小さいほど、プライバシーは保護されている

12.

差分プライバシー (気持ち) https://www.slideshare.net/kentarominami39/ss-64088396

13.

GANと差分プライバシーとの橋渡し Deep Learning with Differential Privacy Martin Abdi et al. Differential Private SGD Algorithm • 勾配のL2ノルムでclip • clipの閾値の大きさに比例し た分散を持つ正規分布のノ イズを勾配に加える

14.

GANと差分プライバシーとの橋渡し Deep Learning with Differential Privacy Martin Abdi et al. The Moments Accountant • 従来の手法(strong composition thorem)よりもタイトな上限を 得た • 実装には確率分布のモーメント( 5 32 )を用いた定理を利用

15.

評価 • • データの分布が似ている • データの代表値を比較 • データ内での相関係数を比較 医者が生成データを不自然だと思わない • • 機械学習の学習データとして使用できる • • 医者による真偽判定テスト 機械学習タスクの性能を比較 十分なプライバシー保護がなされているか • 差分プライバシー

16.

実装紹介

17.

学習データ • SPRINT Clinical Trail Data • 患者の収縮期血圧、拡張期血圧、薬の処方回数 を12計測分(3ヶ月毎) (3 x 12) • • 患者の治療グループ • Intensive treatment group • Standard treatment group データ数: 6502 (train: 6000, test: 502)

18.

実装紹介 • ipynbファイルで紹介

19.

評価

20.

評価 (再掲) • • データの分布が似ている • データの代表値を比較 • データ内での相関係数を比較 医者が生成データを不自然だと思わない • • 機械学習の学習データとして使用できる • • 医者による真偽判定テスト 機械学習タスクの性能を比較 十分なプライバシー保護がなされているか • 差分プライバシー

21.

(注) Multi-epoch Model (top10) • 1-500 epochの全てのGeneratorのモデルを保存しておく • それぞれのGeneratorの生成データでLogistic Regression とRandom Forestのスコア(treatment groupの分類)が良 い、top5のepochをそれぞれについて算出 • この時ラプラスメソッドを用いて、(0.5,0)-dpとなる (top5の算出のために生データに触るためプライバシー保 護を考慮)

22.

データの代表値 Paper 再現実験 Multi-epochが最も良い

23.

データ内での相関係数 Paper 再現実験 ある程度傾向が同じである 少々ノイズあり

24.

医者による真偽判定テスト Paper 再現実験 医者に頼めず 臨床医に本物に見えるかどうかを0-10点で評価

25.

機械学習タスクの性能 Paper 再現実験 Paper: ほぼ同等なスコア 再現実験: Logistic Regression以外は同等のスコア

26.

機械学習モデルへの変数の貢献度 Paper 再現実験 貢献度は生成方法や真偽によってあまり変わらない

27.

差分プライバシー Paper 再現実験 Multi-epoch Modelの算出の際と合わせて (2.5, 10 5 ) dp を達成

28.

まとめ

29.

まと • GAN (Generative Adversarial Network) を用いて個人が 特定できない医療データを生成することに成功した。 これにより医療データシェアが促進される。 • データ生成に伴うプライバシーリスクを差分プライバシー により定量化した。 (2.5, 10 5 ) dp を達成。