【DL輪読会】Generative models for molecular discovery: Recent advances and challenges

157 Views

May 27, 22

スライド概要

2022/05/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

1 DEEP LEARNING JP “Generative models for molecular discovery: Recent advances and challenges” [DL Papers] Kensuke Wakasugi, Panasonic Holdings Corporation. http://deeplearning.jp/ Wakasugi, Panasonic Holdings Corporation

2.

書誌情報1 2 紹介論文[1] タイトル: Generative models for molecular discovery: Recent advances and challenges 著者:Bilodeau, C., Jin, W., Jaakkola, T., Barzilay, R., & Jensen, K. F. 所属:Massachusetts Institute of Technology 出版日: 2022/03/05 DOI:https://doi.org/10.1002/wcms.1608 ジャーナル:Wiley Interdisciplinary Reviews: Computational Molecular Science, Impact factor:25.113(2020) 選書理由 化学の分野において、深層学習の生成モデルがどのように応用されているか興味があったため ※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです Wakasugi, Panasonic Holdings Corporation

3.

書誌情報2 3 紹介論文[2] タイトル: GraphAF: a flow-based autoregressive model for molecular graph generation 著者: Shi, C., Xu, M., Zhu, Z., Zhang, W., Zhang, M., & Tang, J. 所属: 北京大学, 上海交通大学, Mila, モントリオール大学, CIFAR 出版日: 2020/01/26 被引用数: 136 (22/05/24時点) DOI:https://doi.org/10.48550/arXiv.2001.09382 ジャーナル:ICLR 2020 選書理由 具体的な深層学習の応用事例のうち、Flowベースモデルの一種として有力な手法だったため ※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです Wakasugi, Panasonic Holdings Corporation

4.

目次 4 • 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges • 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation Wakasugi, Panasonic Holdings Corporation

5.

概要 5 分子生成への深層生成モデルの応用として、VAE、GAN、Flowが研究されている • 画像分野と比較して、 入出力形式は分子用にする必要があるが、 その他は踏襲 FIGURE 1 Wakasugi, Panasonic Holdings Corporation

6.

分子の表現 6 一次元表現では、SMILESと呼ばれる記法を利用.自然言語と類似 • 一次元表現 – SMILES • 文字列で表現され、 自然言語処理分野の各種手法が応用可能 • 言語における文法が存在し、 任意の配列が成立するわけではない • 不正でないSMILESの生成効率も一つの課 題. 出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法 Wakasugi, Panasonic Holdings Corporation

7.

分子の表現 7 二次元表現では、原子とその結合のグラフで表現 • 二次元表現 – グラフ(node、edge). ➢ 左表の構造をそのままグラフのnode、edge に割当てて表現. ➢ 逐次的生成と、一括生成する手法がある. ➢ SMILES同様に、 valency rulesなどの整合性判定が存在. 出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法 Wakasugi, Panasonic Holdings Corporation

8.

分子の表現 8 三次元表現では、空間上の点で表現 • 三次元表現 – point clouds ➢ 三次元空間上の点集合として表現. ➢ 情報量が最も多くなるが、学習も難しくなる ➢ 1次、2次、3次の順に、情報量は詳細に (空間配置、異性体など) 出典: https://commons.wikimedia.org/wiki/File:Glucose_animation.gif?us elang=ja Wakasugi, Panasonic Holdings Corporation

9.

アーキテクチャ 9 基本的な生成モデルのアーキテクチャは画像分野に準じる ・VAE: 再構成誤差と、 隠れ層のKLダイバージェンスで学習 ・GAN: 生成分子に対する、 real or fakeを利用して学習 ・Normalizing flow: 実空間と潜在空間の変換・逆変換を学習 ・その他: diffusion-based models 合成可能性を考慮した生成モデル 異性体の考慮はできていない FIGURE 1 Wakasugi, Panasonic Holdings Corporation

10.

生成モデルを使う問題設定 10 問題設定は、制約のあるなしで大きく三種類 (1) 制約なし分子生成 特に条件を課さない生成モデル.ただし、chemical validityは必要 とにかく多様な新規分子が欲しいケース. chemical validity, novelty, uniquenessで評価 (2) 特性制約つき分子生成(出力側の制約) 特性値の制約条件を課す場合. 例えば、薬としての効能を最大化したいケースなど. 分子生成に合わせて実験的評価を行うことは困難であるため、特性予測器と併用する. この場合、ベイズ最適化や、強化学習の枠組みで最適解を探すことになる. (3) 構造制約つき分子生成(入力側の制約) 指定の構造から派生した分子生成、あるいは、所定の部分構造を含む分子生成. 既知の素性の良い分子から出発し、よりよい分子生成を目指す. Wakasugi, Panasonic Holdings Corporation

11.

ベンチマーク・データセット 11 比較検証用のベンチマークは用意されているが、実問題との乖離も ・最新のデータセットは、MOSES、Guacamol ・ Unconstrainedの場合 valid, unique, novel, diverseなどで評価 ・ Goal-orientedの場合 similarity:対象分子に似た分子が生成できるか Property Optimization:特性最適化 ・ 特性としてはlogP or QEDが良く使われる logP:オクタノール/水分配係数 QED:quantitative estimate of drug-likeliness ・注意点として、 logP or QEDは実際的に 必要な特性を表していないことも多い Wakasugi, Panasonic Holdings Corporation

12.

一般的なワークフロー 12 現状single-passの取り組みが多いが、closed-loopとしての利用も期待 ・現状: 所望の分子を多数生成 (>104)し、 マニュアルでスクリーニング 最終的に、2,3個を合成評価 ・将来: 絞り込み機能の自動化と、合成評価の自動化・高速化 FIGURE 3 Wakasugi, Panasonic Holdings Corporation

13.

実用時の課題:評価方法が乏しい 13 生成モデルは単純に利用可能だが、実験的評価は高コスト ■分子設計の最適化の際に、利用可能な評価方法が乏しい • 任意の分子に対する、目的関数が与えられた下での最適化 • 複数の目的関数が与えられた場合 • 説明変数(分子の構造)に制約がある場合 FIGURE 2 根本的課題は、分子の評価方法. 高精度な予測器か、高速な実験検証環境が必要 Wakasugi, Panasonic Holdings Corporation

14.

実用時の課題:合成可能性の評価、データのノイズ 14 生成モデルの良し悪しの他、合成可否・データバイアス・予測性能も考慮が必要 ■合成可能か否かは重要な指標だが、近似的評価方法の利用に留まる Synthetic accessibilityなどが利用されるが、 実際に合成できることを正しく評価できるわけではない ■特性が付与された学習データに、ノイズ、バイアスが含まれる. ベイズ最適化などを行う際の特性予測器に、不確実性が含まれ、 それらを考慮した探索が必要 Wakasugi, Panasonic Holdings Corporation

15.

将来展望 15 将来展望として、ベンチマーク拡充と表現方法の進化に期待 ■ベンチマーク拡充 ベンチマークに対し、高性能を示すモデルが提案されつつあるが、 実応用を考えた時に、十分な評価がなされているとはいいがたい. LogP、QEDでは不十分 ■表現方法の進化 より複雑な特徴量の獲得のため、2D、3Dの生成モデルの発展が必要. 同時に、計算量の増加、大規模データベースが必要という課題も発生. 現状のモデルでは、自己回帰モデルが使われているが、本質的には順序のないモデルが良い 鏡面対象分子を区別することも望ましい Wakasugi, Panasonic Holdings Corporation

16.

紹介論文[1]:まとめ 16 • 画像分野での各種手法(VAE,GAN,Flow)が順次転用. • ベンチマーク不足などが課題になりつつある. • 合成可能性など、実験由来のボトルネックも課題 Wakasugi, Panasonic Holdings Corporation

17.

目次 17 • 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges • 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation Wakasugi, Panasonic Holdings Corporation

18.

背景 18 深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用. ■自己回帰Flowモデルのメリット (1) high model flexibility for data density estimation; (2) efficient parallel computation for training; (3) an iterative sampling process, which allows leveraging chemical domain knowledge for valency checking. Wakasugi, Panasonic Holdings Corporation

19.

自己回帰Flow 19 深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用. ■ Normalizing flow(Kobyzev et al., 2019) ガウス分布などの潜在空間の変数εから、実データzへの写像を逆関数が定義できる形で表現 zの尤度計算ができる ■ Autoregressive flow( Papamakarios et al. 2017) 変数の依存関係に制約が加わることになり、ヤコビアンの行列式計算が簡略化される Wakasugi, Panasonic Holdings Corporation

20.

分子のグラフ表現 20 原子種類と結合の種類のバイナリで表現 入力 ■分子のグラフ表現 ■nodeの表現、d種類の原子のいずれか 隠れ層 ■l相における、nodeの特徴量 ■更新式 ■edgeの表現、b種類の結合のいずれか ※D-1/2の意味は把握できていないです Wakasugi, Panasonic Holdings Corporation

21.

分子の生成 21 新しい原子と、既存原子との接続を逐次的に生成 生成 ■既存のグラフを元に、原子→結合の順に生成 ■自己回帰モデルとして、ziのガウス分布の平均と分散をGiで表現 ■平均、分散を算出するgは隠れ層HからMLPで算出 Wakasugi, Panasonic Holdings Corporation

22.

分子生成の全体像 22 新しい原子と、既存原子との接続を逐次的に生成 • 訓練時には、並列にεを推定可能 Wakasugi, Panasonic Holdings Corporation

23.

特性最適化 23 特性最適化は強化学習の枠組みで実現 • 訓練時には、nodeやedgeを追加した際の報酬をVで置き、 強化学習の枠組みで最適化 Wakasugi, Panasonic Holdings Corporation

24.

制約なし生成モデルの性能評価 24 いずれの指標においても高い性能 • GraphNVPと比較して、 逐次更新の際にValidityを考慮する ので、本手法が有利. Wakasugi, Panasonic Holdings Corporation

25.

特性最適化 25 LogP,QEDで評価し、高精度という結果 • 目的の特性を持つ分子を より高精度に生成 Wakasugi, Panasonic Holdings Corporation

26.

制約付き特性最適化 26 オリジナルの分子との類似度を維持したもと、特性最適化 Wakasugi, Panasonic Holdings Corporation

27.

Summary 27 自己回帰Flowを分子生成モデルに適用し、良好な結果を得た • 分子生成で100% validな分子生成 • 特性最適化においても、比較手法を上回る結果 • 将来的に、ソーシャルグラフへの展開を検討 Wakasugi, Panasonic Holdings Corporation

28.

所感 28 • 画像分野での流れを順調に踏襲 • 実験関連でのブレイクスルーがどのように起こるかがポイントか? • 自己回帰Flowのメリットの享受もあるが、 回転対称性の考慮など、物理学視点からの理論発展も期待 • 一次元表現においては、Transformer等の応用も期待 Wakasugi, Panasonic Holdings Corporation