ChatGPTと読むAlphaMissense論文

372 Views

March 09, 24

スライド概要

第28回オープンバイオ研究会 https://github.com/open-bio-japan/website/wiki/meeting28

profile-image

東京科学大学 情報理工学院 准教授、学振申請書の書き方とコツ 著者

Docswellを使いましょう

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

オープンバイオ研究会 2024年3月9日(土) ChatGPTと読むAlphaMissense論文 東京工業大学 情報理工学院 おおうえ まさひと 大上 雅史 Ohue Laboratory, Tokyo Tech https://www.li.c.titech.ac.jp

3.

(先行研究によれば、)チャットボットは妹キャラ風である必要がある・・・ 3

4.

https://doi.org/10.1126/science.adg7492 4

6.

AlphaMissenseの発想 Examples of AlphaMissense predictions overlaid on AlphaFold predicted structures (red=predicted as pathogenic, blue=predicted as benign, grey=uncertain). Red dots represent known pathogenic missense variants, blue dots represent known benign variants from the ClinVar database. Left: HBB protein. Variants in this protein can cause sickle cell anaemia. Right: CFTR protein. Variants in this protein can cause cystic fibrosis. 6

7.

7 AlphaFold2 AlphaFold2 (DeepMind) David Baker lab David Baker lab Michael Feig lab タンパク質立体構造予測コンペティション CASP14の結果、AlphaFold2が圧勝 ※CASP =アミノ酸配列から立体構造を当てる。 構造を解いて答え合わせ。 https://predictioncenter.org/casp14/ GDT_TS値が 90以上になると 実験的に決定された 構造とほぼ等価

8.

AlphaFold2のアーキテクチャ 8 Jumper J, et al. Nature, 2021.

9.

9 AlphaFold2の作戦 (Sergey Ovchinnikov氏のスライドより一部改変) https://t.co/wjnw3uhMcV 共変異(共進化) BFD, Mgnify, UniRefなど (メタゲノム配列も含む) 配列DB 立体構造 共進化(共変異)情報は残基間距離予測に重要かつ強力な情報。 これが新規フォールドのタンパク質の予測を可能にしていると思われる。 (テンプレート構造を追加しても良いが、AF2の性能はあまり変わらない。)

10.

10 (宣伝)AlphaFoldの解説 https://www.sbj.or.jp/sbj/sbj_yomoyama_2.html 実験医学2023年10月号 実験医学2022年2月号 元論文&元論文のsupplementary information (62ページ!) https://www.nature.com/articles/s41586-021-03819-2

11.

AlphaMissenseのアーキテクチャ 11 Fig. 1. Overview of AlphaMissense. (A) AlphaMissense architecture. The model inputs consist of the reference protein sequence [cropped to length (L) = 256 residues], a set of variants sampled from the training set for the same sequence (up to N = 50 variants), and multiple sequence alignments (MSAs, up to Nall = 2048). Inference is performed for one variant at a time (N = 1). The reference sequence is repeated in the second row of the MSA with all sampled variant positions masked (see methods). As in AlphaFold, the model constructs the pair representation (i.e., encodes information about two-way interactions between residues) from the reference sequence (embedding size Kpair), and the MSA representation from the masked MSA (embedding size Kmsa). The MSA and pair representations are processed by a stack of Evoformer layers with recycling. Finally, the model predicts the structure of the reference sequence and the pathogenicity score for the variant, which is derived from the masked residue prediction head as the log-likelihood difference between residue a relative to the reference residue at position i (see methods). https://doi.org/10.1126/science.adg7492

12.

AlphaMissenseのアーキテクチャ 12 https://doi.org/10.1126/science.adg7492

14.

14 AlphaMissenseの予測精度 Fig. 2. Performance of AlphaMissense on clinically curated classification benchmarks. https://doi.org/10.1126/science.adg7492

15.

Ablation study(何の処理が効いているか) 15 https://doi.org/10.1126/science.adg7492