122 Views
August 12, 24
スライド概要
2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
AAAI論文読みLT会 2024/08/10 マルチモーダル拡散モデルによる 治療用ペプチド生成 京都大学 理学部 3回生 山下 素数 0
自己紹介 • 所属 京大理学部3回生 • 興味分野,インターンとか 分野に絞らず興味を持ったものを勉強中 • 個人的な趣味とか タイピング(?) J-POP・アニソン・ボカロ・曲のカバーを聴く(?) (ぶっちゃけあまり詳しくはない。86、ギルティクラウン、 やました もとかず 山下 素数 リゼロ、SAO、 EGOIST の曲、よう実opなどが好み。最近 で言えば【推しの子】ファタールの棗いつき×藍月なくるに よるカバーが凄かった) 1
アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 2
アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 3
紹介する論文 紹介する論文は A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation https://doi.org/10.1609/aaai.v38i1.27749 Contrastive Learningによる損失関数も用いたマルチモーダル 拡散モデルの論文 内容を絞って紹介する 以降に現れる図は明示されていなければこの論文から引用され たもの 4
アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 5
タスクの説明 そもそもペプチドとは? 複数個のアミノ酸がペプチド結合した化合物 どの種類のアミノ酸が一列に結合して いるのかを表す文字列で、ペプチドの 構造式を表すことができる 例: アミノ酸A, B, Cが結合していたらABC 順番にも意味があることに注意 ABC≠BAC https://kimika.net/y2pepuketsu.html 6
タスクの説明 一方で、アミノ酸の結合方法は3次元的 には複雑な形 各アミノ酸の3次元座標も知りたい 今回のタスク 治療用ペプチドの構造式を表す文字列と各アミノ酸 の3次元座標を生成したい! 7
アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 8
手法の説明 拡散モデルで文字列と座標を生成する! 生成した文字列と座標の一貫性も担保しつつ、 治療用ペプチドと治療用でないペプチドを区別できるよう にContrastive Learning(CL)を使う 9
手法の説明 ノイズ推定のモデルは次のような感じ 文字列のノイズ推定は Transformer 座標のノイズ推定は E(3) EGNN(E(3)同変グラ フニューラルネットワーク) を使う E(3) EGNNの同変性 https://pseudo-theory-of-everything.hatenablog.com/entry/2021/06/06/214617 10
手法の説明 文字列 座標 Inter-CL 同じペプチドのときに文字列の embeddingと座標のembeddingの類似度 を上げる Intra-CL 治療用ペプチドのembeddingと他の治療 用ペプチドのembeddingの類似度 を 治療用ペプチドのembeddingと他の治療 用でないペプチドのembeddingの類似度 より大きくする 11
手法の説明 Inter-CL 文字列 Intra-CL 座標 ノイズ推定の誤差を表す損失関数と重 Eはcosine類似度を表す み付き平均を取って損失関数にする 12
アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 13
手法の新規性 過去の研究では次のような手法があった タンパク質生成の拡散モデル Contrastive Learning ⚫ テキスト条件付きガイダンス拡散 モデルで構造式を生成 ⚫ E(3) EGNNを用いて構造の座標を 予測 ⚫ 抗体残基の位置と方向を同変な拡 散モデルを用いて考える ⚫ テキストと画像の間の類似度を測る ことができるembeddingを作成する ⚫ 正例と負例を効率的にサンプリング してよりスパースなテキストの embeddingを作成する ⚫ 1種類のproteinで学習した conformerを複数種類で作成し、 augmentationに用いる ペプチドの構造式と座標を一緒 に生成する拡散モデルを初めて 提案 より良いembeddingを作るために CLを用いた本手法の損失関数を提案 14
アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 15
実験結果 ↓不安定性 ↓抗菌性 ↓抗ガン性 AMPとACPは治療用ペ プチドのデータセット 本手法はMMCD 他手法については説明を 省略する 他手法に比べて良い 精度が出ている ↑抗菌ペプチドの細菌膜タンパク質への結合度 ↑構造の信頼性を評価する指標 16
実験結果 文字列の長さを変えても 他手法よりも良い精度が 出ている 17
まとめ ➢ Contrastive Learning(CL)による損失を使うことで、 生成した文字列と座標の一貫性も担保しつつ、治療用 ペプチドと治療用でないペプチドを区別できるような embeddingを持つ拡散モデルが学習できる ➢ 文字列生成のモデルにはTransformerを用いている ➢ 座標生成のモデルにはE(3) EGNNを用いており、自 由度を落とすことでモデルを学習しやすくしている 18