第9回 配信講義 計算科学技術特論B(2024)

603 Views

May 30, 24

スライド概要

第9回 6月13日 ABINIT-MPプログラムによるフラグメント分子軌道(FMO)計算2
先ず、テンソル縮約処理が支配的な高次相関計算の扱いに触れます。次に、2020年度の試行的利用段階の「富岳」を使った大規模計算の事例を新型コロナウイルスの関連タンパク質を例にお示しします。その後、高速化と超大規模系対応のプログラム改修、「富岳」を使った応用計算(粗視化シミュレーション連携含む)やデータ解析の例などの話題を提供します。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

配信講義 計算科学技術特論B(2024) - 2024/6/13 - #2 ABINIT-MPプログラムによる フラグメント分子軌道(FMO)計算2 望月祐志 (立教大学理学部化学科) [email protected] 2024/5/30 1

2.

謝辞 ◇ABINIT-MPプログラムのコード/ツールの主な開発関係者(敬称略) 望月祐志、中野達也(RIST)、坂倉耕太(FOCUS)、加藤季広(NEC)、 佐藤伸哉&山本純一(NES)、石川岳志(鹿児島大)、沖山佳生(神戸大)、 山下勝美(元NES)、奥脇弘次(JSOL/立教大)、土居英男(立教大)、 渡邊啓正(HPCS)、大島聡史(九州大)、片桐孝洋(名古屋大) ◇研究開発支援 CISS/HPCIの4プロジェクト; 東大生研&文科省 / FY2002-2015 FS2020(ポスト「京」)プロジェクト; 東大&文科省 / FY2014-2019 CRESTプロジェクト(“田中FMO”); JST / FY2004-2009 科研費(“榊-特定領域”); 文科省 / FY2008-2009 科研費(基盤B:代表); 文科省 / FY2016-2018 SFR; 立教大 / FY2006-2007, 2010-2014, 2019-2020, 2022NEC様; SX-AT高速化&機能強化の共同開発 / FY2020その他企業様からの立教大宛のご寄付 JHPCN課題; jh210036-NAH, jh220010, jh230001, jh240001 「富岳」課題; hp210026, hp210261, hp220025, hp220352, hp230016, 2 hp230017, hp230375, hp240013, hp240030 2024/5/30

3.

内容と流れ ・第一回(今回) フラグメント分子軌道(FMO)法の概要を基本的な式と処理の フローを交えて解説します。具体的には、ハートリーフォック(HF)、 2次および3次のメラープレセット摂動論(MP2,MP3)を取り上げ、 スパコンを使ったベンチマーク計算の事例も紹介します。また、 進行中の話題として積分計算のGPU対応についても触れます。 ・第二回(次回) 先ず、テンソル縮約処理が支配的な高次相関計算の扱いを紹介 します。次に、2020年度の試行的利用段階の「富岳」を使った 大規模計算の事例を新型コロナウイルスの関連タンパク質を例 にお示しします。後半は、高速化と超大規模系対応のプログラム 改修、「富岳」を使った応用計算やデータ解析例などの最近の トピック、粗視化シミュレーションへの接続についてお話します。 2024/5/30 3

4.

https://www.springer.com/gp/book/9789811592348 / ABINIT-MPはChap. 4 - Y. Mochizuki et al., “The ABINIT-MP Program”に記載 pp. 53-67. FMO計算の発展をまとめた本 2024/5/30 2021年1月刊行 4

5.

ABINIT-MPの全体的開発に関する論文リスト (赤字: HPC分野の先生方 / 紫字: HPC分野の技術者方) ■英文 (1) "Electron-correlated fragment-molecular-orbital calculations for biomolecular and nano systems", S. Tanaka*, Y. Mochizuki*, Y. Komeiji, Y. Okiyama, K. Fukuzawa, Phys. Chem. Chem. Phys., 16 (2014) 10310-10344. (2) "The ABINIT-MP Program", Y. Mochizuki*, T. Nakano, K. Sakakura, Y. Okiyama, H. Watanabe, K. Kato, Y. Akinaga, S. Sato, J. Yamamoto, K. Yamashita, T. Murase, T. Ishikawa, Y. Komeiji, Y. Kato, N. Watanabe, T. Tsukamoto, H. Mori, K. Okuwaki, S. Tanaka, A. Kato, C. Watanabe, K. Fukuzawa (pp. 53-67) in Recent Advances of the Fragment Molecular Orbital Method - Enhanced Performance and Applicability, ed. Y. Mochizuki, S. Tanaka, K. Fukuzawa (January 2021, Springer). ■邦文 (1) "FMOプログラムABINIT-MPの開発状況と機械学習との連携", 望月祐志*, 坂倉耕太, 秋永宜伸, 加藤幸一郎, 渡邊啓正, 沖山佳生, 中野達也, 古明地勇人,奥沢明, 福澤薫, 田中成典, J. Comp. Chem. Jpn., 16 (2017) 119-122. (2) "FMOプログラムABINIT-MPのOakForest-PACS上での多層並列化と性能評価", 渡邊啓正*, 佐藤伸哉, 坂倉耕太, 齊藤天菜, 望月祐志, J. Comp. Chem. Jpn. 17 (2018) 147-149. (3) "ABINIT-MP Openシリーズの最新の開発状況について", 望月祐志*, 秋永宜伸, 坂倉耕太, 渡邊啓正, 加藤幸一郎, 渡辺尚貴, 奥脇弘次, 中野達也, 福澤薫, J. Comp. Chem. Jpn., 18 (2019) 129-131. (4) "FMOプログラムABINIT-MPの整備状況2020", 望月祐志*, 坂倉耕太, 渡邊啓正, 奥脇弘次, 加藤幸一郎, 渡辺尚貴, 沖山佳生, 福澤薫, 中野達也, J. Comp. Chem. Jpn., 19 (2020) 142-145. (5) "FMOプログラムABINIT-MPの整備状況2021", 望月祐志*, 中野達也, 佐藤伸哉, 坂倉耕太, 渡邊啓正, 奥脇弘次, 大島聡史, 片桐孝洋, J. Comp. Chem. Jpn., 20 (2021) 132-136. (6) "FMOプログラムABINIT-MPの整備状況2022", 望月祐志*, 中野達也, 坂倉耕太, 渡邊啓正, 佐藤伸哉, 奥脇弘次, 秋澤和輝, 土居英男, 大島聡史,片桐孝洋, J. Comp. Chem. Jpn., 21 (2022) 106-110. (7) "FMOプログラムABINIT-MPの整備状況2023", 望月祐志*, 中野達也, 坂倉耕太, 奥脇弘次, 土居英男, 加藤季広, 滝沢寛之, 成瀬彰, 大島聡史, 星野哲也, 片桐孝洋, J. Comp. Chem. Jpn., 23 (2024) 4-8. 注記: (5)以降が、HPC分野の方々とのコラボレーションによるVer. 2系の報告 2024/5/30 5

6.

高次相関計算 2024/5/30 6

7.

Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515. 汎用高次相関モジュールの開発 ・ MP3~CCSD(T)まで ・ ファイルIO無し ・ SM-OpenMP並列を前提 ・ テンソル縮約にDGEMMを多用 ・ ES2で高い性能 2024/5/30 7

8.

CCSD Equation Ref.; R. Kobayashi et al., Chem. Phts. Lett. 265 (1997) 1. & G. E. Scuseria et al., J. Chem. Phys. 89 (1988) 7382. BD Ref.; N. C. Handy et al., Chem. Phys. Lett. 164 (1989) 185. / CCSD(T) Ref.; K. Ragavachari et al., Chem. Phys. Lett. 157 (1989) 479. 汎用高次相関モジュールの特徴 Initialize vectors ! MP1 amplitudes Grand loop until convergence Perform first EEO processing ! N6 cost - parallelized Perform second EEO processing ! N6 cost - parallelized Compute other necessary terms ! N5 cost - parallelized Perform k-loop processing ! N6 cost - parallelized Perform ij-loop processing ! N6 cost - parallelized Update amplitude vectors and evaluate correlation energy Judge convergence for breaking End of grand loop Summarize results ・ Kobayashiらの式を汎用化 ・ MP3~CCSD(T)までカバー ・ 共有メモリを前提 (OpenMP) ・ 複数の作業配列を使用 ・ BDも可能 (メモリ量を節約) ・ AO-MOの混成処理 (EEO) ・ DGEMMを多用した縮約演算 ・ N6ループを並列化 ・ (T)処理はN7ループ ・ MP1振幅を初期値 ・ DIISで反復を加速 1   0 | H  E0 | 1  T1  T2  T12 0  ECCSD 2!   C CCSD  exp(T 1  T 2)  1 1    | H  E0 | 1  T1  T2  T12  T1T2  T13 0  0 2! 3!   C ・ 非線形の展開 ・ 4電子励起は2電子励起の”積” ・ 振幅に関する射影方程式を解く a i 1 1 1 1 1   ijab | H  E0 | 1  T1  T2  T12  T22  T1T2  T13  T12T2  T14 0  0 2! 2! 3! 2! 4!   C 2024/5/30 8

9.

Ref.; J. D. Watts, Para. Comp. 26 (2000) 857. / EEO = External Exchange Operator. EEOの処理  bcdab  (ac | bd )   (ac | kd )t kb  (kc | bd )t ka  ijab   ijab   bcdab ijcd cd   ijab  tijab  tia t bj k MP3の処理と同様、(ac,bd)のリストを顕には作らないでFock様処理で済ます  ijab   ijab  X ijab   X ijak t kb  X ijkb t ka  X ij   (  |  ) ij  k  ij   cc cd ijcd cd Prepare half-back-transformed (HBT) CC amplitude ! DGEMM Find largest elements of HBT CC for  list Loop over  AO-index quartet ! Parallelized Fock-like processing Screen (|) with proper threshold and check also maximum HBT CC Contract HBT CC amplitude and (|) to construct X-array ! DAXPY End of loop over  Transform X-array and add contributions to residual vector ! DGEMM    ijab   ijab  Pijab  (ia | bc)t cj   (ik | bc)t ka t cj  c 2024/5/30  k     Pijab abij  abij  baji (ia|bc)も同様に処理 9

10.

(T) equation Ref.; T. J. Lee et al., J. Phys. Chem. 94 (1990) 5463. / Extrapolation Ref.; P. Hobza et al., ChemPhysChem 10 (2009) 282. (T)の処理   Wijkabc  Vijkabc 1 abc E(T )   4Wijkabc  Wkijabc  W jkiabc  4Wkjiabc  Wikjabc  W jik abc 3 ijk abc Dijk abc Dijk  i   j  k  a  b  c   Wijkabc  Pijkabc   (ia | bd )t kjcd   (ia | jl )tlkbc  l  d   Vijkabc  ( jb | kc)tia  (ia | kc)t bj  (ia | jb)t kc          abc bac cba acb cab bca Pijkabc abc       ijk ijk jik kji ikj kij jki (ia,bc)リストは(反復が終了しているので)メモリに置き、O3V4でコストで縮約する 1     (2   ab   bc ) 3 ijk abc a bc ijk W(i,j,k)abcの構築はabcの3重ループで並列化する ECCSD(T ) / BigBasis  ECCSD(T ) / SmallBasis  EMP 2 / BigBasis  EMP 2 / SmallBasis  小さな基底でCCSD(T)までやって、MP2で大きな基底でやったエネルギーを補正する 2024/5/30 10

11.

4コアの1ノードでのテスト#1 OpenMP (4 cores) D.Guanosine / 6-31G** Min. MP4(SDQ) 218.0 CCD / #11 722.3 CEPA-1(SD) / #17 2004.2 QCISD / #13 1689.7 CCSD / #13 2167.1 MP4(SDTQ) 878.0 NB=350/ND=51/NV=280 Glucose / 6-31G** MP4(SDQ) CEPA-1(D) / #10 CCD / #10 CEPA-1(SD) / #13 QCISD / #11 CCSD / #11 MP4(SDTQ) QCISD(T) / #11 CCSD(T) / #11 Min. 36.7 87.5 102.9 267.3 242.3 360.0 145.2 350.8 470.4 NB=240/ND=36/NV=192 (T)はそれほど重くない ( Xeon (3.4 GHz) 4 cores, 32 GB SMP / 2008: OpenMP - MKL9.1 ) 2024/5/30 Xeon Goldに比べて3倍程度は遅い Aspirin / 6-311G** MP4(SDQ) CCD / #11 QCISD / #13 CCSD / #13 MP4(SDTQ) QCISD(T) / #13 CCSD(T) / #13 Min. 55.9 176.8 445.6 652.4 305.4 703.0 902.8 NB=295(6d)/ND=34/NV=248 Amantadine / 6-311G** MP4(SDQ) CCD / #10 MP4(SDTQ) Min. 90.3 235.5 363.7 NB=311(6d)/ND=31/NV=269 11

12.

8コアの2ノードでのテスト#2 FMO-MP4(DQ) benchmark Time in Min. Gly8 Chignolin TrpCage Basis 6-31G** 6-31G 6-31G MPI / 4 80.1 880.1 2704.5 MPI / 4x2 41.5 (x 1.9) 526.6 (x 1.7) 1387.3 (x 2) OMP / 4 91.1 733.7 N/T OMP - MPI / 4x2 48.3 (x 1.9) 419.6 (x 1.8) 1029.1 Crambin 6-31G N/T 3599.1 N/T 2609.0 ( Xeon (3.4 GHz) 4 cores, 32 GB SMP, 2 nodes / 2008: MKL9.1 / OpenMP - MPI ) OpenMPの方が有利 (flat MPIも一応アリ) FMO-MP4(SDQ) benchmark Time in Min. Gly8 Basis 6-31G** OMP - MPI / 4x2 54.8 Chignolin 6-31G 559.2 Chignolin 6-31G* 2457.9 ( Crambin: 41 res. ) ( Gly8: helix ) 1.7 days FMO-CCD benchmark Time in Min. Gly8 Basis 6-31G** OMP - MPI / 4x2 159.1 (CCSD 727.2) 2024/5/30 Chignolin 6-31G 1934.8 TrpCage 6-31G 4566.8 1.3 days 3.2 days ( Chignolin: 10 res. ) ( TrpCage: 20 res. ) 12

13.

64コアの4ノードでのテスト (実タンパク質) HIV-1 Protease + Lopinavir #Atom 3225 (H 1662) #Basis (6-31G) 17423 #Fragment 203 (198 res.) #Electrons 11932 HF total energy -77589.3750 MP2 energy -155.3675 MP3 energy -159.0641 MP4(DQ) energy -162.0619 ← 6-31G* MP3 job time 15.4 hours 54.4 hours MP4(DQ) job time 33.4 hours N1Neuraminidase + Oseltamivir #Atom 5792 (H 2809) #Basis (6-31G) 32549 #Fragment 378 (377 res.) #Electrons 22590 HF total energy -151962.8441 MP2 energy -297.4582 MP3 energy -302.6474 MP4(DQ) energy -308.2337 MP3 job time 41.5 hours MP4(DQ) job time 98.1 hours Xeon (3.33 GHz) 4x16 cores / 2008: MKL11.1. / OpenMP – MPI, only 16 GB SMP for 4 cores per node for OpenMP parallelization 2024/5/30 13

14.

Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515. ES2の上でのベンチマークテスト#1 HIV Protease + Lopinavir 6-31G basis set Nodes Time (h) Rel. TFLOPS Eff. (%) HIV-1 FMO-MP2 FMO-MP2 [custom] FMO-MP3 FMO-MP3 [custom] FMO-MP4(DQ) FMO-MP4(SDQ) FMO-MP4(SDTQ) FMO-CCD FMO-QCISD FMO-QCISD(T) FMO-CCSD FMO-CCSD(T) 64 64 64 64 64 64 64 64 64 64 64 64 0.16 0.16 0.36 0.37 0.62 0.85 3.51 2.90 5.73 8.46 7.82 9.83 1.0 1.0 2.3 2.3 3.9 5.3 21.9 18.1 35.8 52.9 48.9 61.4 1.24 1.22 3.40 2.82 5.70 4.92 13.05 6.15 5.20 8.45 4.41 7.75 2.36 2.33 6.48 5.38 10.87 9.38 24.89 11.72 9.91 16.13 8.40 14.78 ・ 200残基級の実タンパク質の高次相関計算は地球シミュレータでは容易に可能 ・ 摂動3電子励起計算は行列積演算DGEMM処理が主なので性能が出やすい 2024/5/30 14

15.

ES2の上でのベンチマークテスト#2 テンソル縮約計算をDGEMMで処理 Kernel of (T) computations - O(N7) HIV-Protease @ 64 nodes execution / 6-31G basis M P 3 M P 4(D Q ) M P 4(S D Q ) M P 4(S D TQ ) C C D Tim e (M in.) 21.5 37.4 51.0 210.6 174.3 G FLO P S 3399.4 5696.9 4920.3 13050.1 6146.7 E ffic.(% ) 6.5 10.9 9.4 24.9 11.7 MP4(SDTQ)計算が実タンパク質でも可能に! * MP4(SDQ) energy = -164.3979 au MP4(SDTQ) energy = -170.2490 au * Job time of MP4(SDTQ) is 3.5 hours with 25% efficiency of peak speed! Job-info for MP4(SDTQ) Overall Data: ============= Real Time (sec) : 12634.080 User Time (sec) : 5648740.053 System Time (sec) : 4140.492 Vector Time (sec) : 5303545.691 GOPS (rel. to User Time) : 2520.845 GFLOPS (rel. to User Time) : 1867.293 GOPS (concurrent) : 17617.673 GFLOPS (concurrent) : 13050.130 Global Memory size used (GB): 8.000 2024/5/30 & & & & & & & & & & & & & & & & & & & & & & & & CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, T2V_F(1,1,1,LC),NDOC2,BFI_VO(1,1,1),NVAC,1.0D0, Q_IJK(1,1,1,6),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, T2V_F(1,1,1,LC),NDOC2,BFI_VO(1,1,2),NVAC,1.0D0, Q_IJK(1,1,1,4),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, T2V_F(1,1,1,LA),NDOC2,BFI_VO(1,1,3),NVAC,1.0D0, Q_IJK(1,1,1,2),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, T2V_F(1,1,1,LB),NDOC2,BFI_VO(1,1,4),NVAC,1.0D0, Q_IJK(1,1,1,3),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, T2V_F(1,1,1,LB),NDOC2,BFI_VO(1,1,5),NVAC,1.0D0, Q_IJK(1,1,1,1),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, T2V_F(1,1,1,LA),NDOC2,BFI_VO(1,1,6),NVAC,1.0D0, Q_IJK(1,1,1,5),NDOC2) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, T2V_F(1,1,LC,LB),NDOC,WAIJK(1,1,1,LA),NDOC,1.0D0, Q_IJK(1,1,1,3),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, T2V_F(1,1,LC,LA),NDOC,WAIJK(1,1,1,LB),NDOC,1.0D0, Q_IJK(1,1,1,5),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, T2V_F(1,1,LA,LB),NDOC,WAIJK(1,1,1,LC),NDOC,1.0D0, Q_IJK(1,1,1,1),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, T2V_F(1,1,LB,LC),NDOC,WAIJK(1,1,1,LA),NDOC,1.0D0, Q_IJK(1,1,1,6),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, T2V_F(1,1,LB,LA),NDOC,WAIJK(1,1,1,LC),NDOC,1.0D0, Q_IJK(1,1,1,2),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, T2V_F(1,1,LA,LC),NDOC,WAIJK(1,1,1,LB),NDOC,1.0D0, Q_IJK(1,1,1,4),NDOC) 15

16.

ES2の上でのベンチマークテスト#3 6-31G basis set NA FMO-MP4(SDQ) FMO-MP4(SDTQ) HA FMO-MP4(SDQ) Trp127+His FMO-MP4(SDQ) FMO-MP4(SDTQ) Nodes Time (h) 64 128 Rel. TFLOPS Eff. (%) 2.86 10.29 4.26 15.21 8.13 14.50 64 4.70 4.78 9.12 64 128 1.79 7.06 9.58 40.46 18.27 38.59 ・ MP4(SDQ)が9百残基超えのインフルエンザHAでも計算可能に ・ (T)はDGEMM主体なので効率が大幅にアップ ・ Trp127HisモデルではMP4(SDTQ)レベルで38.6%の効率を達成 (2010年のES2の一般ユーザーでのベストパフォーマンス) 2024/5/30 16

17.

Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515. / MP2.5 Ref.; P. Hobza et al., ChemPhysChem 10 (2009) 282. 相互作用エネルギーの比較例#1 (H2O)n (kcal/mol) MP2 MP3 MP2.5 MP4(DQ) MP4(SDQ) MP4(SDTQ) CCSD CCSD(T) CCD BD BD(T) n=2 -7.2 -6.8 -7.0 -6.6 -6.8 -7.0 -6.5 -6.8 -6.5 -6.5 -6.8 n=3 -22.9 -21.2 -22.1 -20.9 -21.3 -22.2 -20.9 -21.7 -20.5 -20.8 -21.7 n=4 -38.3 -35.4 -36.8 -34.8 -35.4 -36.9 -34.8 -36.2 -34.3 -34.7 -36.2 n=5 -49.0 -45.4 -47.2 -44.5 -45.3 -47.1 -44.6 -46.2 -43.9 -44.4 -46.2 * 環状の水クラスター (6-31G**) * MP2の過大評価の傾向は明白 * MP3はむしろ過小評価 * MP2.5はMP3寄与を0.5倍した場合 * BDの大反復は3-5回程度 * BDの値はCCSDの値に近い、ただ メモリの要求はCCDと同じで済む * (T)の寄与は有意にある Cyclic conformers - MP2/6-31G** geometries (fc) Ala9Gly 2024/5/30 Rel. Cost Chignolin Method Method E(Corr.) Time(m) MP2 -7.34906 6.7 1.0 MP2 -11.19437 59.5 1.0 MP3 -7.51092 18.8 2.8 MP3 -11.37180 453.6 7.6 MP4(SDQ) -7.64507 54.3 8.1 MP4 -12.02832 11049.5 185.7 MP4 -7.93837 224.7 33.5 CCD -11.41029 5392.7 90.6 CCD -7.54964 147.2 22.0 CEPA(SD) -10.27419 13142.1 220.9 CCSD -7.62777 517.9 77.3 CCSD(T) -7.89865 691.7 103.2 QCISD -7.65727 400.5 59.8 QCISD(T) -7.90966 573.1 85.5 CEPA(SD) -7.70635 380.9 56.9 BD -7.60730 617.2 92.1 BD(T) -7.89490 785.1 117.2 E(Corr.) Time(m) Rel. Cost * 6-31G*基底関数を使用、FMO2 * 4x5=20コアの2008年の小型クラスター * 実用的にはMP3ないしMP4(SDQ)まで * ECCSD=(EQCISD+EBD)/2の関係が成立 (誤差3kcal/mol) 17

18.

Ref.; H. Yamada et al., Comp. Theor. Chem. 1101 (2017) 46. 相互作用エネルギーの比較例#2 MP2.5の値はCCSD(T)に近い Thymine (1’T) Adenine (1A) IFIE (6-31G*(0.25)) in kcal/mol PairType HF MP3 MP2.5 2A-1A -1.85 (2.35) -16.85 (-7.77) -11.89 -14.37 (-5.60) -14.70 1’T-2’T 0.91 (4.64) -11.02 (-3.40) -8.12 -9.57 (-2.16) -9.95 2’T-2A -17.79 (-13.25) -24.88 (-16.22) -23.82 -24.35 (-15.95) -24.58 1’T-1A -16.70 (-12.50) -23.52 (-15.65) -22.44 -22.98 (-15.34) -23.23 1’T-2A -0.64 (1.55) -6.30 (-2.12) -5.15 -5.72 (-1.69) -6.06 -0.96 (-0.81) -1.60 (-1.37) -1.46 -1.53 (-1.32) -1.58 Thymine 2’T-1A (2’T) Adenine (2A) 2024/5/30 (CP) MP2 (CP) (CP) CCSD(T) IFIE (6-31G*) in kcal/mol PairType HF (CP) MP2 (CP) MP3 MP2.5 (CP) CCSD(T) 2A-1A 1.70 (4.16) -7.96 (-3.68) -4.12 -6.04 (-1.97) -5.88 1’T-2’T 2.30 (4.54) -4.55 (-0.59) -2.62 -3.59 (0.21) -3.62 2’T-2A -13.57 (-11.05) -20.45 (-15.00) -18.96 -19.71 (-14.54) -20.03 1’T-1A -12.44 (-10.20) -18.71 (-13.81) -17.35 -18.03 (-13.40) -18.33 1’T-2A 0.61 (1.91) -2.93 (-0.65) -2.04 -2.48 (-0.31) -2.62 2’T-1A -0.83 (-0.74) -1.14 (-1.02) -1.06 -1.10 (-0.99) -1.11 18

19.

GPUによる加速の例 (NVIDIAさんによる試行) ・ ABINIT-MP組み込み前のモジュールをNVIDIAさんに提供 ・ (T)処理周りをGPU向けにチューニング (第一次試行) ・ 水のクラスター(6-31G**)でカーネルを性能評価 成瀬さん・古家さんらによる NVIDIAさんのレポートより転載 2024/5/30 GPUの威力を体感する機会となった 19

20.

2020年の新型コロナ関係PJ (HPCI課題番号:g9330001, hp200146, hp200147) 「富岳」 2024/5/30 OFP ITO Sub.A 20

21.

退役直前の名大のFX100を使った計算(2020年2月) http://www.icts.nagoya-u.ac.jp/ja/sc/news/general/2020-03-30-general.html ChemRxiv - https://doi.org/10.26434/chemrxiv.11988120.v1 正式出版 - https://pubs.acs.org/doi/10.1021/acs.jcim.0c00283 2024/5/30 21

22.

Ref.; R. Hatada et al., J. Chem. Info. Model. 60 (2020) 3593. 名大の旧FX-100を使って行ったFMO計算の論文 Google Scholar引用数106 (2024年4月) ・ ChemRxiv公開時よりリファイン ・ PB計算で水和条件を考慮 ・ N3の非結合のケースも検討 2024/5/30 22

23.

松岡先生のSS研の2020年の公開シンポジウムのPDF資料より引用. 試行的運用の「富岳」を使った特別PJ 2024/5/30 23

24.

Ref.; <https://www.hpci-office.jp/pages/f-rep_r02_ck_cov>. 試行的運用の「富岳」を使った特別PJの報告 2024/5/30 24

25.

新型コロナPJでの「富岳」の利用方針 ■富岳の特徴 ・ ノードあたりで48コア、利用者プログラムで20GB超のメモリ空間にアクセス出来る ・ 圧倒的なノード数、ラック単位(384ノード)で10程度を要求するジョブも容易に可 ・ 端的に言えば「京」の100倍の計算力 ■多数の分子構造による統計的な評価 ・ capacity computing的な使い方 ・ 構造の揺らぎを古典動力学(MD)シミュレーションで取込み、それらにFMO計算を一括実施 ・ 静的な構造一つでの相互作用エネルギー評価と異なる動的な描像を取得可能 ・ 本プロジェクトではメインプロテアーゼ(Mpro)の解析を対象に ・ FMO-MP2/6-31G*レベル、1.7千フラグメント(水含む)、1構造で0.6時間(半ラック) ■高コストな3次摂動計算の実行 ・ capability computing的な使い方 ・ MP2よりも高コストのMP3を実用的に実行、Dimer-ES近似を連続多重極展開で高速処理 ・ スパイクタンパク質(3.3千フラグメント)を解析 ・ FMO-MP3/cc-pVDZレベル、クローズ型(6VXX)は3.4時間で完了(8ラック) ■「京」→「富岳」で実現していくこと ・ 多数サンプル構造の計算が容易に可能 → 結果の「リアリティ」の向上 ・ 機械学習やデータ科学との親和性 → ビッグデータの処理、物理化学的描像の自動演繹 ・ FMO-MP3計算の実用利用 → MP2.5スケーリングによる定量性の向上 2024/5/30 25

26.

注記;「富岳」の環境は常に更新中であり、下記のタイミングは2020年4月当時での測定結果. 【富岳】 PIEDA計算の高速化 (Rev.20→Rev.22) HIV-protease FMO-MP2/6-31G*/PIEDA Before After ===================== ## TIME PROFILE ===================== ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = Elapsed time: Monomer MP2 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP2 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = *** 523.8 seconds 20.0 seconds 547.4 seconds 392.1 seconds 843.1 seconds 789.6 seconds 4255.2 seconds 4802.7 seconds Write check point file (CPF) open1.0 rev10) *** WriteGeom = HIV-P.new2.cpf Write coordinate data: done ## Time profile Elapsed time: Monomer SCF = Elapsed time: Monomer MP2 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP2 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = *** Write check point file (CPF) open1.0 rev10) *** WriteGeom = HIV-P.new2.cpf Write coordinate data: done ## Time profile Number of cores (total) = Number of cores (fragment) = 64 1 Number of cores (total) = Number of cores (fragment) = 64 1 THREADS (FRAGMENT) 24 THREADS (FRAGMENT) 24 Total time = 2024/5/30 524.2 seconds 20.2 seconds 548.0 seconds 394.4 seconds 774.0 seconds 792.1 seconds 2092.5 seconds 2640.5 seconds = 4808.8 seconds Total time = = 2646.3 seconds ・ 制御ループの見直し、Bcast呼び出しなどを改良 ・ ダイマー段階での「謎の時間」を大幅に削減 ・ 3千フラグメント級でも問題なくPIEDAが可能に April 2020 32 nodes 坂倉氏 26

27.

メインプロテアーゼと阻害剤 メインプロテアーゼは増殖に関わる N3 SARS-Cov-2 Mpro (6LU7) Nelfinavir HIV-1 Protease (3EL5) EC50(μM) Lopinavir HIV-1 Protease (6DJ1) Nelfinavir Lopinavir 1.13 5.73 2024/5/30 bioRxiv (2020), https://doi.org/10.1101/2020.04.06.026476 Nelfinavir-Mpro系の全体図 27

28.

N3阻害剤はメインプロテアーゼのCys145と共有結合を形成する. Mpro+N3阻害剤の構造サンプリング 4 古典MDによる構造の揺らぎ(RMSD値) 3 2 1 0 0 100ns 水中1000構造からのサンプリング 0ns 10 20 30 40 50 60 70 80 90 100 MD実行は東工大のTSUBAME3.0で実行 / AMED枠 2024/5/30 28

29.

Refs.; R. Hatada et al., Appl. Phys. Express 14 (2021) 027003. & S. Tanaka et al., J. Phys. Chem. B 125 (2021) 6501. PR-MP2 Ref.; C. E. Dykstra et al., Intern. J. Quant. Chem. 78 (2000) 226. 【富岳】 Mpro+N3阻害剤の統計的相互作用解析 395フラグメント(タンパク質:306) 古典MDで1000構造をサンプルしてFMO-MP2/6-31G*(PR)レベルで計算 MD IFIE (kcal/mol) Cryst. 統計的相互作用解析の重要性が顕在化 2024/5/30 Residues 1構造あたり0.6時間 @ 「富岳」192ノード / 一斉投入で5時間で処理 29

30.

下記のタイミングはVer. 1 Rev. 22を使った2020年9月当時の測定結果. 【富岳&OFP】 FMO-MP2/6-31G*ジョブのスケーリング 6LU7 - FMO2-MP2/6-31G* - Elapsed time Xeon(Gold6248)x2 Oakforest-PACS(compact,cache) Fugaku Elapsed time [sec.] 100000 10000 Xeon; 40 cores OFP; up to 4608 cores Fugaku; up to 18432 cores 1000 September 2020 100 10 100 1000 # hardware threads 10000 100000 ・ PDB ID: 6LU7 = SARS-CoV-2 Mpro + N3 ligand の系 ・ MP2の積分変換は全てDGEMMで実行 ・ Dimer-ESのCMM近似は (>5のリージョンで使用) ・ 「富岳」はOakforest-PACSよりも2.8倍ほど速い 2024/5/30 30

31.

Ref.; Y. Handa et al., J. Phys. Chem. B 128 (2024) 2249. 【OFP】 Mpro-ネルフィナビルの結果#1 LigandのRMSD変化 ドッキングポーズ4 ドッキングポーズ4 (揺らぎなし) RMSD平均 RMSD分散 3.55 0.11 後半の60nsについて FMO計算を行った MD計算結果構造 (揺らぎあり) Gln189 Met165 Glu166 Glu166 Asn142 単独の残基で 偏った安定化 2024/5/30 多くの残基で 安定な相互作用を獲得 31

32.

【OFP】 Mpro-ネルフィナビルの結果#2 LigandのRMSD変化 ドッキングポーズ4 RMSD平均 RMSD分散 3.55 0.11 Gln189 Met165 Gln189 Met165 Glu166 Glu166 ドッキングポーズ4 水素結合 CH/π 相互作用 Residue Name Asn142 Met165 Glu166 2024/5/30 Gln189 CH/π 相互作用 Asn142 Asn142 IFIE ES DI -14.48±8.31→-26.96±8.40 -11.52±8.42→-27.70±10.76 -7.14±3.70→-12.79±3.78 -21.31±3.01 -24.55±3.54 -26.36±6.33 -16.12±2.70 -26.11±2.96 -23.00±7.36 -9.74±2.13 -6.37±1.47 32 -10.59±2.08 (kcal/mol)

33.

スパイク(S-)タンパク質 SARS-CoV-2 拡大 RBD→ヒト受容体に結合 【感染の仕組み】 スパイクタンパク質のReceptor Binding Domain (RBD)ヒト のAngiotensin Converting Enzyme 2 (ACE2) 以上の2つのタンパク質同士が相互作用することで感染 RBDに変異が起きている「変異ウイルス」は、 ACE2との結合形態が野生型のSARS-CoV-2と異 なっている可能性がある 2024/5/30 スパイク(S) 脂質二重膜(E) 33

34.

クローズ構造とオープン構造 S-タンパク質をRBD側から見た図 closed構造 (6VXX) Chain A S-タンパク質を横から見た図 open構造 (6VYB) Chain B Chain C closed構造 (6VXX) open構造 (6VYB) 色が濃い領域は各ChainにおけるRBD (Thr333-Pro527) 領域 S-タンパク質は1.1千残基のタンパク質鎖の3量体で構成 Closed構造はすべてのRBD領域が閉じている構造open構造はB (RBD) のみが開いた構造 2024/5/30 34

35.

【富岳】 Ref.; K. Akisawa et al., RSC Adv. 11 (2021) 3272, クローズ型(6VXX)のタイミング モノマーSCCのコストが目立つ ===================== ## TIME PROFILE ===================== FMO-MP2/cc-pVDZ Elapsed time: Monomer SCF = Elapsed time: Monomer MP2 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP2 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = *** 3892.7 seconds 27.7 seconds 3965.3 seconds 282.4 seconds 838.0 seconds 473.1 seconds 2001.4 seconds 5966.6 seconds Write check point file (CPF) open1.0 rev10) *** WriteGeom = 6vxx_nonag-min0430_50k-mp2-ccpvdz.cpf Write coordinate data: done ## Time profile THREADS (FRAGMENT) 2024/5/30 FMO-MP3/cc-pVDZ Elapsed time: Monomer SCF = Elapsed time: Monomer MP3 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP3 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = *** 3885.7 seconds 280.6 seconds 4211.3 seconds 296.1 seconds 763.6 seconds 5701.6 seconds 7907.9 seconds 12119.1 seconds Write check point file (CPF) open1.0 rev10) *** WriteGeom = 6vxx_nonag-min0430_50k-mp3-ccpvdz.cpf Write coordinate data: done ## Time profile Number of cores (total) = Number of cores (fragment) = Total time = ===================== ## TIME PROFILE ===================== = 3072 1 Number of cores (total) = Number of cores (fragment) = 48 6135.0 seconds THREADS (FRAGMENT) 1.7時間 Total time = = 3072 1 48 12291.0 seconds ・ 総計では8ラックで3072プロセス×48スレッド、147,456コアを使用した超並列計算 ・ 1ノード/フラグメント条件で実行、エネルギー成分分析(PIEDA)はオン、CPF書き込み ・ MP2ジョブではモノマーSCF(HF)段階がジョブ時間の半分以上を占める ・ FMO-MP2に比してFMO-MP3の相対コストは2倍で済む → スパコン利用のメリット ・ Dimer-ESは連続多重極展開で近似 → 未使用では計算は不可 3.4時間 May 2020 35

36.

【富岳】 スパイクタンパク質の相互作用エネルギーの可視化 Chain-Bから見た図 Closed (6VXX) Open (6VYB) 可視化はBioStation Viewerを64GBメモリのPCで利用して実行 2024/5/30 MP2.5/cc-pVDZレベル 36

37.

MP3.5 Ref.; H. Yamada et al., Comp. Theor. Chem. 1101 (2017) 46. / MP3.5の方がMP2.5よりもベター. 【富岳&ITO Sub.A】 スパイクタンパク質の鎖間の相互作用エネルギー Chain-Bの安定化エネルギーの減少が大きい 2024/5/30 FMO-MP4(SDQ)計算は九大のITO Subsystem-Aの独占的利用で実施 (cc-pVDZは1000ノード-2000プロセス×18スレッド(75GB)で8.6時間) 37

38.

【富岳&ITO Sub.A】 各計算レベルでのIFIE和(RBD) 2024/5/30 38

39.

【富岳&ITO Sub.A】 RBD-ACE2の複合体はPDB ID=6M0J、RBD-B38 Fab抗体の複合体はPDB ID=7BZ5. スパイクタンパク質RBDのエネルギー損失の補填 ACE2とB38抗体によるB (RBD)のエネルギー損失の補填 (MP3.5/cc-pVDZの値を使用) RBD-ACE2、RBD-B38抗体間の結合によってclosed構造のB (RBD)の何%まで回復可能か示した B (RBD) closed B (RBD) open RBD-ACE2 RBD-B38 Fab B38 Fab ACE2 44.0% 60.0% 0 -200 -203.8 -400 11.8% IFIE (kcal/mol) -600 -557.9 -842.5 -800 -761.7 -1000 -1046.3 -1200 60.0% -1400 44.0% 11.8% -1600 -1800 -2000 -1732.0 基準 (100%) Open structure Spike RBD エネルギー損失をACE2では60.0%B38抗体では44.0%まで回復可能 2024/5/30 39

40.

【富岳&ITO Sub.A】 RBD-ACE2間の重要残基対 RBD-ACE2間、RBD-B38抗体間で安定化の寄与が大きい RBD側の残基7 (MP3.5/cc-pVDZ) RBD-ACE2 RBD IFIE residues (kcal/mol) Lys417 -267.8 Arg403 -220.4 Arg408 -208.3 Lys444 -201.5 Arg509 -174.9 Lys378 -169.2 Arg457 -166.5 Arg454 -166.3 Lys458 -165.9 Arg346 -162.3 RBD-B38 Fab RBD IFIE residues (kcal/mol) Asp420 -72.7 Lys417 -44.1 Asn487 -37.7 Gly476 -37.1 Arg403 -36.0 Asn501 -32.8 Tyr505 -32.5 Glu465 -24.2 Asp427 -23.4 Phe456 -23.3 Lys417 Salt Bridge ACE2 αHelix Asp30 -119.3 kcal/mol Lys417 S Protein RBD 150 kcal/mol以上の変化をした残基は赤、荷電性残基はオレンジで示した RBD-ACE2間はすべて荷電性残基、RBD-B38抗体間は非荷電性残基も寄与が大きい ACE2とB38抗体では結合形態が異なる Lys417が最重要残基 2024/5/30 40

41.

【富岳】 Ref.; K. Akisawa et al., Jpn. J. Appl. Phys. 60 (2021) 090901. 野生株-B.1.1.7株(N501Y)の比較 (俗称:英国株) B.1.1.7株(Tyr501) 野生株(Asn501) ACE2 Tyr501 Asn501 RBD -10 kcal/mol ACE2のTyr41やLys353が N501Y変異で強く相互作用 +10 kcal/mol B.1.1.7株-野生株のRBD側から見たΔIFIE N501Y 2024/5/30 ・ N501Y変異によって、-40 kcal/mol程IFIEの安定化が増加 41

42.

【富岳】 B.1.1.7株(俗称:英国株)のN501Y変異の影響評価 B.1.1.7株(Tyr501) 野生株(Asn501) Tyr44 Tyr44 Lys353 Lys353 Asn501 Tyr501 エネルギー (kcal/mol) ACE2 Dist. IFIE ES EX CT DI ACE2 Dist. IFIE ES EX CT DI Tyr44 3.2 -2.9 0.0 0.5 -1.4 -2.1 Tyr44 2.5 -10.6 -7.4 5.2 -3.1 -5.4 Lys353 2.9 -3.4 -0.1 0.6 -1.6 -2.4 Lys353 1.8 -23.9 -27.0 18.9 -7.4 -8.4 Asp355 2.7 12.7 14.9 0.7 -1.5 -1.5 Asp355 2.7 6.0 8.2 0.6 -1.3 -1.5 【Dist.:距離(Å) / IFIEをPIEDAで分割; ES:静電項、EX:交換反発項、CT項:電荷移動項、DI:相関補正項】 ・ N501Y変異によって、Tyr44やLys353との相互作用が顕著に増加 2024/5/30 42

43.

Ref.; K. Okuwaki et al., Appl. Phys. Expr. 15 (2022) 017001. 【富岳】 テンソル分解による解析 ① FMO計算により、三量体に含まれる すべてのアミノ酸残基間の2体間IFIEを算出 (FMO2-MP2.5/6-31G*レベル) ② 各鎖間の特異値分解(103 ×103) 3種 各鎖で重要な残基を算出 (上位10モードから10残基ずつ取得) ➡重複を含め、A鎖:63, B鎖:56, C鎖59残基抽出 SVD ③ ②で抽出した各鎖の残基から 3体相互作用(3階テンソル)を生成 ※幾何平均 ④ ③で生成した3階テンソルをCP分解 (Tensorly モジュールを使用) (20モードで分解) 特徴残基を抽出 2024/5/30 43

44.

【富岳】 固有値の分布 Closed, Open量型の3体相互作用CP分解における、各モードの固有値 ・ SVD の固有値は 20 モードで非常に小さくなる ・ 20 モードの累積固有値和の約 3分の2 がおよそ10 モードで寄与 固有値  mode mode → 今回の検証では、両form、第1~第3モードで特徴づけられる残基を抽出 2024/5/30 44

45.

【富岳】 Close型の第二固有モードの例  各 Chain の特徴残基(固有値607)  Chain A残基詳細 Glu1031, Arg1039, Lys1038, Asp1041 →A、B、Cの3本の鎖すべてで支配的 (Centerヘリックス、βヘアピンに属する) 荷電残基間の塩橋によって三量体構造 の安定性を保つのに必須 2024/5/30 45

46.

【富岳】 より大型のモデルの計算 PDB ID 6ZGE 6WPS 6ZDH 6XCN 7A98 骨格構造 closed closed open open open 抗体/ACE2 無し S309Fab EY6AFab C105Fab ACE2 解像度(Å) 2.6 3.1 3.7 3.7 5.4 Fragment数 3399 4023 4680 4044 5184 構造補完 Yes Yes Yes Yes Yes MD緩和 AMBER (ff14SB)使用(クライオ電子顕微鏡由来構造で、解像度や欠損が多いため) その他 NAG 糖鎖を削除(構造緩和、Fragment分割のバラメータが存在しないため) ・ 計算レベルはFMO-MP3/cc-pVDZまで (最大の系は5.2千フラグメント) ・ ピュアな分散力を評価するためLRD算定も併用して解析 (論文準備中) 2024/5/30 46

47.

Ver. 2系での高速化と大規模系対応 (JHPCN課題番号: jh210036-NAH, jh220010, jh230001, jh240001) 【整備/改良: 片桐先生@名大/大島先生@九大との共同研究+富士通SS研WG】 (R-CCS「富岳」、名大「不老」 Type I、東大「Wisteria」 Odyssey) 2024/5/30 47

48.

新型コロナの特別PJで認識したポイント S-タンパク質を水和モデルで扱えなかった… ■プログラム改良の必要性 ・高速化と大規模化 ⇒ 多数のサンプル構造の扱い (Ver. 1 Rev. 22に比して数倍を目標) ⇒ 大型の水和モデルの扱い (水を含めて数万フラグメントを視野) ・想定プラットフォーム ⇒ 「富岳」を頂点とするHPCI群 (旧七帝大、東工大) ・GUI(BioStation Viewer)のサポートの打ち切り ⇒ 可視化用のみの配列を削除して大規模系に対応 ⇒ 機械学習/データ科学向けのデータの出力 (発展的代替) ・計算機科学の専門家とのコラボレーション ⇒ スパコンを活かすには量子化学/計算化学業界だけでは不十分 ⇒ 名大の片桐・大島グループとの連携、NECとの共同研究 ■HPCI拠点でのABINIT-MPのライブラリ整備 ・新規感染症発生時の対応 ⇒ 多数拠点で同時並行的に複数の研究者が解析 (「シン・ゴジラ」の例) ・スパコン毎の個性 ⇒ 目的・用途によって使い分け (FMO-MP2が基本) 2024/5/30 48

49.

測定&まとめ:SS研 - 井上グループ(富士通株式会社コンピューティング事業本部計算科学事業部). A64FXでのコスト分析(FMO-MP2) ・Ala GlyのFMO-MP2/6-31G*のテストジョブ 9 ■MP2ジョブのプロファイリング ・12スレッド8プロセス (2ノード実行:FX1000) ・ 2電子積分の生成が約1/2のコスト その他 2電子積分 ⇒ 小原-雑賀の垂直漸化式関係による(VRR) 9% 53% システム関連 ⇒ 生成コードで自動コーディング(spd組合わせ) 6% ・ HF周りが約1/4のコスト 通信関連 8% ⇒ 添字リストの処理を含むパッキング ⇒ Fock行列構築(if分岐アリ) ・ 通信やシステム関係もそれなりの割合 リスト作成 10% ・ MP2部分は目立たない ⇒ DGEMMで処理可能 ■高速化のための改善方針 ・ 積分ルーチンの高速化 ⇒ SIMD化、ループ分割 ・ Fock行列構築の改良 ⇒ if分岐の除去 ・ その他 ⇒ 通信量の低減、プリントの抑制 2024/5/30 Direct SCF 14% 2電子積分:81種のサブルーチン(sub_*)のコスト総和 Direct SCF:サブルーチンdirect_scf_gmatのコスト リスト作成:3種のサブルーチン(get_tei_rs_fix, get_tei_pq_fix, get_ixijcs_to_proc_pqfix)のコスト総和 通信関連:通信に関連した処理(putofu_*, opal_*, mca_*) のコスト総和 システム関連:ライブラリやOSなどに関連した処理のコスト総和 その他:上記以外の処理の総和 49

50.

分極率(CPHF)、励起エネルギー(修正CIS(D)系)、イオン化エネルギー(スケーリングGF2)はCRESTローカル版からの「復活」. Ver. 2系の整備開発 プログラムの改良はJHPCN課題の活動として実施 ■Ver. 2 Rev. 4(2021年9月16日リリース) ・高速化 ⇒ 2電子積分生成のSIMD化、MPI通信量の削減、プリント量の抑制 ⇒ Ver. 1 Rev. 22比で1.2~1.4倍の加速 (MP2レベル、系と基底に依存) ・大規模系の対応 ⇒ 結果データ可視化用の配列を削除 (BioStation ViewerのIFを廃止) ⇒ 1.1万フラグメントのタンパク質の液滴モデルが扱い可能 (MP3レベル) ・機能の追加 ⇒ 分極率の算定、多層近似で領域限定の相関計算、機械学習データのダンプ ■Ver. 2 Rev. 8(2023年8月リリース) ・高速化 ⇒ 積分周りの追加改良、Fock行列構築のif分岐除去、モノマーSCCの加速 ⇒ 作業版では1.5倍~2倍の加速を達成 (系による) ・大規模系の対応 ⇒ 液滴モデルで2万フラグメントのルーチン的扱い (水のクラスタリング併用) ・機能の追加 ⇒ PIEDAの詳細化 (分散安定化の分離、静電相互作用の再評価など) 50 ⇒ 励起エネルギーとイオン化エネルギーの興味領域での算定 2024/5/30

51.
[beta]
【不老 Type I】

改造; 中野氏(国立衛生研:現RIST), 坂倉氏(FOCUS).

SIMD化した積分ルーチンの例
subroutine sub_sssp(zetam,pm,dkabm,etam,qm,dkcdm, &
ma,mb,mc,md,ngij,ngkl,a,b,c,d,sint,tv)
!
!
Nov.05,'02
!
T.NAKANO & Y. ABE
!
use constant
use auxiliary_integral_table
use integral_parameter
implicit none
real(8),intent(in)::zetam(*),pm(3,*),dkabm(*), &
etam(*),qm(3,*),dkcdm(*)
integer,intent(in)::ma,mb,mc,md,ngij,ngkl
real(8),intent(in)::a(3),b(3),c(3),d(3),tv
real(8),intent(out)::sint(*)
!---------------------------------------------integer npq,nrs,ix
real(8) p(3),q(3),qd(3),pq(3),wq(3),f(0:max_m), &
dkab,zeta,dkcd,eta,ze,rz,re,rho,a0,tt
integer ts,i,j,k,l,m
real(8) delta,t_inv
real(8) ssss(0:1),f0,f1,qd1,qd2,qd3,wq1,wq2,wq3

do npq=1,ngij
if (abs(dkabm(npq)) > tv) then
do nrs=1,ngkl
if (abs(dkabm(npq)*dkcdm(nrs)) > tv) then
ze = 1.0_8/(zetam(npq)+etam(nrs))
a0 = dkabm(npq)*dkcdm(nrs)*sqrt(ze)
rz = etam(nrs)*ze
re = zetam(npq)*ze
rho = zetam(npq)*rz

!

!

do i=1,3
qd(i) = qm(i,nrs)-d(i)
pq(i) = qm(i,nrs)-pm(i,npq)
wq(i) =-re*pq(i)
end do
qd1 = qm(1,nrs)-d(1)
qd2 = qm(2,nrs)-d(2)
qd3 = qm(3,nrs)-d(3)
wq1 =-re*pq(1)
wq2 =-re*pq(2)
wq3 =-re*pq(3)

sint(1:3) = 0.0_8

2024/5/30

!ocl eval
!ocl fp_relaxed
!ocl fp_contract
!ocl noswp
!ocl eval_concurrent
!ocl SIMD

以下、次頁

51

52.

【不老 Type I】 SIMD化した積分ルーチンの例(続き) tt = (pq(1)*pq(1)+pq(2)*pq(2)+pq(3)*pq(3))*rho if (tt <= 38.0_8) then ! Tf = 2*m+36 (for m=1) ts = 0.5_8+tt*fmt_inv_step_size delta = ts*fmt_step_size-tt ! ! ! ! ! ! ! ! ! ! 2024/5/30 f(0) = ((fmt_table(3,ts)*inv6*delta & + fmt_table(2,ts)*inv2)*delta & + fmt_table(1,ts))*delta & + fmt_table(0,ts) f(1) = ((fmt_table(4,ts)*inv6*delta & + fmt_table(3,ts)*inv2)*delta & + fmt_table(2,ts))*delta & + fmt_table(1,ts) f0 = ((fmt_table(3,ts)*inv6*delta & + fmt_table(2,ts)*inv2)*delta & + fmt_table(1,ts))*delta & + fmt_table(0,ts) f1 = ((fmt_table(4,ts)*inv6*delta & + fmt_table(3,ts)*inv2)*delta & + fmt_table(2,ts))*delta & + fmt_table(1,ts) else t_inv = inv2/tt f(0) = sqrt(pi_over2*t_inv) f(1) = t_inv*f(0) f0 = sqrt(pi_over2*t_inv) f1 = t_inv*f0 end if !---------------------------------------------! ERI code generator Ver.20020228 ! 2002/02/28 ! T. Nakano ! ! (sssp) ! ! ssss(0:1)=f(0:1)*a0 ssss(0)=f0*a0 ssss(1)=f1*a0 ! do l=1, 3 ! sint(l) = sint(l)+qd(l)*ssss(0)+wq(l)*ssss(1) ! end do sint(1) = sint(1)+qd1*ssss(0)+wq1*ssss(1) sint(2) = sint(2)+qd2*ssss(0)+wq2*ssss(1) sint(3) = sint(3)+qd3*ssss(0)+wq3*ssss(1) !---------------------------------------------end if end do end if end do end subroutine sub_sssp 52

53.

【富岳】 2021年9月版 - http://www.cenav.org/abinit-mp-open_ver-2-rev-4/ Ver. 2 Rev. 4での速度向上の例 6VXX / FMO-MP2/6-31G* / Benchmark 8 racks @ Fugaku Ver. 1 Rev. 22 Ver. 2 Rev. 4 ===================== ## TIME PROFILE ===================== ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = Elapsed time: Monomer MP2 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP2 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = ## Time profile Elapsed time: Monomer SCF = Elapsed time: Monomer MP2 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP2 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = 1801.6 seconds 14.2 seconds 1839.1 seconds 314.2 seconds 335.7 seconds 294.6 seconds 1188.5 seconds 3027.7 seconds ## Time profile Number of cores (total) = Number of cores (fragment) = THREADS (FRAGMENT) Total time = 2028.7 seconds 15.0 seconds 2068.6 seconds 353.9 seconds 362.4 seconds 302.6 seconds 1603.4 seconds 3672.1 seconds = 3072 1 48 3759.3 seconds Number of cores (total) = Number of cores (fragment) = THREADS (FRAGMENT) Total time = = 3072 1 48 3090.8 seconds ・ Ver. 2 Rev. 4はA64FX向け積分SIMD化、「不要配列」の整理などを反映済み ・ 対Ver. 1 Rev.22で1.2倍の加速 (cc-pVDZ; 8769.9秒→6356.6秒で1.4倍) 2024/5/30 53

54.

Ver. 2 Rev. 4の後の追加改善 ■2021/12/9段階 ・積分生成でSIMD化に加えてループ分割を実施 (レジスタスピル低減) ⇒ (SSSS, PSSS, SPSS, SSPS, SSSP, PPSS, PSPS, PSSP, SPPS, SPSP, SSPP, DSSS, SDSS, SSDS, SSSD) ⇒ 積分タイプにも拠るが20%~30%の加速 ・HF計算のFock行列構築からif文の除去 (添字の同値性を0.5nで考慮) ⇒ 30%の加速 ■2022/7/13段階 ・モノマーSCCのアンダーソン外挿をFock行列から密度行列のベースへ変更可 ⇒ 反復数を1,2割削減 (逆に増える場合も) do p=ixi1,ixi2 ■2022/9/8段階 ・モノマーSCC段階で積分をバッファリング ⇒ 角運動量の和で指定可 ■その他 ・MPI通信量の削減、粒度バランスの改善 2024/5/30 do q=ixj1,ixj2 do r=ixk1,ixk2 do s=ixl1,ixl2 ix=ix+1 val = sint(ix) if((abs(val) <= tv)) cycle fock(q,p)=fock(q,p)+dc(s,r)*val*2.d0!クーロン項 fock(s,r)=fock(s,r)+dc(q,p)*val*2.d0 fock(r,p)=fock(r,p)-dc(s,q)*val*0.5d0!交換項 fock(s,p)=fock(s,p)-dc(r,q)*val*0.5d0 fock(r,q)=fock(r,q)-dc(s,p)*val*0.5d0 fock(s,q)=fock(s,q)-dc(r,p)*val*0.5d0 end do end do end do end do 54

55.

【不老 Type I】 タイミングは2022年7月後半~11月前半に測定(MP2は全段でDGEMMを指定). FMO-MP2ジョブ時間の比較#1 Ala9Gly - FMO-MP2 - 12スレッド/8プロセス @ 2ノード 6-31G* cc-pVDZ 10フラグメント Ver. / Rev. Date Sec. Min. Acc. V1 R22 2020/6/3 134.4 2.24 1.00 従前のVer. 1 Rev. 22 V2 R4 2021/9/16 116.6 1.94 1.15 SIMD化など Ver. 2 Rev. 4 V2 R5 2021/12/9 96.4 1.61 1.39 ループ分割、Fock行列改良 V2 R5' 2022/7/13 91.9 1.53 1.46 モノマーSCC外挿変更 V2 R5" 2022/9/8 86.5 1.44 1.55 モノマー積分バッファ V2 R6 2022/11/1 82.8 1.38 1.62 バッファ+モノマーSCC V1 R22 2020/6/3 303.6 5.06 1.00 V2 R4 2021/9/16 240.4 4.01 1.26 V2 R5 2021/12/9 187.8 3.13 1.62 V2 R5' 2022/7/13 189.5 3.16 1.60 V2 R5" 2022/9/8 165.5 2.76 1.83 V2 R6 2022/11/1 164.9 2.75 1.84 ・ SIMD化とループ分割の併用は有効 ・ 短縮長の長いcc-pVDZの方が加速は顕著 ・ モノマーSCC段階での積分バッファリングは効果的 2024/5/30 55

56.

積分バッファリングは(pp|pp)までで設定、メモリを増せば(dd|dd)まで対応可能(いわゆるインコアモード). 【不老 Type I】 FMO-MP2ジョブ時間の比較#2 Trp-Cage - FMO-MP2 - 24スレッド/20プロセス @ 10ノード 6-31G* cc-pVDZ 2024/5/30 20フラグメント Ver. / Rev. Date Sec. Min. Acc. V1 R22 2020/6/3 469.6 7.83 1.00 従前のVer. 1 Rev. 22 V2 R4 2021/9/16 413.9 6.90 1.13 SIMD化など Ver. 2 Rev. 4 V2 R5 2021/12/9 344.2 5.74 1.36 ループ分割、Fock行列改良 V2 R5' 2022/7/13 294.2 4.90 1.60 モノマーSCC外挿変更 V2 R5" 2022/9/8 282.7 4.71 1.66 モノマー積分バッファ V2 R6 2022/11/1 240.3 4.01 1.95 バッファ+モノマーSCC V1 R22 2020/6/3 1059.9 17.67 1.00 V2 R4 2021/9/16 876.1 14.60 1.21 V2 R5 2021/12/9 706.7 11.78 1.50 V2 R5' 2022/7/13 622.0 10.37 1.70 V2 R5" 2022/9/8 522.1 8.70 2.03 V2 R6 2022/11/1 463.8 7.73 2.29 ・ モノマーSCCのAnderson外挿(密度版)の変更が奏功 ・ 短縮長の長いcc-pVDZの方が加速がやはり効く ・ 積分のバッファリングが有効 ・ このTrp-CageではVer. 1 Rev. 22比で加速2倍超を達成 インコアモードでは2.47倍に 56

57.

【不老 Type I】 FMO-MP2ジョブ時間の比較#3 HIV-Protease - FMO-MP2 - 24スレッド/204プロセス @ 102ノード 6-31G* cc-pVDZ 203フラグメント Ver. / Rev. Date Sec. Min. Acc. V1 R22 2020/6/3 971.0 16.18 1.00 従前のVer. 1 Rev. 22 V2 R4 2021/9/16 866.0 14.43 1.12 SIMD化など Ver. 2 Rev. 4 V2 R5 2021/12/9 777.8 12.96 1.25 ループ分割、Fock行列改良 V2 R5' 2022/7/13 741.9 12.37 1.31 モノマーSCC外挿変更 V2 R5" 2022/9/8 696.4 11.61 1.39 モノマー積分バッファ V2 R6 2022/11/1 650.4 10.84 1.49 バッファ+モノマーSCC V1 R22 2020/6/3 2101.4 35.02 1.00 V2 R4 2021/9/16 1737.2 28.95 1.21 V2 R5 2021/12/9 1526.5 25.44 1.38 V2 R5' 2022/7/13 1564.4 26.07 1.34 V2 R5" 2022/9/8 1341.8 22.36 1.57 V2 R6 2022/11/1 1315.8 21.93 1.60 ・ やはり、cc-pVDZの方が加速はベター ・ 外挿の変更と積分バッファリングの併用が効果的 2024/5/30 57

58.

【不老 Type I】 2023年8月版 - http://www.cenav.org/abinit-mp-open_ver-2-rev-8/ FMO-MP2ジョブ時間の比較#4 Mpro-N3 - FMO-MP2 - 24スレッド/384プロセス @ 192ノード 6-31G* cc-pVDZ 384フラグメント Ver. / Rev. Date Sec. Min. Acc. V1 R22 2020/6/3 996.8 16.61 1.00 V2 R4 2021/9/16 874.2 14.57 1.14 V2 R5 2021/12/9 793.6 13.23 1.26 ループ分割、Fock行列改良 V2 R5' 2022/7/13 741.6 12.36 1.34 モノマーSCC外挿変更 V2 R5" 2022/9/8 727.5 12.13 1.37 モノマー積分バッファ V2 R6 2022/11/1 645.2 10.75 1.54 バッファ+モノマーSCC V1 R22 2020/6/3 2230.6 37.18 1.00 V2 R4 2021/9/16 1882.0 31.37 1.19 V2 R5 2021/12/9 1633.3 27.22 1.37 V2 R5' 2022/7/13 1475.6 24.59 1.51 V2 R5" 2022/9/8 1415.5 23.59 1.58 V2 R6 2022/11/1 1279.5 21.33 1.74 従前のVer. 1 Rev. 22 SIMD化など Ver. 2 Rev. 4 ・ タンパク質-リガンド系では加速1.5~1.7倍は確保か ・ 「富岳」は「不老」より1割程度は遅い(クロックの違い) Ver.2 Rev. 6作業版に機能追加を行ってVer. 2 Rev. 8として公式リリース 2024/5/30 58

59.

【不老 Type I&富岳】 BSV/GUI向け配列の削除; 中野氏. 超大規模系への対応 (Ver. 2 Rev. 4) 従前の2倍の系が計算可能に ・インフルHA+Fab抗体×2(PDB id: 1KEN)の水和モデル ・フラグメント総数は11307、水と対イオンを含む ・「不老」の1ラック、FMO-MP2/cc-pVDZは9.2時間で完走 ・「富岳」の8ラック、FMO-MP3/cc-pVDZは6.7時間で完走 ・FMO-MP2ではモノマーSCCが半分弱のコスト ・水クラスターでは2万フラグメントのMP2ジョブも完走確認 ===================== ## TIME PROFILE ===================== ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = Elapsed time: Monomer MP2 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP2 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = 14546.6 seconds 32.5 seconds 14741.5 seconds 4021.8 seconds 7215.9 seconds 2492.4 seconds 18240.6 seconds 32982.1 seconds Elapsed time: Monomer SCF = Elapsed time: Monomer MP3 = Elapsed time: Monomer (Total) = Elapsed time: Dimer ES = Elapsed time: Dimer SCF = Elapsed time: Dimer MP3 = Elapsed time: Dimer (Total) = Elapsed time: FMO (Total) = ## Time profile ## Time profile Number of cores (total) = Number of cores (fragment) = 384 1 Number of cores (total) = Number of cores (fragment) = THREADS (FRAGMENT) 48 THREADS (FRAGMENT) Total time = 2024/5/30 7114.0 seconds 343.1 seconds 7532.4 seconds 534.8 seconds 891.4 seconds 4265.7 seconds 16306.3 seconds 23838.7 seconds = Total time = 33120.9 seconds 「不老」-2021年6月時点 = 3072 1 48 24203.2 seconds 「富岳」-2021年9月時点59

60.

クラスタリングのPythonスクリプト開発; 土居氏. タンパク質から遠方の水のクラスタリング 【1KEN水和体の例】 6142個の水分子を 2824個のクラスタに 処理内容 1. 距離の近い水分子をグループ化する。(すでにグループ化されている 水分子はグループに追加しない) 1. 2量体グループに近距離の2量体グループの水分子を追加する。 2. 3量体グループに単量体、もしくは2量体グループの水分子を追加する。 3. 2, 3の操作を複数回行い、ある程度4量体グループが作成できれば終了。 2024/5/30 1 water cluster : 900 2 waters cluster : 1110 3 waters cluster : 360 4 waters cluster : 328 5 waters cluster : 126 60

61.

【富岳】 スパイクタンパク質の水和モデルの扱い top view クローズ型のPDB-ID=6XLU side view 水粒子非表示 ・液滴モデルの総数1.8万フラグメントを水のクラスタリングのスクリプトで1万弱に低減 ・糖鎖部分も考慮、Glnとの結合もスクリプトで切断 ・FMO-MP2/6-31G*ジョブ、8ラック(3072ノード)で約2時間で完走 ・オープン型のPDB-ID=6XM0では対イオン周りのHF未収束が続発 (解決策は後出) 2024/5/30 61

62.

SX-Aurora TSUBASA向けの対応 (JHPCN課題番号:jh230001, jh240001) 【整備/改良: NEC-立教大の2020年度からの共同研究+滝沢先生@東北大との連携】 (東北大「AOBA」、阪大「SQUID」) 2024/5/30 62

63.

解析と改造; 佐藤氏(NECソリューションイノベータ), 坂倉氏. SX-Aurora TSUBASAでの高速化検討  SX-ATでのプロファイル   Ver. 1 Rev. 22を対象 2電子積分の生成がジョブコストの半分を占める (A64FXの場合と同様) 改良方針    小原の漸化式アルゴリズムは最深ループの処理が重い (ES2など前のベクトル型スパコンでは「これ」でもよかった…) レジスタスピルの発生が考えられるため、手動でループを分割する 角運動量が大きくなる組み合わせが対象 (検討した10ルーチン) FREQUENCY 115509 44572 44570 72046 44572 20596 132456 211623 20938 240613 2024/5/30 EXCLUSIVE AVER.TIME TIME[sec]( % ) [msec] 28.156( 23.961( 22.496( 19.937( 17.893( 17.552( 16.509( 15.423( 15.347( 14.710( 1.9) 1.6) 1.5) 1.3) 1.2) 1.2) 1.1) 1.0) 1.0) 1.0) 0.244 0.538 0.505 0.277 0.401 0.852 0.125 0.073 0.733 0.061 MOPS MFLOPS V.OP AVER. RATIO V.LEN 8753.8 1780.0 93.79 140.9 13049.2 2215.9 96.18 81.7 11357.7 3871.5 95.38 80.9 8808.4 1573.0 95.14 135.5 13296.7 4683.0 94.51 70.9 10086.4 3072.7 94.05 67.5 38728.8 24039.6 98.13 169.7 7188.4 2189.9 93.94 53.9 10936.1 3432.7 92.99 59.1 65161.6 47588.0 98.53 208.8 VECTOR L1CACHE CPU PORT VLD LLC PROC.NAME TIME MISS CONF HIT E.% 22.222 21.151 21.914 16.704 17.303 17.216 15.512 14.290 15.027 13.330 1.793 2.272 0.486 1.042 0.492 0.275 0.715 0.892 0.261 0.788 0.176 0.168 0.319 0.094 0.365 0.316 1.012 0.110 0.367 0.372 89.69 SUB_SPDD_VEC 71.50 SUB_PPDD_VEC 87.22 SUB_PPPD_VEC 90.63 SUB_PSDD_VEC 91.97 SUB_PPDP_VEC 76.85 SUB_DPPD_VEC 87.66 SUB_SPSS_VEC 92.91 SUB_SSDD_VEC 83.04 SUB_DPDP_VEC 82.38 SUB_SSSS_VEC 63

64.

改造; 佐藤氏. ループ分割を検討した積分生成ルーチン群 ・SPDD, PPPD, PSDD, PPDP, DPPD, SPSS, DPDP: ループ分割 ・PPDD: ループ分割の見直しを行い更に高速化 ・SSDD: 分割せずに1次元的に使用される配列を変数化して高速化 ・SSSS: ループがシンプルかつ小規模のために今回は見送り SUB_PPDD_VEC FREQUENCY EXCLUSIVE AVER.TIME MOPS TIME[sec]( % ) [msec] 232314 186.872( 1.5) 0.804 9184.1 232314 63.264( 0.5) 0.272 15415.9 MFLOPS V.OP AVER. RATIO V.LEN 1451.1 96.84 87.8 4554.4 94.29 48.6 VECTOR L1CACHE CPU PORT VLD LLC PROC.NAME TIME MISS CONF HIT E.% 183.535 2.590 0.856 82.65 SUB_PPDD_VEC★最適化前 56.998 4.577 0.857 90.67 SUB_PPDD_VEC★最適化後 分割したループ部分抜粋 71: +------> do npq=1,ngij 72: | if (abs(dkabm(npq)) > tv) then 73: | zeta2 = 0.5_8/zetam(npq) 74: | !CDIR UNROLL=3 75: | !NEC$ unroll(3) 76: |*-----> do i=1,3 77: || pa(i) = pm(i,npq)-a(i) 78: || pb(i) = pm(i,npq)-b(i) 79: |*----end do 81: |V-----> do klrs=1,ngklrs 82: || ! if (abs(dkabm(npq)*dkcdm(klrs)) > tv) then 83: || ze = 1.0_8/(zetam(npq)+etam(klrs)) 84: || a0 = dkabm(npq)*dkcdm(klrs)*sqrt(ze) 85: || eta2 = 0.5_8/etam(klrs) 86: || ze2 = 0.5_8*ze 2024/5/30 64

65.

21年度下期 測定; 佐藤氏, 望月(Xeon, A64FX). 第一次の改良後の性能評価 新型コロナウイルスのメインプロテアーゼ+N3リガンドのFMO-MP2/6-31G*ジョブ 2024/5/30 6LU7/mpi-des 並列数/node nodes or VEs 実行時間 [sec] TFLOPS 実効効率 Xeon (Gold 6248) 10mpi*4smp 1 31270.4 0.191 5.96% Xeon (Gold 6248) 40mpi 1 32197.9 0.185 5.79% Xeon (Gold 6154) 9mpi*4smp 32 1699.0 3.512 3.18% Xeon (Gold 6154) 36mpi 32 1682.0 3.548 3.21% 「富岳」 2mpi*24smp 32 3542.5 1.684 1.56% 「富岳」 2mpi*24smp 64 2179.3 2.738 1.27% 「富岳」 2mpi*24smp 192 1091.7 5.466 0.84% Aurora (10AE) 8mpi 32 2478.2 2.408 3.50% Aurora (10AE) 8mpi 64 1427.5 4.180 3.04% Aurora (20B) 8mpi 32 2349.9 2.539 3.24% Aurora (20B) 8mpi 64 1352.4 4.412 2.81% ・ SX-Auroraの10AE/64VEの改良前 6533.6 s → 1427.5 s に短縮 (加速4.6倍) ・ 「富岳」、Xeonのデータは「素のVer. 1 Rev. 22」を使っての結果 ・ Xeon(Gold 6248)は望月研の1ノードサーバでの測定 ・ Xeon(Gold 6154)は九大ITO Subsystem-Aで測定 ・ ベクトル版を含めて性能向上の改良は途上… (Ver. 2 Rev. 4のベクトル化中) Flat MPI 65

66.

改造; 佐藤氏&坂倉氏 / 測定(22年度下期); 佐藤氏. 第二次の改良 ・ OpenMP/MPIの混成並列実行を可能に ・ 2電子積分周りの追加の改良(ループ分割、ベクトル長延伸) ・ 非ベクトル実行部の洗い出しとベクトル化修正 並列数 VE数 SMP非対応 対応後① 対応後② 対応後③ 512 MPI (8 MPI / VE) 64 1443.9 1007.4 1028.6 1 OMP * 512 MPI (1 OMP * 8 MPI / VE) 64 4701.5 2069.4 1876.5 1876.3 2 OMP * 256 MPI (2 OMP * 4 MPI / VE) 64 3016.9 1397.5 1245.3 1234.4 4 OMP * 128 MPI (4 OMP * 2 MPI / VE) 64 2331.9 1146.9 1037.8 1025.3 8 OMP * 64 MPI (8 OMP * 1 MPI / VE) 64 2069.1 1099.9 996.7 972.7 時間は秒 ・ 測定はNEC社内機(V10AE) ・ 対応後①; OpenMP/MPI実行時のコンパイラ問題を回避してSMPを可 (ソース書き換え、指示詞追加) ・ 対応後②; 積分生成ルーチン数を81から36にまとめて削減 (GPU用ミニアプリ改造の知見を反映) ・ 対応後③; マージソートの最適化、補助積分FMTのベクトル化 2024/5/30 66

67.

SX-ATのVE更新(2023年) 東北大 AOBA-A 2024/5/30 東北大 AOBA-S ・ VE30でコア数は8から16に倍増 ・ メモリも48GBから96GBに倍化 ・ メモリバンド幅は1.6倍 ・ L3キャッシュを新規に増設 67

68.

改造と測定; 加藤氏(NEC) 新SX-ATでのMP2の再評価 東北大 AOBA-A&S 6LU7のFMO-MP2/6-31G*ジョブ / Ver. 2 Rev. 4のベクトル化対応版 2024/5/30 ・ 同一VE数ではVE30はVE20の1.7倍高速 ・ 同一プロセス数では1.1倍の改善 ・ L3キャッシュの効果 ・ Ver. 2 Rev. 4のベクトル化版を導入予定 Flat MPI / NP=4条件 68

69.

改造と測定; 加藤氏(NEC) 新SX-ATでのMP2とMP3の比較 同じVE数 HW Method VE20B 64 VE VE30A 64 VE 3,000 Memory Total time[s] GFLOPS 演算量[TFLOP] MP3 40000 2,852.6 12,307.4 35,108.0 46.8 MP2 40000 1,019.5 6,266.1 6,388.3 46.3 MP3 40000 1,742.7 20,169.6 35,149.6 92.3 MP2 40000 477.0 13,478.2 6,429.1 91.4 ・MP3では演算量が約6倍 ・MP2からのコスト増は約3倍 ・MP3の方が加速が低下 (4h2p部のFock的処理が メモリバンド幅的に律速) Total time[s] 加速1.6倍 1,742.7 1,500 1,019.5 1,000 加速2.1倍 477.0 500 0 MP3 MP2 Method VE20B 64 VE 2024/5/30 NEC社内機 2,852.6 2,500 2,000 メモリ[GB/VE] VE30A 64 VE OpenMP/MPI 混成並列 69

70.

新SX-ATでのMP2とMP3の比較(補足) 同じMPIプロセス数 3,000 2,852.6 2,851.3 ・MP2での加速はL3キャッシュの効果 (VE30ならVE数の要求半減もアリ) ・MP3でプロセス数を揃えると同等 (メモリバンド幅の劣化を隠蔽) Total time[s] 2,500 2,000 1,500 1,019.5 1,000 823.8 500 OpenMP/MPI 混成並列 0 MP3 MP2 Method VE20B 64 VE VE30A 32 VE コア数が2倍なので1つあたり では0.8倍のメモリバンド幅 2024/5/30 70

71.

「富岳」時代のFMO計算#1 (HPCI課題番号: hp210026, hp220025, hp220352, hp230017, hp240030) 【MM-MD計算は慶應大の山本詠士先生、平野秀典先生、泰岡顕治先生によります】 2024/5/30 71

72.

MD軌跡からの多構造サンプルの一括処理 {hp210026, hp220025, hp230017, hp240030}; “新規感染症のための計算科学的解析環境の整備” * MD由来の多サンプルの液滴構造の扱い * “ABMtools”を開発して利用(改良中) * MD軌跡からの液滴モデル切り出し * ajf作成、logから統計的な相互作用解析 GROMACSにも対応 2024/5/30 72

73.

「富岳」でのMM-MD/FMO連携の計算のフロー MM・MD計算セットアップ MM・MD計算 FMO計算セットアップ 水和, Na(I)/Cl(I)イオンあり サーバー:理研R-CCS 「富岳」 ソフトウェア:GROMACS 力場:AMBER 100-200nsの構造を1ns毎に切り出し AMBER力場による緩和 水をタンパク質の周囲4Åを切り出し FMO計算(QM) サーバー:理研R-CCS 「富岳」 ソフトウェア:ABNIT-MP 計算条件:PR-MP2/6-31G* 2024/5/30 計算結果の解析 フラグメント間相互作用エネルギー(IFIE)を算出 101構造のうち収束した構造について時間変化 を含むIFIE/PIEDAなどを解析、CP分解も実施 73

74.

タンパク質界面のIFIEテンソルのセットアップ 解析用テンソルの作成 1. MD-FMO連携計算によって得られた各サンプル構造のIFIEテーブル を、100~200nsに渡って纏め、元となるテンソルを作成。 2. 100~200nsの間に、界面(例:4.5Å以内)に存在した残基を全て抽出  time Protein B Protein A 元のテンソル: 単純に時間でIFIE テーブルを束ねたもの 2024/5/30 界面に存在した残基 (青色の箇所)の抽出 解析用テンソル 74

75.

CP分解等のテンソル分解による解析は田中成典先生(神戸大)との共同研究. IFIEテンソルのCP分解  テンソル分解 • TensorLyでCP分解を適用 (Tucker分解と異なりコアテンソルが対角表現) • コアテンソルの重み(wight)は、各固有ベクトルの重要度に対応 • 固有ベクトルの成分の絶対値を比較することで、重要残基を抽出 time k Protein A i k テンソル分解 (情報量の削減) 固有ベクトル k time core + j j tensor Protein B j i 固有ベクトル Protein B + ... i 固有ベクトル Protein A rank = 10 固有値(weight)は10個 2024/5/30 75

76.

Ref.; S. Kitahara et al., to be submitted. インフルエンザウイルスHA3-2Fabの解析例#1 PDB-ID=1KEN core tensor [HA(I) vs Fab(I)] point of view 1000 70% Fab(I) weight 800 Ala56 Ser227 Val59 Asp102 600 Lys156 400 Ser228 HA(I) 200 0 Leu55 HA1の界面(100ns) rank 1 rank 2 rank 3 rank 4 rank 5 rank 6 rank 7 rank 8 rank 9 rank 10 ※結合する箇所を赤く着色 Fab(I) HA(I) rank 1 rank 2 rank 3 rank 4 rank 5 Glu190 (0.74) Glu190 (0.92) Lys156 (0.99) Lys156 (0.99) Leu226 (0.54) Lys156 (0.42) Arg229 (0.20) Leu194 (0.10) Leu194 (0.09) Arg224 (0.39) Arg229 (0.36) Ser227 (0.18) Gly158 (0.03) Ser159 (0.07) Lys140 (0.23) Ser186 (0.16) Gln191 (0.03) Glu190 (0.06) Lys140 (0.32) Arg224 (0.23) Ser228 (0.15) Val196 (0.03) Thr160 (0.05) Asn137 (0.30) Asp104 (0.70) Asp102 (0.94) Ala56 (0.97) Ser57 (0.86) Asp102 (0.74) Asp102 (0.55) Asp104 (0.19) Arg62 (0.11) Gly58 (0.24) Tyr103 (0.44) His3 (0.31) Arg62 (0.16) Phe107 (0.10) Arg62 (0.22) Asp104 (0.43) Arg62 (0.31) His3 (0.14) Asp104 (0.09) Val59 (0.22) His3 (0.19) Tyr103 (0.12) Tyr103 (0.14) Phe106 (0.08) Ala56 (0.20) ※界面で水素結合や塩橋となっている残基について強調 Arg62 (0.15) 2024/5/30 Glu190 (0.37) 側鎖-主鎖の水素結合が重要 • Ser227、Ser228はAsp102に対し て主鎖のアミノ基で結合 • Lys156によるLeu55(Ala56)、 Ala56(Ser57)、Val59への>C=O に対する結合 強く結合する塩橋なし 76

77.

インフルエンザウイルスHA3-2Fabの解析例#2 point of view core tensor [HA(II) vs Fab(II)] 1000 80% Fab(II) weight 800 Val59 Glu156 Ser228 600 Ser227 400 Asp102 Ala56 Arg104 Leu55 HA(II) 200 Lys137 0 rank 1 rank 2 rank 3 rank 4 rank 5 rank 6 rank 7 rank 8 rank 9 rank 10 Fab(II) HA(II) rank 1 rank 2 rank 3 rank 4 rank 5 Glu190 (0.59) Lys156 (0.96) Ser227 (0.67) Asn137 (0.69) Gly158 (0.85) Lys156 (0.46) Leu194 (0.15) Ser228 (0.50) Lys140 (0.35) Ser159 (0.38) Arg229 (0.40) Asn137 (0.13) Glu190 (0.30) Lys156 (0.27) Lys156 (0.21) Lys140 (0.35) Ser227 (0.09) Arg229 (0.25) Ala138 (0.27) Thr160 (0.19) Arg224 (0.31) Lys140 (0.09) Lys156 (0.23) Leu226 (0.24) Val130 (0.16) Asp102 (0.69) Ser57 (0.64) Asp102 (0.90) Asp104 (0.95) Arg62 (0.78) Asp104 (0.56) Ala56 (0.55) Asp104 (0.21) Tyr103 (0.24) Ala61 (0.59) Asp108 (0.36) Arg62 (0.25) Asp108 (0.20) Ser57 (0.09) Val59 (0.11) Arg62 (0.27) Pro60 (0.25) Arg62 (0.20) Ala56 (0.08) Ser57 (0.09) Ala56 (0.06) Asp104 (0.18) Tyr103 (0.17) Ser31 (0.06) Asp108 (0.07) ※界面で水素結合や塩橋となっている残基について強調 2024/5/30 HA(I)と同じく側鎖-主鎖の水素結合 が重要。 • Asn137-Asp104が新たな重要残 基ペア(Asp104がAsn137の主鎖 のNへ結合) • 界面で結合を作る残基がより多く 抽出されている。 HA(II)でも塩橋なし 77

78.

インフルエンザウイルスHA3-2Fabの解析例#3  解析用4階テンソルの作成 Fab(II) Fab(I) Fab(II) Fab(I) 1. MD-FMO連携計算によって得ら れた各サンプル構造のIFIEテー ブルを、100~200nsに渡って纏め 、元となるテンソルを作成。 2. 100~200nsの間に、HA(I)-Fab(I), HA(I)-Fab(II), Fab(I)-Fab(II)のい ずれかの界面(4.5Å以内)に存 在した残基を全て抽出。 3. テンソル分解に使用したIFIEは、 各残基をi,j,k、タイムステップをtと して以下のように算出した[4]。 テンソルのサイズ (HA × Fab(I) × Fab(II) × timestep) HA(I):31× 63 × 41 × 91 HA(II):54× 55 × 85 × 91 2024/5/30 HA(I) HA(II) テンソル作成時に 抽出された残基の分布 ※左:HA(I) vs Fab、右:HA(II) vs Fab 78

79.

インフルエンザウイルスHA3-2Fabの解析例#4 core tensor [HA(I) vs Fab(I) vs Fab(II)] Glu198 Lys215 Fab(II) Fab(I) Fab(I) 1800 1600 70% weight 1400 1200 1000 Fab(II) 800 600 Ser57 Fab(I) 400 200 0 rank 1 rank 2 rank 3 rank 4 rank 5 rank 6 rank 7 rank 8 rank 9 rank 10 Fab(II) Fab(I) HA(I) rank 1 rank 2 rank 3 rank 4 Lys156 (0.50) Lys156 (0.85) Lys156 (0.82) Lys156 (0.85) Glu190 (0.47) Glu190 (0.49) Arg224 (0.34) Glu190 (0.48) Arg229 (0.43) Arg229 (0.13) Lys140 (0.27) Arg229 (0.16) Lys140 (0.41) Arg224 (0.08) Arg229 (0.22) Ser186 (0.09) Arg224 (0.41) Thr187 (0.07) Leu194 (0.14) Ser227 (0.08) Arg62 (0.37) Asp102 (0.86) Asp102 (0.87) Asp102 (0.87) Asp214 (0.33) Asp104 (0.37) Asp104 (0.41) Asp104 (0.40) Lys216 (0.33) Tyr103 (0.16) His3 (0.11) His3 (0.15) Lys76 (0.31) Asp1 (0.13) Ser57 (0.10) Gln78 (0.10) Asp104 (0.30) Tyr100 (0.12) Tyr33 (0.10) Tyr103 (0.09) Arg62 (0.40) Arg62 (0.49) Glu82 (0.37) Glu198 (0.63) Glu80 (0.40) Glu80 (0.49) Arg62 (0.37) Lys216 (0.47) Glu17 (0.38) Glu17 (0.48) Glu80 (0.37) His171 (0.36) Glu82 (0.36) Glu82 (0.37) Lys170 (0.37) Glu17 (0.24) Lys170 (0.32) Lys170 (0.24) Asp171 (0.34) Lys170 (0.23) ※橙色はHA vs Fab、青はFab(I) vs Fab(II)で重要 2024/5/30 Glu80 Fab(II) rank 5 Lys156 (0.51) Glu190 (0.47) Arg229 (0.41) Lys140 (0.41) Arg224 (0.39) Lys212 (0.54) Lys122 (0.42) Asp214 (0.41) Arg62 (0.27) Lys150 (0.22) Glu198 (0.55) His171 (0.36) Arg62 (0.36) Glu17 (0.31) Glu80 (0.30) Lys156 HA(I) Asp102 Fab(I) HA(I)   HA(I) vs Fab(I)の残基が界面で表れている。 HA(I)の界面ではLys156が特に重要。 Fab(II)はHA(I)と十分接近してないため、 Fab(I) vs Fab(II)で重要だった残基のみ。 79

80.

インフルエンザウイルスHA3-2Fabの解析例#5 core tensor [HA(II) vs Fab(I) vs Fab(II)] 2100 70% 1800 Fab(II) Lys76 Fab(I) Fab(I) wight 1500 1200 Glu80 Fab(II) 900 600 300 0 1 2 3 4 5 6 7 8 9 10 rank rank 1 Lys140 (0.45) Glu190 (0.44) HA(II) Arg224 (0.41) Arg229 (0.38) Arg201 (0.37) Lys76 (0.41) His3 (0.41) Fab(I) Lys212 (0.38) Asp214 (0.34) Lys122 (0.34) Glu80 (0.38) Arg62 (0.38) Fab(II) Glu82 (0.36) Lys170 (0.36) Asp171 (0.35) rank 2 Lys156 (0.76) Arg201 (0.38) Glu190 (0.36) Arg229 (0.23) Arg224 (0.18) His3 (0.86) Lys76 (0.26) Asp1 (0.24) Gly26 (0.12) Ser75 (0.12) Asp102 (0.61) Asp104 (0.49) Glu80 (0.28) Asp108 (0.26) Arg62 (0.21) rank 3 Lys156 (0.70) Glu190 (0.40) Arg201 (0.34) Arg229 (0.28) Lys140 (0.25) Lys76 (0.69) Lys122 (0.41) Lys212 (0.32) Lys150 (0.26) Asp214 (0.23) Asp102 (0.62) Asp104 (0.46) Glu80 (0.27) Arg62 (0.26) Asp108 (0.25) rank 4 Lys156 (0.90) Arg201 (0.22) Lys140 (0.15) Arg224 (0.14) Arg229 (0.12) His3 (0.56) Lys76 (0.50) Lys122 (0.29) Lys212 (0.29) Asp214 (0.26) Asp102 (0.55) Arg62 (0.35) Glu80 (0.34) Asp104 (0.32) Glu82 (0.29) ※橙色はHA vs Fab、青はFab(I) vs Fab(II)で重要 2024/5/30 rank 5 Lys156 (0.52) Glu190 (0.46) Arg201 (0.37) Arg229 (0.34) Lys140 (0.30) Lys76 (0.93) His3 (0.20) Lys122 (0.10) Ser75 (0.09) Lys216 (0.09) Glu80 (0.67) Arg62 (0.50) Glu82 (0.33) Glu17 (0.27) Lys170 (0.19) Lys156 HA(II) Glu190 HA(II) Asp104 Fab(II) Asp102 Fab(II)    HA(II) HA(II) vs Fab(II)、 Fab(I) vs Fab(II)の様相 HA(I)よりもFabに接近してるため、Fab(I)に対 してESの大きな残基の影響がより強い。 HA(II)のK156とペアのFab(II)の残基が消失 80

81.

Ref.; R. Yoshine et al., to be submitted. ウイルスタンパク質以外の計算例 VII VIIa IX ・ 新型コロナウイルス感染時の血栓形成による重症化懸念 ・ Xa因子阻害剤に注目 (Ref.; A. Chandra et al., Postgrad. Med. J. 98 (2022) 395.) ・ 4種の阻害剤は経口投与が可能 ・ Xa因子-阻害剤の複合体をMM-MD/FMO連携計算で解析 ・ Xa因子のS1とS4領域の結合の仕方、荷電状態も比較 ・ 重要残基の特定、相互作用様態の判別を実施 Glu83 Thr84 warfarin X IXa VIIIa Apixaban Edoxaban Rivaroxaban Betrixaban Xa II Tyr85 IIa Fibrinogen Fibrin Phe162 Trp205 EDO(N+) EDO(N) EDO(N+) EDO(N) EDO(N+) EDO(N) EDO(N+) EDO(N) EDO(N+) EDO(N) Edoxaban(N+) (末端6員間のNがプロトン化) 2024/5/30 PR-IFIE [kcal/mol] 20 ES 10 EX 0 -10 CT -20 DI -30 -40 平均値を表示    Tyr85, Trp205, Phe162;カチオン-π相互作用 Glu83;静電相互作用 Thr84;水素結合 81

82.

「富岳」時代のFMO計算#2 (HPCI課題番号: hp210261, hp230016, hp230375, hp240013) 【産学連携はJSOLの小沢拓氏のグループと進めてきています】 2024/5/30 82

83.

各スケールの分子シミュレーション ◇量子化学 (FMO) ◇分子動力学 ◇粗視化シミュレーション 相互作用 [電子状態の計算] ・タンパク質とリガンドの 相互作用 ・結晶中の分子間相互作用 Å単位 [原子単位の運動] ・結晶のパッキング ・弾性率(応力-ひずみ) ・ガラス転移点の挙動 数nm単位 [原子集団単位の運動] ・長時間の運動 ・リポソームの融合 ・ポリマーの相分離 数10~100nm単位 粗視化粒子間の相互作用をFMOを使って算出 2024/5/30 83

84.

Ref.; K. Okuwaki et al., J. Phys. Chem. B, 122 (2018) 338. 粗視化シミュレーションのパラメータを算定する試み 2024/5/30 84

85.

Ref.; K. Okuwaki et al., J. Phys. Chem. B, 122 (2018) 338. & 奥脇ら, J. Comp. Chem. Jpn., 17 (2018) 102. FMO計算に基づくパラメータ算定のワークフロー 開発; 奥脇氏 & 土居氏 ◆配置生成からパラメータ算出処理までの自動化 配置生成モジュール ・構造作成 ・ペア配置生成 ペア座標リスト(各2000配置) ABINIT-MP FMOの相互作用 エネルギーリスト 配向情報の取得 配向リスト Metropolis MC ペア間平均相互作用(Eij ) 異方性の指標(Sf ) Z(配位数) 𝝌(ZΔE×Sf/RT) ◆異方性の指標(Sf )の導入: ・特定の配向で強い相互作用を示す系:平均相互作用を過大評価 ・MC法採用配置の配向の偏りから相互作用をスケーリング ⇒単純な二成分系の相転移臨界温度が実験と良好な一致 2024/5/30 ワークフローを汎用システム化してリリース (名称はFCEWS) 85

86.

FMOによる算定値の検証 ◇温度上昇: 𝜒が減少(一般的に) →相溶しやすく 臨界点(相が分離しなくなる閾値)の温度Tc: 実験と比較 4.0 3.0 χ 1 1 2 𝑛𝑎 , 𝑛𝑏 =各成分の重合度 ( + ) 臨界点𝜒 ポリマー分子量(Mw) 𝑛𝑎 𝑛𝑏 重合度: (χc ) χ𝑐 = セグメント分子量 2 Hexane Nitrobenzene 𝜒𝑐 exptl. FMO 2.0 293 286 -1.0 𝜒𝑐 exptl. FMO 22700 0.57 292 328 285000 0.52 319 346 6000000 0.50 329 354 Tc Temp Polyisoprene – Polystyrene Mw Tc(K) Mw 1.0 0.0 Diisobutyl ketone Polyisobutylene Tc(K) 2.0 pip Tc(K) ps 𝜒𝑐 exptl. FMO 255 420 420 489 ※理論値が実験値と非対応 1000 2000 2700 2700 1000 0.34 2700 ※0.15 2100 0.15 2700 0.12 243 329 408 448 実験値を10%程 の誤差で再現 2024/5/30 86

87.

Ref.; H. Doi et al., Chem. Phys. Lett. 684 (2017) 427. POPC脂質膜へのFMO-DPDの応用#1 実施; 土居氏 POPC:頭部にコリンを有する代表的なリン脂質 D E F D A C B A A A B B 分子内を小分子に分割 ⇒ 「部品」として再利用可能 A B C D E F W 水を含めた7成分間、21ペアのパラメータ算定 2024/5/30 ・溶媒効果(Poisson-Boltzmann)を取り入れた二分子モデル計算 ・計算レベル:FMO2-MP2-PB/6-31G†、各ペア2000配座 81

88.

POPC脂質膜へのFMO-DPDの応用#2 各成分間のχ(300K) B A B C D E F C D E F 1.39 4.75 4.76 12.08 -0.61 0.71 5.46 5.81 12.66 1.18 4.81 5.74 10.56 1.99 -4.00 疎水部(A,B,C,D) B C D E F W -0.18 -0.23 親水部(E,F) A 9.73 2.55 -6.64 6.00 ◇DPDシミュレーション[cognac, 約80000粒子(1辺21.3nm)] ・親水部(E,F,W)同士:親和性大 ・疎水部(A,B,C)同士:親和性大 ・親水部-疎水部:親和性小 傾向を再現 脂質13%:ベシクル 2024/5/30 脂質20%:膜 ⇒経験的パラメータなしで構造の再現 88

89.

POPC脂質膜へのFMO-DPDの応用#3 膜面積 観測条件 結果 (Å2 ) 観測方法 303K Diffuse X-ray scattering 68.3 [1] 293K neutron and X-ray scattering 62.7[2] 303K neutron and X-ray scattering 64.3 [2] 300 K DPD 69.4[3] 膜厚 実測[4](H-NMR) 2.58 (nm) 疎水基の膜厚 2.8 (nm) 2024/5/30 実験値をほぼ再現 89

90.

Ref.; K. Okuwaki et al., Appl. Phys. Expr. 13 (2020) 017002. FMO-DPDによるChignolinのフォールディング 実施; 奥脇氏 Tyr Gly(N末) Pro Asp Thr Glu Thr Trp Gly(C末) Trp ・骨格はすべてGlyで表現 ・非結合ポテンシャル:各残基の小分子構造を 作成しFMO計算でパラメータ作成 ・結合ポテンシャル:1-2(bond), 1-3(angle), 1-4(torsion)ポテンシャルを定義 ・Trpは「大きさ2つ分」で表現 ・直線構造から程なくβヘアピン構造に ・同様の手法でα-シヌクレン(140残基)も成功 2024/5/30 90

91.

Ref.; K. Okuwaki et al., Jpn. J. Appl. Phys. 62 (2023) 090902. リバースマッピング 開発; 奥脇氏 ◇DPD結果を再原子化し、FMO計算を行うスキームを確立してシステム化 (DSRMS) DPD結果 (約1000粒子) J-OCTAのCOGNACを利用 2024/5/30 アフィン変換(体積拡大) MDによる緩和(NPT) 原子化 (約10000原子) FMO(IFIE解析) 91

92.

リバースマッピングによる解析例: POPC膜 MD結果から一部分を切り出してFMO (MP2/6-31G(d’)) 6000原子:7200秒(80proc) リン酸部-水間のIFIE: -27.83kcal/mol 2024/5/30 妥当な相互作用エネルギー 92

93.

Ref.; H. Doi et al., Jpn. J. Appl. Phys. 62 (2023) 070901. 機械学習によるχパラメータ算定の効率化 開発; 土居氏 ■pre_fcews ・FCEWSを用いた𝜒パラメータ算定において、FMO計算の実行回数を減らす べく作成されたワークフローシステム ・2,000構造のうちの一部のFMO計算の結果を教師データとし、その他 の構造の相互作用エネルギーの予測を行う ⇒ 得られたエネルギー予測値を利用して𝜒の算定を行う 2024/5/30 93

94.

相互作用エネルギーの予測手法 ランダムフォレストを使用  pre_fcewsにおける2つの予測手法 1-step method 事前計算 学習・予測 全2000配置のうち、一部の 配置のみFMO計算で相互 作用エネルギーを算出 FMO計算の結果を学習し、 機械学習で残りの配置の 相互作用エネルギーを予測 平均相互作用エネルギーやスケーリング ファクターの計算には、ボルツマン因子 による重みがかかる。 ⇒安定的な配置は重みが大きく、誤差の 影響も大きいのでFMO計算値を使用。 正確な値が欲しい配置を機械学習で探索 できることが2-step methodの最大のメリット 2024/5/30 2-step method 事前計算 全2000配置のうち、一部の 配置のみFMO計算で相互 作用エネルギーを算出 学習・予測 FMO計算の結果を学習し、 機械学習で残りの配置の 相互作用エネルギーを予測 フィルタリング 予測値が小さい配置(=安定 的な配置)を抽出 再計算 抽出された配置はFMO計算 で相互作用エネルギーを 正確に計算 再学習・予測 事前計算と再計算の結果を 学習し、未計算の配置の 相互作用エネルギーを予測 94

95.

ヘキサン-ニトロベンゼン系(300K)での予測 ■”1-step method”を用いた場合 ・FMO計算を行う構造数(=学習データの数)を変え、予測を行った χ 250 500 1,000 1,500 2,000(計算値) 1.1 3.3 2.5 1.3 2.06 ⇒ 学習データの数に関係なく誤差が大きい ⇒ ボルツマン因子によって、予測が困難な構造の誤差が大きく影響 ■”2-step method”を用いた場合 ・ FMO計算を行う構造数を変え、予測を行った ・「100構造FMO計算→残りを予測→その内100構造を再計算」⇒100+100 χ 100+100 250+250 500+500 2,000(計算値) 2.26 2.21 2.08 2.06 ⇒ 少ない学習データでも高い精度で𝜒パラメータを予測可能 ⇒ ジョブ数は500+500で1/2、250+250で1/4に抑えることができる 2024/5/30 95

96.

FMO-DPDシミュレーションの双方向性 J-OCTAとの連携がベース FCEWS (Parametrization) DPD simulation FMO Calculation Parametrization DSRMS (Reverse mapping) All-atom MD FMO calculation 𝝌= pre_fcews (ML-based assistance) 2024/5/30 96

97.

χパラメータ算定に「富岳」の計算力を活用 ■圧倒的な計算力(ノード数) ・ capacity computing文脈で大量ジョブをFCEWSで自動投入 ・ 中規模系なら(待ち行列が短ければ)数日以内に完了 ・ 複数の対象系を同時進行、基底関数依存性のチェックも可能 ■hp210261-「富岳」一般機動的課題:2021年11月~2022年11月 ・ 立教大が主導、JSOLが幹事、産学連携を意図 ・ 参加企業は{東レ、東洋紡、日本触媒、ブリヂストン} ・ 月イチでのZoomによる会合 ・ 半期で助走段階は終了、後期で各社が個別テーマに取り組み ■hp230016&hp240013-「富岳」産業課題:2023年4月~2025年3月 ・ 産学連携のアクティビティを維持、FCEWS/ABINIT-MPは随時更新 ・ 慶應大が技術サポートと応用計算で参入 (荒井規允先生ら) ・ 企業ではパナソニックHDが新たに参加 ・ 各社毎のテーマを継続 ・ 立教大ではアミノ酸残基のパラメータ算定と機械学習導入を担当 ■hp230375-「富岳」一般機動的課題:2023年10月~2024年10月 ・ サンプル数の収束性を検証、セグメントの構造変動と多体効果の考慮 2024/5/30 97

98.

Ref.; 太刀野ら, J. Comp. Chem. Jpn. 22 (2023) 15. タンパク質の畳み込みプロジェクト(再始動) ■DPDによる畳み込み ・ 全原子MDよりも広い配座空間を高速に探索できるはず (拘束条件は必要) ・ ペプチドと脂質膜の相互作用にも興味 ■アミノ酸残基に関するパラメータの算定 ・ 前研究の「再訪」、2022年度までは東北大金研のサーバで実施 ・ 20種の全てをカバー、pKa依存の可能な状態をすべて考慮 ・ セグメント構造はB3LYP+D3/6-31G**レベルで最適化 ・ 「富岳」でのFCEWSでの算定はFMO-MP2/6-31G(d’)レベルで実行 ・ DPD検証はChignolin→Trp-Cage→Crambinの順 Tyr Asp 2024/5/30 Pro Glu Thr Trp Lys Arg Asn Leu Ile Gln Gly (Backbone) (N-terminal) Ser (C-terminal) 98

99.

pre_fcewsによる総数削減も検討済: 計算数を”2ステップ法”で1/3にしてもDPDの結果は変わらず. DPDによる畳み込みの検証 ■ChignolinとSuperChignolinのスナップショット ・ 伸びた構造から順に折り畳まれていく様子を確認 ■Trp-Cageのスナップショット ・ 基本的な畳み込みはOK 2024/5/30 99

100.

【広井紀彦氏、古市謙次氏】 「富岳」課題での取り組み例:東洋紡様 系: MEL/水=80%/20% 粒子の色 疎水部(脂質) 親水部(糖) 水 :赤系 :青系 :黒 水粒子非表示 2024/5/30 100

101.

今後の改良(GPU対応以外) 2024/5/30 101

102.

ABINIT-MP関係の継続的改良の必要性 ■液滴モデル ・ 対イオンを古典的点電荷として近似、HFの未収束問題を回避 ・ 膜タンパク質の扱い (脂質を含めて実効数で3~4万フラグメント) ■ジョブ実行と解析 ・ 数万フラグメントの大規模系のジョブ投入と結果回収の自動化の推進 ・ CP分解の解析ツールの使い勝手を向上、特徴的相互作用の自動判別 ■開殻系(FMO、MFMO) ・ UHF/UMP2は実装済、ただスピン汚染問題で適用可能な対象は限定 ・ 高スピンROHFを実装中 (収束性は要改善) ・ 相関にはKnowlesらのRMP2を実装予定 (UMP2モジュールを転用可能) ・ 重元素用のECPは作業版に導入済 (石村和也氏のSMASHより移植) ■多参照系(MFMO) ・ CASSCFを実装、FCIエンジンは2007年に開発済 (最新環境でも稼働) ・ 軌道最適化モジュールを設計中 (1次、擬似2次) ・ 動的相関はAngeliらのNEVPT2を検討中 (3体密度行列が必要) ■量子計算との接続 ・ 相関計算部分をUCCSDで実行、GPU加速によるシミュレータを利用 2024/5/30 102

103.

Ref.; 詳細はhp220352課題の報告書に記載. 液滴モデルでの対イオンの点電荷扱い 開発; 土居氏、中野氏 ・ S-タンパク質の6XM0の液滴モデルでは完走率が劣化 ・ 対イオン関係のダイマーHFの未収束が多発 ・ 点電荷として扱う(PDB構造からスクリプトで抽出) ・ ABINIT-MP本体も小改造 ・ 結果的に完走率は(ほぼ)100%に ・ Ver. 2 Rev. 12にてリリースの予定 2024/5/30 &CNTRL ElecState='S1' Method='MP2' Nprint=3 Memory=14000 Natom=0 CHARGE=-18 ReadGeom='6xm0-100-200ns-121000ps.pdb' MLfraglimit=3426 / &FMOCNTRL FMO='ON' NBody=2 AutoFrag='OFF' NF=8077 PointChargeFile='6xm0-100-200ns-121000ps.txt' Ldimer=2.0 NP=1 Dimer_es_multipole='YES' Ldimer_cmm=5.0 / 6XLU 6XM0 num_pointcharge= 2334 # atom_num, 96097 1 96098 1 96099 1 96100 1 96101 1 96102 1 96103 1 96104 1 96105 1 96106 1 96107 1 chrg, xyz 234.178 20.915 232.297 224.825 6.761 21.636 17.861 13.768 24.109 10.773 4.577 13.323 239.695 221.975 16.074 17.961 1.789 4.986 15.426 25.798 10.278 17.294 ... Omitted below ... 222.887 3.839 13.063 51.706 102.311 153.156 187.373 149.855 210.188 223.206 84.552 103

104.

Ref.; K. Tanaka et al., Theor. Chem. Acc. 117 (2007) 397. FCIエンジンは(前に)開発済 田中先生(北大名誉教授) 2024/5/30 ・ CSF展開でスピン汚染の問題は無し ・ 2体の結合定数は1体のもので因子分解 ・ 閉殻部分と開殻部分を分けて取り扱い ・ σベクトルの構築はMPIで並列化 104

105.

FMO計算と量子計算(UCCSD)の接続の試み J. Comp. Chem., https://onlinelibrary.wiley.com/doi/full/10.1002/jcc.27438 杉﨑先生(慶應大) 2024/5/30 ・ 相関計算部分をUCCSD計算で置き換え ・ 2つの水素結合系でテスト ・ cuQuantumシミュレータでのGPU加速 ・ 実はFMO-CCSD(T)より数万倍遅い… ・ size-consistencyやorbital-invariance の問題を提起 ・ Trotter分解のエラーが顕在化 ・ 局在化軌道を使う方がベター ・ 「基礎研究」の位置づけ 105

106.

まとめ 2024/5/30 106

107.

ABINIT-MPによるFMO計算 (その2) ◇高次相関計算 DGEMM主体のテンソル縮約処理が主、(T)はベンチマーク向け ◇新型コロナの特別PJ Mproでは統計的な相互作用評価、S-タンパク質では鎖間の相互作用解析 高速化と大規模系対応の動機づけ (応用計算を自ら手掛けたことでの気付き) ◇高速化と大規模系への対応 A64FX向けでは積分生成のSIMD化など、Ver. 1 Rev. 22比でMP2計算は1.5倍 インフルHA3量体の水和モデルで1.1万フラグメントをMP3で達成 SX-AT向けチューニングも並走 ◇「富岳」時代のFMO計算 古典MD-FMO連携による構造ゆらぎの考慮、2万フラグメントの液滴モデル 計算結果の解析における機械学習やデータ科学の援用 FMO-DPDによるマルチスケールシミュレーション 長時間のご聴講、ありがとうございました 2024/5/30 107

108.

ABINIT-MPによるFMO計算のロードマップ 2004年 2010年 2008年 2015年 2013年 2020年 核内受容体(ER) ~300残基 粗視化MD用 結晶-ペプチド複合系 パラメータ 新型コロナウイルス インフルエンザHA インフルエンザHA3量体 ~(SiO ) -6残基-水和 ~数万サンプル 抗原抗体系~5300残基 2 250 抗原抗体系~1000残基 抗原抗体系~2400残基 mFruits 水和DNA EGFR インフルエンザNA 12塩基対+2500wtr チロシンキナーゼ タミフル~400残基 計算 MP2 CIS/CIS(D) 構造 PDB一点計算/ モデル埋戻し MP3 CCSD(T) FMO4 CD FMO-MD 解析 IFIE CAFI FILM 電荷、溶媒効果 2024/5/30 リガンド水和 10Å水和層 粗視化→原子復元構造 ~1万原子×サンプル数 Dimer-ES CMM MP2(p-opt) LRD FMO-DPD PIEDA BSSE FMO4-IFIE ESP/RESP 分子固体 ~千個単位 NPA SCIFIE SVD PB(SA) MD生成 多構造 統計/ML 大型液滴 108