第5回配信講義計算科学技術特論B（2024）

計算科学特論B 第5回アプリケーションの性能最適化の実例２ジャパンメディカルデバイス株式会社熊畑清 2024.5.16(⽊)

講義の概要 • 4⽉11⽇スーパーコンピュータとアプリケーションの性能 • 4⽉18⽇アプリケーションの性能最適化１(⾼並列性能最適化) • 4⽉25⽇アプリケーションの性能最適化の実例1とCPU単体性能 • 5⽉9⽇アプリケーションの性能最適化2（CPU単体性能最適化） • 5⽉16⽇アプリケーションの性能最適化の実例2 2

3.

本⽇の内容 • • 流体解析ソルバーでの例 • • キャッシュ利⽤効率の改善・スレッド並列化の⽅法の⼯夫ストアのシーケンシャル化 • ストリーム削減・セクタキャッシュ・プリフェッチ乱流燃焼コードでの例 • • インライン展開のやり過ぎに注意⼩回転ループはさけたい • • OpenMPのスケジュール調整重複した処理の回避 • 配列初期化時の性能劣化 • その他Tips • なるべく⻑いループでSIMDに • Z-Fillの効果 • ifを含むループはリストベクトル化 • 多次元配列の配列初期化 3

4.

流体解析ソルバーキャッシュ利⽤効率の改善スレッド並列化の⽅法の⼯夫

5.

チューニング対象カーネル要素圧力モードでの処理時間内訳，上位10件速度 1.89 2.10 2.95 4.83 14.11 全体 #$%#$ 単位( 秒 8.32 13.04 callap._PRL_2_ calaxc_ fild3x._PRL_1_ callap_ vel3d1._PRL_16_ int3dx_ callap._PRL_5_ vel3d1._PRL_8_ vel3d1_ nodlex_ 速度・圧⼒圧⼒速度速度速度・圧⼒要素圧⼒モード速度・圧⼒節点圧⼒モード • 10万個の4面体要素＋α • 14.11s(30%)が4面体要素の勾配計算 • 13.04s(27%)が疎行列ベクトル積 • 8.32s（17%)が4面体要素の発散計算 • Callap._PRL_2_のチューニングを実施 5

6.

チューニング対象カーネル DO ICOLOR=1,NCOLOR(1) IES=LLOOP(ICOLOR ,1)+1 IEE=LLOOP(ICOLOR+1,1) DO IE=IES,IEE・・・・・・・ここで並列 IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) SWRK=S(IE) FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) FY(IP1)=FY(IP1)-SWRK*DNY(1,IE) FY(IP2)=FY(IP2)-SWRK*DNY(2,IE) FY(IP3)=FY(IP3)-SWRK*DNY(3,IE) FY(IP4)=FY(IP4)-SWRK*DNY(4,IE) FZ(IP1)=FZ(IP1)-SWRK*DNZ(1,IE) FZ(IP2)=FZ(IP2)-SWRK*DNZ(2,IE) FZ(IP3)=FZ(IP3)-SWRK*DNZ(3,IE) FZ(IP4)=FZ(IP4)-SWRK*DNZ(4,IE) ENDDO ENDDO 4角形要素について∇pの有限要素近似を計算するループ ¶N j ¶p Ñp = @å pe ¶xi j =1 ¶xi 型配列名とサイズ INTEGER*4 NODE(9,NE) REAL*4 S(NE) DNX(9,NE), DNY(9,NE), REAL*4 DNZ(9,NE) REAL*4 FX(NP), FY(NP), FZ(NP) 内容節点リスト圧力形状関数の導関数圧力勾配ベクトル 6

7.

チューニング対象カーネル DO ICOLOR=1,NCOLOR(1) IES=LLOOP(ICOLOR ,1)+1 IEE=LLOOP(ICOLOR+1,1) DO IE=IES,IEE・・・・・・・ここで並列 IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) SWRK=S(IE) FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) FY(IP1)=FY(IP1)-SWRK*DNY(1,IE) FY(IP2)=FY(IP2)-SWRK*DNY(2,IE) FY(IP3)=FY(IP3)-SWRK*DNY(3,IE) FY(IP4)=FY(IP4)-SWRK*DNY(4,IE) FZ(IP1)=FZ(IP1)-SWRK*DNZ(1,IE) FZ(IP2)=FZ(IP2)-SWRK*DNZ(2,IE) FZ(IP3)=FZ(IP3)-SWRK*DNZ(3,IE) FZ(IP4)=FZ(IP4)-SWRK*DNZ(4,IE) ENDDO ENDDO 4角形要素について∇pの有限要素近似を計算するループ ¶N j ¶p Ñp = @å pe ¶xi j =1 ¶xi FX(1) FX(2) FX(3) FX(4) S(1)*DNX(1,1) S(1)*DNX(2,1) S(2)*DNX(1,2) S(2)*DNX(2,2) S(3)*DNX(1,3) S(3)*DNX(2,3) S(1)*DNX(4,1) S(1)*DNX(3,1) S(2)*DNX(4,2) S(2)*DNX(3,2) S(3)*DNX(4,3) S(3)*DNX(3,3) FX(5) FX(6) FX(7) FX(8) 7

8.

チューニング対象カーネル DO ICOLOR=1,NCOLOR(1) IES=LLOOP(ICOLOR ,1)+1 IEE=LLOOP(ICOLOR+1,1) DO IE=IES,IEE・・・・・・・ここで並列 IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) SWRK=S(IE) FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) FY(IP1)=FY(IP1)-SWRK*DNY(1,IE) FY(IP2)=FY(IP2)-SWRK*DNY(2,IE) FY(IP3)=FY(IP3)-SWRK*DNY(3,IE) FY(IP4)=FY(IP4)-SWRK*DNY(4,IE) FZ(IP1)=FZ(IP1)-SWRK*DNZ(1,IE) FZ(IP2)=FZ(IP2)-SWRK*DNZ(2,IE) FZ(IP3)=FZ(IP3)-SWRK*DNZ(3,IE) FZ(IP4)=FZ(IP4)-SWRK*DNZ(4,IE) ENDDO ENDDO カラーリングによりデータ依存が⽣ずる要素を別のグループ(カラー)に分ける 1 5 2 6 1 5 9 13 10 14 9 13 10 14 3 7 3 7 4 8 11 15 12 16 2 4 6 8 11 15 12 16 要素(メッシュ) 配列 LLOOP/NODE/DNX〜Zメモリ上配置 1 2 3 4 カラー1 5 6 7 8 ・・・カラー2 ・・・ 9 10 11 12 13 14 15 16 カラー3 カラー4 8

9.

性能評価要求バイト数の算出配列FX,FY,FZ • 配列NODEの値に依存するリストアクセス故にシーケンシャルではない • 再利用性がある • リストによって変化してしまい一概には算出できない DO IE=IES, IEE IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) FX(1) FX(2) FX(4) FX(3) リストアクセス FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) ENDDO S(4)*DNX(1,4) S(4)*DNX(2,4) FX(5) S(N)*DNX(2,N) S(2)*DNX(1,2) S(4)*DNX(3,4) S(N)*DNX(4,N) FX(6) S(2)*DNX(2,2) IE=2 IE=N IE=1 S(4)*DNX(4,4) S(N)*DNX(1,N) S(N)*DNX(3,N) S(2)*DNX(4,2) FX(7) S(2)*DNX(3,2) FX(8) 9

10.

性能評価要求バイト数の算出配列FX,FY,FZ • 配列NODEの値に依存するリストアクセス故にシーケンシャルではない • 再利用性がある • リストによって変化してしまい一概には算出できない IE=IE+1 YES DO IE=IES, IEE 終了か IP1=NODE(1,IE) IP2=NODE(2,IE) NO IP3=NODE(3,IE) IP1=NODE(1,IE) IP4=NODE(4,IE) FX(IP1) 最後リストアクセス IE=1 IE=2 IE=3 FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) キャッシュ 4 1,3 10 ENDDO 再利⽤性 FX(100) IE=4 IE=5 ・・・・ IE=ME 100 3 2 Elem 1 2 10 25 n 5 1 IEごとに触る 4 Elem 配列FXの成分 2 3 51 全てこの範囲で収まるのが理想的従って理論性能の算出に当たり，メモリプレッシャーはないと仮定する 10

11.

性能評価要求バイト数の算出配列S • 再内のループ変数IEに従い連続アクセス • 再利用性はない • 1回目のアクセスでキャッシュミスし1ライン分128Byteがメモリから転送される DO IE=IES,IEE ・・・ SWRK=S(IE) ・・・ ENDDO • ループ1回転で4Byte、128Byteでは32回転を賄える • メモリプレッシャーは32回転につき128Byte ・・・ 17 18 19 6 20 7 21 8 22 9 23 10 24 11 25 12 26 13 27 14 28 15 29 16 30 ・・・ 31 32 ↑ S(1)でキャッシュミス ↑ 1 2 3 4 5 S(32)まで1ラインで賄える 1ライン分128Byte＝32個 11

12.

性能評価要求バイト数の算出配列NODE INTEGER*4 NODE(9,NE) • 再内のループ変数IEに従い規則的にアクセス • 再利用性はない • 1回目のアクセスでキャッシュミスし1ライン分128Byteがメモリから転送される • 第1次元のサイズが9でありループ1回転で36Byte、128Byte では3.56回転を賄える • 32回転で9回ミスしメモリプレッシャーは32回転につき 1152Byte NODE(1,1) ↑ 1 2 3 ・・・ 17 4 18 5 19 ↓ 6 20 7 21 NODE(1,3) 8 22 9 23 NODE(1,2) ↑ 10 11 12 24 25 26 13 27 14 28 ↓ DO IE=IES,IEE IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) ENDDO 15 29 16 30 NODE(1,4) ・・・ 31 32 12

13.

性能評価要求バイト数の算出配列DNX, DNY, DNZ INTEGER*4 NODE(9,NE) • 第1次元のサイズが9であり配列NODEと同じ性質 • メモリプレッシャーは32回転につきそれぞれ1152Byte DO IE=IES,IEE ・・DNX(1,IE) ・・DNX(2,IE) ・・DNX(3,IE) ・・DNX(4,IE) ENDDO 使われないがメモリ帯域を使う分を考慮する必要 DNX(1,1) ↑ 1 2 3 4 5 6 7 8 DNX(1,2) ↑ 10 11 12 9 DNX(5～9,1)は使われない・・・ 17 18 19 ↓ 20 21 NODE(1,3) 22 23 24 13 14 15 16 ・・・ DNX(5～9,2)は使われない 25 26 27 DNX(5～9,3)は使われない 28 ↓ 29 30 NODE(1,4) 31 32 13

14.

性能評価 • 要求バイト 128＋1152＋1152×3＝4736Byte 5.0 • 浮動小数点演算数 32回転×24FLOP＝768Flop 3.0 命令実行 2.0 待ち 1.0 メモリアクセス関連待ち • B/F値は 4736/768=6.17 • STREAMベンチマークによる「京」の実効メモリバンド幅は46.6GB/s • 「京」の実効B/F値は46.6/128=0.36 • メモリバンド幅がネックとなり実効上の性能上限は128GFLOPSの 0.36/6.17=5.83% 計算時間内訳 Time [s] 4.0 0.0 1 2 3 4 5 6 7 8 スレッド • 82万個の4面体要素 • マルチスレッドで1.6% • メモリスループットは10.29GB/s • メモリアクセス関連待ちが70%程度 • L1Dキャッシュミス率21% • キャッシュ利用効率が悪い 14

15.

キャッシュの利⽤効率改善 • 配列FX, FY, FZへのアクセスには再利用性がある • 常にオンキャッシュであると仮定(理想的) • 実際の入力データでは再利用性はあるものの，幾何的に近い節点に，近い番号がつけられているとは限らない節点 1 18 1 4 要素１ 2 75 3 40 参照 #$$%&'' FX( 1) + FX(75) ,-. FX(40) /0. FX(18) .1 ()*& + , / + 1=NODE(1,IE) 18=NODE(2,IE) 40=NODE(3,IE) 互いに遠い節点を参照(跳び) 75=NODE(4,IE) キャッシュの利⽤効効率が悪い・・・ FX( 1)=FX( 1)-SWRK*DNX(1,IE) FX(18)=FX(18)-SWRK*DNX(2,IE) FX(40)=FX(40)-SWRK*DNX(3,IE) FX(75)=FX(75)-SWRK*DNX(4,IE) 幾何的に近い節点には近い番号をつける必要 15

16.

キャッシュの利⽤効率改善 • 幾何的に近い節点には近い番号をつける • 行列・ベクトル席の前処理として，バンド幅の縮小や，直接法を用いる際のFill-inの抑制を目的として行や列の並びを変更する手法 • Minimum Degree法, Nested Dissection法, グラフ理論を応用した方法など • 行列を作らずに要素毎に計算する実装なため行や列の並べ替え操作は，節点の番号を入れ替えることに相当 ( 外 ① ③ Object 10 11 5 棙 4 棖 1 棑 2 棒 3 棓 ' 中 ⑨ ⑥ Z ⑪ Y 椃 Axial-Aligned Bounding Box （AABB) 16

17.

キャッシュの利⽤効率改善 • 幾何的に近い節点には近い番号をつける • 行列・ベクトル席の前処理として，バンド幅の縮小や，直接法を用いる際のFill-inの抑制を目的として行や列の並びを変更する手法 • Minimum Degree法, Nested Dissection法, グラフ理論を応用した方法など • 行列を作らずに要素毎に計算する実装なため行や列の並べ替え操作は，節点の番号を入れ替えることに相当 ( 外 ① ① Object 10 11 5 棙 4 棖 1 棑 2 棒 3 棓 ' 中 ⑨ ⑥ Z ⑪ Y 椃 Axial-Aligned Bounding Box （AABB) 17

18.

キャッシュの利⽤効率改善 • 幾何的に近い節点には近い番号をつける • 行列・ベクトル席の前処理として，バンド幅の縮小や，直接法を用いる際のFill-inの抑制を目的として行や列の並びを変更する手法 • Minimum Degree法, Nested Dissection法, グラフ理論を応用した方法など • 行列を作らずに要素毎に計算する実装なため行や列の並べ替え操作は，節点の番号を入れ替えることに相当 ( 外 ① ① Object 10 11 5 棙 4 棖 1 棑 2 棒 3 棓 ' 中 ⑨ ② Z ⑪ Y 椃 Axial-Aligned Bounding Box （AABB) 18

19.

キャッシュの利⽤効率改善 • 幾何的に近い節点には近い番号をつける • 行列・ベクトル席の前処理として，バンド幅の縮小や，直接法を用いる際のFill-inの抑制を目的として行や列の並びを変更する手法 • Minimum Degree法, Nested Dissection法, グラフ理論を応用した方法など • 行列を作らずに要素毎に計算する実装なため行や列の並べ替え操作は，節点の番号を入れ替えることに相当 ( 外 ① ① Object 10 11 5 棙 4 棖 1 棑 2 棒 3 棓 ' 中 ③ ② Z ⑪ Y 椃 Axial-Aligned Bounding Box （AABB) 19

20.

キャッシュの利⽤効率改善 • 幾何的に近い節点には近い番号をつける • 行列・ベクトル席の前処理として，バンド幅の縮小や，直接法を用いる際のFill-inの抑制を目的として行や列の並びを変更する手法 • Minimum Degree法, Nested Dissection法, グラフ理論を応用した方法など • 行列を作らずに要素毎に計算する実装なため行や列の並べ替え操作は，節点の番号を入れ替えることに相当 ( 外 ④ ① Object 10 11 5 棙 4 棖 1 棑 2 棒 3 棓 ' 中 ③ ② Z ⑪ Y 椃 Axial-Aligned Bounding Box （AABB) 20

21.

キャッシュの利⽤効率改善 • 幾何的に近い節点には近い番号をつける • 行列・ベクトル席の前処理として，バンド幅の縮小や，直接法を用いる際のFill-inの抑制を目的として行や列の並びを変更する手法 • Minimum Degree法, Nested Dissection法, グラフ理論を応用した方法など • 行列を作らずに要素毎に計算する実装なため行や列の並べ替え操作は，節点の番号を入れ替えることに相当 ( 外 ④ ① Object 10 11 5 棙 4 棖 1 棑 2 棒 3 棓 ' 中 ③ ② Z ⑤ Y 椃 Axial-Aligned Bounding Box （AABB) 21

22.

キャッシュの利⽤効率改善 • 幾何的に近い節点に近い番号がつけられた • 幾何的に近い節点の情報が，メモリ上でも近い位置になるようにメモリ上でソートしておく節点○の配置 ② 直⽅体1 ① ③ ⑤ ⑧ ④ ⑨ ⑥ ⑦ ⑪ ⑩ リオーダリング ④ ① ⑤ ② ③ ⑥ ⑪ ⑩ ⑦ ⑧ ⑨ 直⽅体2 index 節点の情報を保持する配列の並び 1 2 3 4 5 6 7 8 9 10 11 節点情報 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ index 1 2 3 4 5 6 7 8 9 10 11 節点情報 ④ ⑩ ① ⑦ ⑤ ② ⑧ ⑨ ③ ⑪ ⑥ index 1 2 3 4 5 6 7 8 9 10 11 節点情報 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ 幾何的に近い節点でもメモリ上は遠い番号の付け直しとメモリ上でのソート幾何的に近い節点はメモリ上でも近い 22

23.

Appendix) リオーダーの効果同じアプリの別部分 DO I=1,N IDX=LIST(I) V=ARRAY(IDX) ・・・ ENDDO 図は、横軸がループの回転、縦軸が、そのループでアクセスする配列インデックスを⽰したもの e r o f Be ４面体要素６面体要素 ※一部抜粋 23

24.

Appendix) リオーダーの効果同じアプリの別部分 DO I=1,N IDX=LIST(I) V=ARRAY(IDX) ・・・ ENDDO 図は、横軸がループの回転、縦軸が、そのループでアクセスする配列インデックスを⽰したもの A r e ft ４面体要素６面体要素 ICRS=1～5M 24

25.

Appendix) リオーダーの効果同じアプリの別部分 After(6⾯対) スレッド4 スレッド3 スレッド2 スレッド1 スレッド0 Before(6⾯体) 25

26.

スレッド並列化の⽅法の⼯夫 • 要素のカラーリング領域全体で行っているので，最内ループで中には幾何的に遠い要素が出現する • 参照する節点がメモリ上でも遠い位置あり不利メッシュカラーリング要素1個 26

27.

スレッド並列化の⽅法の⼯夫 • 要素のカラーリング領域全体で行っているので，最内ループで中には幾何的に遠い要素が出現する • 参照する節点がメモリ上でも遠い位置あり不利最内ループ1単位分カラーリング 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 27

28.

スレッド並列化の⽅法の⼯夫 • 要素のカラーリング領域全体で行っているので，最内ループで中には幾何的に遠い要素が出現する • 参照する節点がメモリ上でも遠い位置あり不利最内ループ1単位分 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 メモリ上・・・キャッシュから外れる可能性・・・カラー内に含まれる要素を，幾何的に近いものにする必要 28

29.

スレッド並列化の⽅法の⼯夫 • カラー内に含まれる要素を，幾何的に近いものにする • ブロックで動くループが追加 1ノード分の計算領域ブロック化 □ はブロック1個 R B R G Y G R B R カラーリング □ は要素1個 DO IBLOCK=1,NBLOCK(1) DO ICOLOR=1,NCOLOR(IBLOCK,1) IES=LLOOP(IBLOCK,ICOLOR ,1)+1 IEE=LLOOP(IBLOCK,ICOLOR+1,1) DO IE=IES,IEE・・・・・・・ここで並列 IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) SWRK=S(IE) FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) FY(IP1)=FY(IP1)-SWRK*DNY(1,IE) FY(IP2)=FY(IP2)-SWRK*DNY(2,IE) FY(IP3)=FY(IP3)-SWRK*DNY(3,IE) FY(IP4)=FY(IP4)-SWRK*DNY(4,IE) FZ(IP1)=FZ(IP1)-SWRK*DNZ(1,IE) FZ(IP2)=FZ(IP2)-SWRK*DNZ(2,IE) FZ(IP3)=FZ(IP3)-SWRK*DNZ(3,IE) FZ(IP4)=FZ(IP4)-SWRK*DNZ(4,IE) ENDDO ENDDO ENDDO 29

30.

スレッド並列化の⽅法の⼯夫ブロックの大きさ(含む要素数)について検討 1要素当たりの必要メモリ量ケースNo IP1=NODE(1,IE) NODE(1～9, IE) IP2=NODE(2,IE) 36バイト IP3=NODE(3,IE) IP4=NODE(4,IE) SWRK=S(IE) S(IE)→4バイト FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) DNX(1-9,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) 36バイト FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) FZ(IP1)=FZ(IP1)-SWRK*DNZ(1,IE) DNZ(1-9,IE) FZ(IP2)=FZ(IP2)-SWRK*DNZ(2,IE) 36バイト FZ(IP3)=FZ(IP3)-SWRK*DNZ(3,IE) FZ(IP4)=FZ(IP4)-SWRK*DNZ(4,IE) FX(IP1～IP4) FY(IP1～IP4) FZ(IP1～IP4) 48バイト 196バイト/要素 on L1 on L2 1 640 1291 247.1 30.9 ○ ○ 2 320 2583 494.4 61.8 × ○ 3 160 5166 988.8 123.6 × ○ 4 80 10333 1977.8 247.2 × ○ 5 40 20666 3955.6 494.5 × ○ 6 20 41332 7911.2 988.9 × × 7 10 82665 15822.6 1977.8 × × 8 5 165331 31645.4 3955.7 × × 9 3 275552 52742.4 6592.8 × × 10 2 413328 79113.6 9889.2 × × 11 1 826656 158227.1 19778.4 × × 1000000 100000 アクセスデータ量 [KB] FY(IP1)=FY(IP1)-SWRK*DNY(1,IE) DNY(1-9,IE) FY(IP2)=FY(IP2)-SWRK*DNY(2,IE) 36バイト FY(IP3)=FY(IP3)-SWRK*DNY(3,IE) FY(IP4)=FY(IP4)-SWRK*DNY(4,IE) ブロック平均要素数/ アクセスデー 1スレッド当り分割数ブロックタ量 [KB] メモリ [KB] 10000 1000 100 ブロック当たりにアクセスするデータ量 10 1 1000 10000 100000 1000000 平均要素数/ブロック (対数表示) 30

31.

スレッド並列化の⽅法の⼯夫ブロックの大きさ(含む要素数)について検討 2.00% 40000 ピーク性能比 % インデックスの飛びピーク性能比 30000 20000 10000 0 1000 10000 100000 平均要素数/ブロック (対数表示) 1 1000000 1.50% 1.00% 0.50% 0.00% 1000 10000 100000 1000000 平均要素数/ブロック (対数表示) 301 アクセスの跳び =301-1=300 100 88 31

32.

スレッド並列化の⽅法の⼯夫ブロックの大きさ(含む要素数)について検討ブロック平均要素数/ 平均カラー数平均要素数/ 平均最内回分割数ブロック /ブロックカラー転数/スレッド 1 640 1291 37.4 34.0 4 2 320 2583 38.7 66.0 8 3 160 5166 39.7 130.0 16 4 80 10333 41.0 252.0 32 5 40 20666 41.5 498.0 62 6 20 41332 42.1 981.0 123 7 10 82665 42.2 1958.0 245 8 5 165331 42.6 3881.0 485 9 3 275552 43.7 6310.0 789 10 2 413328 43.5 9501.0 1188 11 1 826656 44.0 18787.0 2348 2500 平均最内回転数/スレッドケースNo 2000 最内ループ平均回転数/スレッド 1500 1000 最内ループ回転数が⼩さくなりすぎた回転数不⾜の回避が必要 500 0 1000 10000 100000 1000000 平均要素数/ブロック (対数表示) 32

33.

スレッド並列化の⽅法の⼯夫 • カラー内に含まれる要素を，幾何的に近いものにする • ブロックとカラーの関係を反転 1ノード分の計算領域ブロック化 □ はブロック1個カラーリング DO ICOLOR=1,NCOLOR(1) DO IBLOCK=1,NBLOCK(IBLOCK,1) IES=LLOOP(IBLOCK,ICOLOR ,1)+1 IEE=LLOOP(IBLOCK,ICOLOR+1,1) DO IE=IES,IEE IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) SWRK=S(IE) FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) FY(IP1)=FY(IP1)-SWRK*DNY(1,IE) FY(IP2)=FY(IP2)-SWRK*DNY(2,IE) FY(IP3)=FY(IP3)-SWRK*DNY(3,IE) FY(IP4)=FY(IP4)-SWRK*DNY(4,IE) FZ(IP1)=FZ(IP1)-SWRK*DNZ(1,IE) FZ(IP2)=FZ(IP2)-SWRK*DNZ(2,IE) FZ(IP3)=FZ(IP3)-SWRK*DNZ(3,IE) FZ(IP4)=FZ(IP4)-SWRK*DNZ(4,IE) ENDDO ENDDO ENDDO 33

34.

スレッド並列化の⽅法の⼯夫 DO ICOLOR=1,NCOLOR(1) DO IBLOCK=1,NBLOCK(IBLOCK,1) ここで並列 IES=LLOOP(IBLOCK,ICOLOR ,1)+1 IEE=LLOOP(IBLOCK,ICOLOR+1,1) DO IE=IES,IEE IP1=NODE(1,IE) IP2=NODE(2,IE) IP3=NODE(3,IE) IP4=NODE(4,IE) SWRK=S(IE) FX(IP1)=FX(IP1)-SWRK*DNX(1,IE) FX(IP2)=FX(IP2)-SWRK*DNX(2,IE) FX(IP3)=FX(IP3)-SWRK*DNX(3,IE) FX(IP4)=FX(IP4)-SWRK*DNX(4,IE) • カラー内に含まれる要素を，幾何的に近いものにする • ブロックとカラーの関係を反転 1ノード分の計算領域ブロック化 □ はブロック1個ブロックの中には複数の要素ブロックをカラーリング FY(IP1)=FY(IP1)-SWRK*DNY(1,IE) FY(IP2)=FY(IP2)-SWRK*DNY(2,IE) FY(IP3)=FY(IP3)-SWRK*DNY(3,IE) FY(IP4)=FY(IP4)-SWRK*DNY(4,IE) FZ(IP1)=FZ(IP1)-SWRK*DNZ(1,IE) FZ(IP2)=FZ(IP2)-SWRK*DNZ(2,IE) FZ(IP3)=FZ(IP3)-SWRK*DNZ(3,IE) FZ(IP4)=FZ(IP4)-SWRK*DNZ(4,IE) ENDDO ENDDO ENDDO 34

35.

スレッド並列化の⽅法の⼯夫 4.00% 最内ループ平均回転数 100000 10000 1000 Before 100 After 10 ピーク性能⽐ 3.50% ピーク性能比 % 平均最内回転数/スレッド (対数表示) 1000000 3.00% 2.50% 2.00% 1.50% 1.00% 0.50% 1 1000 10000 100000 1000000 平均要素数/ブロック (対数表示) • 最内ループの回転数が38～44倍程度まで増大 • ブロックサイズ小の側で性能向上 • 最良の結果は平均最内回転数/スレッドが323回転 0.00% 1000 10000 100000 1000000 平均要素数/ブロック (対数表示) • 平均最内回転数/スレッド=323回転 • ピーク性能比3.78% • L1Dミス率4％ • メモリスループット32GB/s 35

36.

スレッド並列化の⽅法の⼯夫ここまでのチューニングによりオリジナル改善後理想値ピーク性能比(%) 1.6 3.8 5.83 メモリスループット(GB/s) 10.3 32 46 L1Dキャッシュミス率(%) 21.0 3.78 3.13 もう少し改善の余地があるのでは？ 4バイト変数の配列S(N) 2 ・・・ 3 17 4 18 5 19 6 20 7 21 8 22 9 23 10 24 11 25 12 26 13 27 14 28 15 29 16 30 ・・・ 31 32 ↑ 1 S(32)まで1ラインで賄える 1ライン分128Byte＝32個 32回に1回ミスするので1/32=3.125%が理論的なミス率 (ただし全てシーケンシャルな場合なので注意) 36

37.

スレッド並列化の⽅法の⼯夫配列融合によるストリーム削減オリジナル FX(IP1)=FX(IP1)+SWRK*DNX(1,IE) FY(IP1)=FY(IP1)+SWRK*DNY(1,IE) FZ(IP1)=FZ(IP1)+SWRK*DNZ(1,IE) パターン4 FXYZ(1,IP1)=FXYZ(1,IP1)+SWRK*DNXYZ(1,1,IE) FXYZ(2,IP1)=FXYZ(2,IP1)+SWRK*DNXYZ(2,1,IE) FXYZ(3,IP1)=FXYZ(3,IP1)+SWRK*DNXYZ(3,1,IE) パターン1 パターン2 パターン3 パターン4 オリジナル内容パターンNo FXYZ(1,IP1)=FXYZ(1,IP1)-SWRK*DNXYZ(1,1,IE) FX(1,IP1)=FX(1,IP1)-SWRK*DNXYZ(1,IE) FXYZ(1,IP1)=FXYZ(1,IP1)-SWRK*DNX(1,IE) FX(1,IP1)=FX(1,IP1)-SWRK*DNX(1,IE) DNX, DNY, DNZをDNXYZに融合 FX(1,IP2)=FX(1,IP2)-SWRK*DNXYZ(2,IE) FXYZ(1,IP2)=FXYZ(1,IP2)-SWRK*DNX(2,IE) FXYZ(2,IP1)=FXYZ(2,IP1)-SWRK*DNY(1,IE) FXYZ(2,IP1)=FXYZ(2,IP1)-SWRK*DNXYZ(2,1,IE) FX(1,IP2)=FX(1,IP2)-SWRK*DNX(2,IE) 1 FX(1,IP3)=FX(1,IP3)-SWRK*DNX(3,IE) FX(1,IP3)=FX(1,IP3)-SWRK*DNXYZ(3,IE) FXYZ(1,IP3)=FXYZ(1,IP3)-SWRK*DNX(3,IE) FXYZ(3,IP1)=FXYZ(3,IP1)-SWRK*DNZ(1,IE) FXYZ(3,IP1)=FXYZ(3,IP1)-SWRK*DNXYZ(3,1,IE) FX, FY, FZをFXYZに融合 2 FX(1,IP4)=FX(1,IP4)-SWRK*DNX(4,IE) FX(1,IP4)=FX(1,IP4)-SWRK*DNXYZ(4,IE) FXYZ(1,IP4)=FXYZ(1,IP4)-SWRK*DNX(4,IE) FXYZ(1,IP2)=FXYZ(1,IP2)-SWRK*DNX(2,IE) FXYZ(1,IP2)=FXYZ(1,IP2)-SWRK*DNXYZ(1,2,IE) 3 パターン2＋演算淳子変更演算順序パターンNo L1D ピークキャッシュ性能比% ミス率% FXYZ(2,IP2)=FXYZ(2,IP2)-SWRK*DNY(2,IE) FXYZ(2,IP2)=FXYZ(2,IP2)-SWRK*DNXYZ(2,2,IE) FY(2,IP1)=FY(2,IP1)-SWRK*DNXYZ(1,IE) FXYZ(2,IP1)=FXYZ(2,IP1)-SWRK*DNY(1,IE) FY(2,IP1)=FY(2,IP1)-SWRK*DNY(1,IE) パターン3＋パターン1 4 FXYZ(3,IP2)=FXYZ(3,IP2)-SWRK*DNZ(2,IE) FY(2,IP2)=FY(2,IP2)-SWRK*DNXYZ(2,IE) FXYZ(2,IP2)=FXYZ(2,IP2)-SWRK*DNY(2,IE) FXYZ(3,IP2)=FXYZ(3,IP2)-SWRK*DNXYZ(3,2,IE) FY(2,IP2)=FY(2,IP2)-SWRK*DNY(2,IE) FY(2,IP3)=FY(2,IP3)-SWRK*DNXYZ(3,IE) FXYZ(2,IP3)=FXYZ(2,IP3)-SWRK*DNY(3,IE) FY(2,IP3)=FY(2,IP3)-SWRK*DNY(3,IE) FXYZ(1,IP3)=FXYZ(1,IP3)-SWRK*DNX(3,IE) FXYZ(1,IP3)=FXYZ(1,IP3)-SWRK*DNXYZ(1,3,IE) FY(2,IP4)=FY(2,IP4)-SWRK*DNY(4,IE) FY(2,IP4)=FY(2,IP4)-SWRK*DNXYZ(4,IE) FXYZ(2,IP4)=FXYZ(2,IP4)-SWRK*DNY(4,IE) FXYZ(2,IP3)=FXYZ(2,IP3)-SWRK*DNY(3,IE) FXYZ(2,IP3)=FXYZ(2,IP3)-SWRK*DNXYZ(2,3,IE) 要求バイトが変わらないため、理論性能は FXYZ(3,IP3)=FXYZ(3,IP3)-SWRK*DNZ(3,IE) FZ(3,IP1)=FZ(3,IP1)-SWRK*DNZ(1,IE) FZ(3,IP1)=FZ(3,IP1)-SWRK*DNXYZ(1,IE) FXYZ(3,IP1)=FXYZ(3,IP1)-SWRK*DNZ(1,IE) FXYZ(3,IP3)=FXYZ(3,IP3)-SWRK*DNXYZ(3,3,IE) FZ(3,IP2)=FZ(3,IP2)-SWRK*DNXYZ(2,IE) FXYZ(3,IP2)=FXYZ(3,IP2)-SWRK*DNZ(2,IE) FZ(3,IP2)=FZ(3,IP2)-SWRK*DNZ(2,IE) 変化せず FXYZ(1,IP4)=FXYZ(1,IP4)-SWRK*DNX(4,IE) FXYZ(1,IP4)=FXYZ(1,IP4)-SWRK*DNXYZ(1,4,IE) FZ(3,IP3)=FZ(3,IP3)-SWRK*DNXYZ(3,IE) FXYZ(3,IP3)=FXYZ(3,IP3)-SWRK*DNZ(3,IE) FZ(3,IP3)=FZ(3,IP3)-SWRK*DNZ(3,IE) FXYZ(2,IP4)=FXYZ(2,IP4)-SWRK*DNY(4,IE) FXYZ(2,IP4)=FXYZ(2,IP4)-SWRK*DNXYZ(2,4,IE) FZ(3,IP4)=FZ(3,IP4)-SWRK*DNXYZ(4,IE) FXYZ(3,IP4)=FXYZ(3,IP4)-SWRK*DNZ(4,IE) FZ(3,IP4)=FZ(3,IP4)-SWRK*DNZ(4,IE) FXYZ(3,IP4)=FXYZ(3,IP4)-SWRK*DNZ(4,IE) FXYZ(3,IP4)=FXYZ(3,IP4)-SWRK*DNXYZ(3,4,IE) 1 2 34 45 3.95 4.05 4.05 4.41 3.98 3.69 3.69 3.37 メモリスループット GB/s 35.70 35.91 35.88 38.80 37

38.

[beta]

スレッド並列化の⽅法の⼯夫
• 矩形分割ではブロック間に要素数のイン
バランスが生ずる可能性
• 要素のブロック化にMETISを用いて様々
な形状にも対応

オリジナル
形状

均等な要素
を含む複数
ブロックに
分割

)*+,-. /

("!!#
'"!!#
&"!!#
%"!!#

$"!!#
!"!!#
$!!!

各ブロックを
カラーリング
ブロック内には
たくさんの要素

ピーク性能⽐4.58%
L1Dミス率3.41%
メモリスループット
41.22GB/s

ピーク性能⽐
$!!!!

$!!!!!

$!!!!!!

012345678+ 9:4;<=

38

39.

ཧ↷ࡍࡿࡼ࠺ 1 ḟඖ┠ࡀඛ࡟ືࡃࡼ࠺₇⟬㡰ᗎࢆ 㸬ࡍ࡞ࢃࡕ࣮࢝ࢿࣝࡢせồ B/F ್ࡣኚ໬ࡏࡎ⌮ㄽ まとめ ᑡࡋࡓࡓࡵ㸪࢟ࣕࢵࢩࣗࣛ࢖ࣥࡢ➇ྜࡀపῶࡉࢀࡓࡓࡵࣃ ࢱ࣮ࣥ 2/35.0ࡼࡾࡶࡉࡽ࡟㧗࠸ᛶ⬟ࢆ♧ࡋࡓ࡜⪃࠼ࡽࢀࡿ㸬 5.0 83%࡛࠶ࡿ㸬 4.0 ᅗ 18 ࡟ࡇࡇࡲ࡛࡛᭱Ⰻࡢ⤖ᯝࢆᚓࡓ㓄ิ⼥ྜࣃࢱ࣮ࣥ 4 命令実行 4.0 YZ(1,IP1)=FXYZ(1,IP1)-SWRK*DNX(1,IE) 待& YZ(2,IP1)=FXYZ(2,IP1)-SWRK*DNY(1,IE) YZ(3,IP1)=FXYZ(3,IP1)-SWRK*DNZ(1,IE) 3.0 YZ(1,IP2)=FXYZ(1,IP2)-SWRK*DNX(2,IE) YZ(2,IP2)=FXYZ(2,IP2)-SWRK*DNY(2,IE) 2.0 YZ(3,IP2)=FXYZ(3,IP2)-SWRK*DNZ(2,IE) Time[s] 3.0 ࡢྛࢫࣞࢵࢻࡢᐇຠ᫬㛫ෆヂࢆ♧ࡍ㸬ᅗ 2࿨௧ᐇ⾜ ࡟♧ࡋࡓ࢜ࣜࢪ '()*+,-関連待& Time [s] ࠾ࡾ㸪࢟ࣕࢵࢩ࣓ࣗࣔࣜࡢ฼⏝ຠ⋡ࡀᝏ࠸ࡇ࡜ࡀ࣎ࢺࣝࢿ ෆ࣮ࣝࣉ IE ࡢᅇ㌿ෆ࡛࢔ࢡࢭࢫࡉࢀࡿ㓄ิᩘࡀ኱ࡁࡃῶ ࢵࢡ࡟࡞ࡗ࡚࠸ࡿ࡜᥎ ࡉࢀࡿ㸬䝞䝸䜰ྠᮇᚅ䛱 ࢼࣝࢥ࣮ࢻ࡜ẚࡋ࡚ィ⟬᫬㛫඲య࡟༨ࡵࡿ࣓ࣔࣜ࢔ࢡࢭࢫ 2.0 㛵㐃ࡢᚅࡕ࡜ࣂࣜ࢔ྠᮇᚅࡕࡢ๭ྜࡀ኱ᖜ࡟๐ῶࡉࢀ㸪࡯ 䝯䝰䝸䜰䜽䝉䝇 1.0 㛵㐃ᚅ䛱 ࡜ࢇ࡝ࡢ᫬㛫ࢆ࿨௧ᐇ⾜ࡀ༨ࡵࡿࡼ࠺࡟࡞ࡗࡓ㸬඲యࡢᐇ 0.0 YZ(1,IP3)=FXYZ(1,IP3)-SWRK*DNX(3,IE) 1.0 YZ(2,IP3)=FXYZ(2,IP3)-SWRK*DNY(3,IE) YZ(3,IP3)=FXYZ(3,IP3)-SWRK*DNZ(3,IE) 1 2 3 4 5 6 7 8 ຠ᫬㛫ࡶ 4.72 ⛊࠿ࡽ 1.76 ⛊࡬࡜ 2.7 ಸྥୖࡋࡓ㸬䝇䝺䝑䝗 0.0 ケース名内容 ᅗ 17 ࣃࢱ࣮ࣥ 3 㓄ิ FX, FY, FZ ࡢ⼥ྜղ ORG オリジナル (1,IP1)=FXYZ(1,IP1)-SWRK*DNXYZ(1,1,IE) 節点リナンバー，要素ブロック， A (2,IP1)=FXYZ(2,IP1)-SWRK*DNXYZ(2,1,IE) 外側カラー化 (3,IP1)=FXYZ(3,IP1)-SWRK*DNXYZ(3,1,IE) B 配列融合 (1,IP2)=FXYZ(1,IP2)-SWRK*DNXYZ(1,2,IE) (2,IP2)=FXYZ(2,IP2)-SWRK*DNXYZ(2,2,IE) C ブロック化手法改善 (3,IP2)=FXYZ(3,IP2)-SWRK*DNXYZ(3,2,IE) 2.0 C Sec.9 ᅗ 5 ࢫࣞࢵࢻẖࡢᐇ⾜᫬㛫ෆヂ 5. ࣓ࣔࣜ࢔ࢡࢭࢫ㣕ࡧࡢపῶ 1.5 ࿨௧ᐇ⾜ Time[s] YZ(1,IP4)=FXYZ(1,IP4)-SWRK*DNX(4,IE) ORG A B ORG Sec.7 Sec.8 YZ(2,IP4)=FXYZ(2,IP4)-SWRK*DNY(4,IE) YZ(3,IP4)=FXYZ(3,IP4)-SWRK*DNZ(4,IE) ࢟ࣕࢵࢩ࣓ࣗࣔࣜࡢ฼⏝ຠ⋡ࡀᝏ࠸ཎᅉ࡜ࡋ࡚⪃࠼ࡽ 1.0 䝞䝸䜰ྠᮇᚅ䛱 ࢀࡿࡢࡣ㸪᏶඲࡟⌮᝿ⓗ࡞≧ែ࡛ࡣ඲࡚ L1 ࢟ࣕࢵࢩࣗୖ 0.5 䝯䝰䝸䜰䜽䝉䝇 ࡟஌ࡿ࡜ぢ࡞ࡏࡿࡓࡵ↓ど࡛ࡁࡿࡣࡎࡢ㓄ิ FX, FY, FZ ࡬ 㛵㐃ᚅ䛱 0.0 ࡢ࢔ࢡࢭࢫࡀ㸪ࡇࡇ࡛⏝࠸࡚࠸ࡿ⌧ᐇⓗ࡞ධຊࢹ࣮ࢱ࡛ࡣ 1 2 3 4 5 6 7 8 䝇䝺䝑䝗 ⌮᝿≧ែ࠿ࡽ኱ࡁࡃࡎࢀ࡚࠾ࡾ㸪ࡑࡢࡓࡵ࣓ࣔࣜ࢔ࢡࢭࢫ 39

40.

流体解析ソルバーストアのシーケンシャル化

41.

チューニング対象ルーチン • メインループ（時間積分ループ）の内訳 33% • 入力データは単純な6面体要素の形状で，1プロセスあたり 100万要素 • 全体では24プロセスで，京で1ノード1プロセス，1プロセス8スレッド実行 • GRAD, DIV) 質量保存（ポアソン方程式）関係 • MOM, AXmult) 運動量関係 • CONV) データの変換 • COMM) 通信 • MISC) 色々雑多 • OTHER, 個別に扱えない細かいものの合計一番重たいGRADを対象とする 41

42.

チューニング対象カーネル Initialize array to zero Element Wise Product of vector (Hadamard Product) A={a1, a2, …, an} B={b1, b2, …, bn} C={c1, c2, …, cn} ci = ai bi Data Structure Conversion Main Calculation Ingredient of routine GRAD 42

43.

カーネル処理内容 1 Elem.1 1 Vertex この節点は要素１の頂点３要素２の頂点１要素３の頂点２要素４の頂点１ Pressure P1 rtex Ve 3 Elem.4 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 rtex Ve 1 DO iCOL=1,iNUM_COLOR 2 DO iBLK=1,iNUM_BLOCK(iCOL) Multi-Thread 3 iHEAD=iHEAD_ELEM(iBLK,iCOL) 4 iTAIL=iTAIL_ELEM(iBLK,iCOL) 5 DO iE=iHEAD, iTIAL 6 iN1=iNODE(1,iE) 7 iN2=iNODE(2,iE) ・・・・・・ 13 iN8=iNODE(8,iE) 14 fP=fPRES(iE) 15 16 fDP(1,iN1)+=fP*fDN(1,1,iE) 17 fDP(2,iN1)+=fP*fDN(2,1,iE) 18 fDP(3,iN1)+=fP*fDN(3,1,iE) 19 20 fDP(1,iN2)+=fP*fDN(1,2,iE) 21 fDP(2,iN2)+=fP*fDN(2,2,iE) 22 fDP(3,iN2)+=fP*fDN(3,2,iE) ・・・・・・ 44 fDP(1,iN8)+=fP*fDN(1,8,iE) 45 fDP(2,iN8)+=fP*fDN(2,8,iE) 46 fDP(3,iN8)+=fP*fDN(3,8,iE) 47 ENDDO 48 ENDDO 49 ENDDO 2 2 Vertex 前ページの事例の最終状態(のすこし違うVer) x2 Verte Vertex 3 4 Ni,j は有限要素法の形状関数で，要素iの頂点jごと定義されている，たとえば，N1,1 と N4,3 は一見同じ位置にあるが，違うもの中央の節点における圧力勾配は以下の計算となる 43 43

44.

データ構造 Elements Region Blocked Colored 1 5 2 6 9 13 10 14 3 7 4 8 11 15 12 16 Elements were sorted and renumbered in data Red Elements 1 2 3 Blue Yellow … 100 101 102 103 … 200 … 401 402 403 … 500 … 801 802 803 … 900 … 120112021203 … 1300 … Blk.1 iHEAD for Blk.1 Green Blk.2 iTAIL for Blk.1 Blk.5 Blk.9 Blk.13 44

45.

性能評価 Runnig Time Performance Ratio to 128GFLOPS Memory throughput 91.5 sec 6.6 GFLOPS 5.2 % 26.8 GB/S Peak value is 46GB/s by STREAM bench. 前ページの事例と同じように，B/Fから理想的な性能を求めると京では13% (16.7GFLOPS/NODE)出るとの見積見積方法) 最内ループ1回転，つまり1要素当たり132Byte使う．一方演算量は48FLOPなので B/F=132/48=2.75 実効のメモリバンド幅はストリームベンチマークから46GB．演算性能は128GFLOPS/ノードなので，B/Fの上限はB/F=46/128=0.36 その比から 0.36/2.75=13% 45

46.

何がボトルネックか︖ 1 Elem.1 1 Vertex ¶N ì ¶N ü ÑP1 + = í 1,1 P1 , 1,1 P1 ý ¶y î ¶x þ Vertex 1 2 Vertex x2 Verte ①For Elem.1 2 Vertex 2 ¶N ì ¶N ü ÑP2 + = í 1, 2 P1 , 1, 2 P1 ý ¶y î ¶x þ Vertex 3 ¶N ì ¶N ü ÑP3 + = í 1,3 P1 , 1,3 P1 ý ¶y î ¶x þ rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 ②For Elem.2 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 プロファイラで実行時間内訳をみてみると • メモリアクセス待ち時間が多かった • ストア命令がたくさん出ていた ¶N 2,1 ü ì ¶N ¶N 2, 2 ü ì ¶N ÑP3 + = í 2,1 P2 , P2 ý ÑP2 + = í 2, 2 P2 , P2 ý ¶ x ¶ y ¶y î þ î ¶x þ ¶N 2,3 ü ì ¶N ÑP4 + = í 2,3 P2 , P2 ý ¶y î ¶x þ ③For Elem.3 ・・・略・・・ ④For Elem.4 ストアが多かった理由 ¶N 4,1 ü ì ¶N ÑP3 + = í 4,1 P4 , P4 ý ¶y î ¶x þ • ひとつの節点を複数の要素で共有していて，違うタイミングで同じ節点に何度もストアされる ¶N 4,3 ü ì ¶N ÑP1 + = í 4,3 P4 , P4 ý ¶y î ¶x þ ¶N 4, 2 ü ì ¶N ÑP5 + = í 4, 2 P4 , P4 ý ¶y î ¶x þ 節点への足しこみ(A=A+B)があるので • SIMDとソフトウェアパイプラインが出来ない 46

47.

何がボトルネックか︖ 1 Elem.1 1 Vertex ¶N ì ¶N ü ÑP1 + = í 1,1 P1 , 1,1 P1 ý ¶y î ¶x þ Vertex 1 2 Vertex x2 Verte ①For Elem.1 2 Vertex 2 ¶N ì ¶N ü ÑP2 + = í 1, 2 P1 , 1, 2 P1 ý ¶y î ¶x þ Vertex 3 ¶N ì ¶N ü ÑP3 + = í 1,3 P1 , 1,3 P1 ý ¶y î ¶x þ rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 ②For Elem.2 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 プロファイラで実行時間内訳をみてみると • メモリアクセス待ち時間が多かった • ストア命令がたくさん出ていた ¶N 2,1 ü ì ¶N ¶N 2, 2 ü ì ¶N ÑP3 + = í 2,1 P2 , P2 ý ÑP2 + = í 2, 2 P2 , P2 ý ¶ x ¶ y ¶y î þ î ¶x þ ¶N 2,3 ü ì ¶N ÑP4 + = í 2,3 P2 , P2 ý ¶y î ¶x þ ③For Elem.3 ・・・略・・・ ④For Elem.4 ストアが多かった理由 ¶N 4,1 ü ì ¶N ÑP3 + = í 4,1 P4 , P4 ý ¶y î ¶x þ • ひとつの節点を複数の要素で共有していて，違うタイミングで同じ節点に何度もストアされる ¶N 4,3 ü ì ¶N ÑP1 + = í 4,3 P4 , P4 ý ¶y î ¶x þ ¶N 4, 2 ü ì ¶N ÑP5 + = í 4, 2 P4 , P4 ý ¶y î ¶x þ 節点への足しこみ(A=A+B)があるので • SIMDとソフトウェアパイプラインが出来ない 47

48.

何がボトルネックか︖ 1 Elem.1 1 Vertex ¶N ì ¶N ü ÑP1 + = í 1,1 P1 , 1,1 P1 ý ¶y î ¶x þ Vertex 1 2 Vertex x2 Verte ①For Elem.1 2 Vertex 2 ¶N ì ¶N ü ÑP2 + = í 1, 2 P1 , 1, 2 P1 ý ¶y î ¶x þ Vertex 3 ¶N ì ¶N ü ÑP3 + = í 1,3 P1 , 1,3 P1 ý ¶y î ¶x þ rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 ②For Elem.2 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 プロファイラで実行時間内訳をみてみると • メモリアクセス待ち時間が多かった • ストア命令がたくさん出ていた ¶N 2,1 ü ì ¶N ¶N 2, 2 ü ì ¶N ÑP3 + = í 2,1 P2 , P2 ý ÑP2 + = í 2, 2 P2 , P2 ý ¶ x ¶ y ¶y î þ î ¶x þ ¶N 2,3 ü ì ¶N ÑP4 + = í 2,3 P2 , P2 ý ¶y î ¶x þ ③For Elem.3 ・・・略・・・ ④For Elem.4 ストアが多かった理由 ¶N 4,1 ü ì ¶N ÑP3 + = í 4,1 P4 , P4 ý ¶y î ¶x þ • ひとつの節点を複数の要素で共有していて，違うタイミングで同じ節点に何度もストアされる ¶N 4,3 ü ì ¶N ÑP1 + = í 4,3 P4 , P4 ý ¶y î ¶x þ ¶N 4, 2 ü ì ¶N ÑP5 + = í 4, 2 P4 , P4 ý ¶y î ¶x þ 節点への足しこみ(A=A+B)があるので • SIMDとソフトウェアパイプラインが出来ない 48

49.

何がボトルネックか︖ 1 Elem.1 1 Vertex ¶N ì ¶N ü ÑP1 + = í 1,1 P1 , 1,1 P1 ý ¶y î ¶x þ Vertex 1 2 Vertex x2 Verte ①For Elem.1 2 Vertex 2 ¶N ì ¶N ü ÑP2 + = í 1, 2 P1 , 1, 2 P1 ý ¶y î ¶x þ Vertex 3 ¶N ì ¶N ü ÑP3 + = í 1,3 P1 , 1,3 P1 ý ¶y î ¶x þ rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 ②For Elem.2 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 プロファイラで実行時間内訳をみてみると • メモリアクセス待ち時間が多かった • ストア命令がたくさん出ていた ¶N 2,1 ü ì ¶N ¶N 2, 2 ü ì ¶N ÑP3 + = í 2,1 P2 , P2 ý ÑP2 + = í 2, 2 P2 , P2 ý ¶ x ¶ y ¶y î þ î ¶x þ ¶N 2,3 ü ì ¶N ÑP4 + = í 2,3 P2 , P2 ý ¶y î ¶x þ ③For Elem.3 ・・・略・・・ ④For Elem.4 ストアが多かった理由 ¶N 4,1 ü ì ¶N ÑP3 + = í 4,1 P4 , P4 ý ¶y î ¶x þ • ひとつの節点を複数の要素で共有していて，違うタイミングで同じ節点に何度もストアされる ¶N 4,3 ü ì ¶N ÑP1 + = í 4,3 P4 , P4 ý ¶y î ¶x þ ¶N 4, 2 ü ì ¶N ÑP5 + = í 4, 2 P4 , P4 ý ¶y î ¶x þ 節点への足しこみ(A=A+B)があるので • SIMDとソフトウェアパイプラインが出来ない 49

50.

何がボトルネックか︖ 1 Elem.1 1 Vertex ¶N ì ¶N ü ÑP1 + = í 1,1 P1 , 1,1 P1 ý ¶y î ¶x þ Vertex 1 2 Vertex x2 Verte ①For Elem.1 2 Vertex 2 ¶N ì ¶N ü ÑP2 + = í 1, 2 P1 , 1, 2 P1 ý ¶y î ¶x þ Vertex 3 ¶N ì ¶N ü ÑP3 + = í 1,3 P1 , 1,3 P1 ý ¶y î ¶x þ rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 ②For Elem.2 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 プロファイラで実行時間内訳をみてみると • メモリアクセス待ち時間が多かった • ストア命令がたくさん出ていた ¶N 2,1 ü ì ¶N ¶N 2, 2 ü ì ¶N ÑP3 + = í 2,1 P2 , P2 ý ÑP2 + = í 2, 2 P2 , P2 ý ¶ x ¶ y ¶y î þ î ¶x þ ¶N 2,3 ü ì ¶N ÑP4 + = í 2,3 P2 , P2 ý ¶y î ¶x þ ③For Elem.3 ・・・略・・・ ④For Elem.4 ストアが多かった理由 ¶N 4,1 ü ì ¶N ÑP3 + = í 4,1 P4 , P4 ý ¶y î ¶x þ • ひとつの節点を複数の要素で共有していて，違うタイミングで同じ節点に何度もストアされる ¶N 4,3 ü ì ¶N ÑP1 + = í 4,3 P4 , P4 ý ¶y î ¶x þ ¶N 4, 2 ü ì ¶N ÑP5 + = í 4, 2 P4 , P4 ý ¶y î ¶x þ 節点への足しこみ(A=A+B)があるので • SIMDとソフトウェアパイプラインが出来ない 50

51.

何がボトルネックか︖ 1 Elem.1 1 Vertex ¶N ì ¶N ü ÑP1 + = í 1,1 P1 , 1,1 P1 ý ¶y î ¶x þ Vertex 1 2 Vertex x2 Verte ①For Elem.1 2 Vertex 2 ¶N ì ¶N ü ÑP2 + = í 1, 2 P1 , 1, 2 P1 ý ¶y î ¶x þ Vertex 3 ¶N ì ¶N ü ÑP3 + = í 1,3 P1 , 1,3 P1 ý ¶y î ¶x þ rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 ②For Elem.2 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 プロファイラで実行時間内訳をみてみると • メモリアクセス待ち時間が多かった • ストア命令がたくさん出ていた ¶N 2,1 ü ì ¶N ¶N 2, 2 ü ì ¶N ÑP3 + = í 2,1 P2 , P2 ý ÑP2 + = í 2, 2 P2 , P2 ý ¶ x ¶ y ¶y î þ î ¶x þ ¶N 2,3 ü ì ¶N ÑP4 + = í 2,3 P2 , P2 ý ¶y î ¶x þ ③For Elem.3 ・・・略・・・ ④For Elem.4 ストアが多かった理由 ¶N 4,1 ü ì ¶N ÑP3 + = í 4,1 P4 , P4 ý ¶y î ¶x þ • ひとつの節点を複数の要素で共有していて，違うタイミングで同じ節点に何度もストアされる ¶N 4,3 ü ì ¶N ÑP1 + = í 4,3 P4 , P4 ý ¶y î ¶x þ ¶N 4, 2 ü ì ¶N ÑP5 + = í 4, 2 P4 , P4 ý ¶y î ¶x þ 節点への足しこみ(A=A+B)があるので • SIMDとソフトウェアパイプラインが出来ない 51

52.

ストアを連続，かつ1回だけにする 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 処理の流れを変更する要素を順番に巡って，要素からの計算結果を，要素が使っている節点に足しこむ(A=A+B) ↓ 節点を順番に巡って，その節点を使っている要素からの計算結果をまとめて節点に代入(A=B) 52

53.

ストアを連続，かつ1回だけにする 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 処理の流れを変更する要素を順番に巡って，要素からの計算結果を，要素が使っている節点に足しこむ(A=A+B) ↓ 節点を順番に巡って，その節点を使っている要素からの計算結果をまとめて要素に代入(A=B) 53

54.

ストアを連続，かつ1回だけにする 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 処理の流れを変更する要素を順番に巡って，要素からの計算結果を，要素が使っている節点に足しこむ(A=A+B) ↓ 節点を順番に巡って，その節点を使っている要素からの計算結果をまとめて要素に代入(A=B) 54

55.

ストアを連続，かつ1回だけにする 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 処理の流れを変更する要素を順番に巡って，要素からの計算結果を，要素が使っている節点に足しこむ(A=A+B) ↓ 節点を順番に巡って，その節点を使っている要素からの計算結果をまとめて要素に代入(A=B) 55

56.

ストアを連続，かつ1回だけにする 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 処理の流れを変更する要素を順番に巡って，要素からの計算結果を，要素が使っている節点に足しこむ(A=A+B) ↓ 節点を順番に巡って，その節点を使っている要素からの計算結果をまとめて要素に代入(A=B) 56

57.

ストアを連続，かつ1回だけにする 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte rtex Ve Pressure P1 3 Elem.4 rtex Ve 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 Vertex 3 4 処理の流れを変更する要素を順番に巡って，要素からの計算結果を，要素が使っている節点に足しこむ(A=A+B) ↓ 節点を順番に巡って，その節点を使っている要素からの計算結果をまとめて要素に代入(A=B) 57

58.

ソース変更ループ構造を変更した要素→節点と辿るのではなく節点のループを回して直接節点を参照する 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte Pressure P1 rtex Ve 3 Elem.4 2 5 Elem.2 Elem3 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 rtex Ve 1 DO iN=1,iNUM_NODE Multi-Thread 2 fTMPX=0.0 3 fTMPY=0.0 4 fTMPZ=0.0 5 DO iI=1,8 節点iNを使っている上位要素の数だけ回る 6 iE=iELEM(iI,iN) 上位要素番号 7 iV=iERT(iI,iN) 要素iEから⾒た節点iNは頂点番号 8 fP=fPRES(iE) 9 10 fTMPX += fP * fDN(1, iV, iE) 11 fTMPY += fP * fDN(2, iV, iE) 12 fTMPZ += fP * fDN(3, iV, iE) 13 ENDDO 14 fDP(1,iN) = fTMPX 15 fDP(2,iN) = fTMPY 16 fDP(3,iN) = fTMPZ 17 ENDDO Vertex 3 4 ケース1) 処理の流れだけ変更 58

59.

ソース変更もう1ケースループ構造を変更した要素→節点と辿るのではなく節点のループを回して直接節点を参照する 1 Elem.1 1 Vertex 2 2 Vertex x2 Verte Pressure P1 rtex Ve 3 Elem.4 2 5 Elem.2 Pressure P2 Elem3 Vertex 1 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 rtex Ve 1 DO iN=1,iNUM_NODE Multi-Thread 2 fTMPX=0.0 3 fTMPY=0.0 4 fTMPZ=0.0 5 DO iI=1,8 6 iE=iELEM(iI,iN) 7 fP=fPRES(iE) 8 9 fTMPX += fP * fDN2(1, iI, iN) 10 fTMPY += fP * fDN2(2, iI, iN) 11 fTMPZ += fP * fDN2(3, iI, iN) 12 ENDDO 13 fDP(1,iN) = fTMPX 14 fDP(2,iN) = fTMPY 15 fDP(3,iN) = fTMPZ 16 ENDDO Vertex 3 4 などの値は節点が持つようにしたケース2) 配列fDN→fDN2と変えた 59

60.

改善効果測定結果 1 A 123 5.6 4.4 23.2 2 B 135 5.2 4.1 23.2 A 44.3 15.8 12.4 47.2 単位 B 44.2 秒 15.9 GFLOPS 12.4 % 47.2 GB/S ケース2はほぼ理論的な性能12%に到達．一方でケース1は低い(メモリスループットも) 人工的なリスト値(全て同じ値)での測定結果ケースパターン実行時間性能ピーク比メモリスループット 1 A 37.4 18.9 14.8 30.9 2 B 30.2 23.3 18.2 38 A 40.9 17.1 13.4 48.4 91秒上 2倍向リスト値 iE=iELEM(iI, iN) iV=iVERT(iI, iN) iI, iNの値によらず同じ値とした ↓ キャッシュミスしなくなり，遅い原因がキャッシュミスなのか否かが明らかになるケースパターン実行時間性能ピーク比メモリスループット単位 B 41.7 秒 16.9 GFLOPS 13.2 % 47.7 GB/S 44秒リスト値(配列iELEM,iVERT)の値を全て同一値にしてリストの性質の善し悪しの影響を排除した結果， 1の低性能はリストの影響と判明．2は元々リストアクセスされる配列が少ないので，リスト値の品質の影響は小さい ※K.Kumahata, K.Minami, Y.Yamade, C.Kato, “Performance improvement of the general-purpose CFD code Front/Flow/blue on the K computer”, HPC Asia 2018, Tokyo, Japan, (2018) https://doi.org/10.1145/3149457.3149470 60

61.

同じ改善を別カーネルへアプリ中に同じ改善が適応可能なカーネルがあり，それにも適⽤し，実⾏時間半減 CASE ASIS tune1A tune2B tune2B1 tune2C 向上率実行時間 1以上ならチューニング内容 [秒] 高速化 32.0 1.00 オリジナル(要素で回すループ) 55.1 0.58 節点で回すループに変更（配列アクセスはランダム) 19.1 1.67 tune1Aを配列を並び替えて配列アクセスを連続アクセス化 20.7 1.54 tune2Bで最内ループ回転数固定化 14.0 2.29 tune2B1で最内ループ内処理のアンロール実装を再度ループ化ソース概要 60.0 Time [s] 50.0 40.0 30.0 20.0 10.0 0.0 ASIS tune1A tune2B tune2B1 tune2C DO IE=1, 全ヘキサ要素 DO I=1, ヘキサ要素の8頂点 IP=頂点Iのグローバル節点番号演算(長いので略) 節点IPへのストア ENDDO ENDDO 配列へのストアは連続に、かつA=A+Bの形にしない 61

62.

流体解析ソルバーストリーム削減・セクタキャッシュ・プリフェッチ

63.

チューニング対象カーネル FLD3X2ソース 1 Elem.1 1 Vertex Pressure P1 3 Elem.4 Elem.2 rtex Ve Elem3 2 Vertex 1 Pressure P2 Pressure P3 x3 Verte Vertex 3 Vertex Vertex 3 節点5 1 Pressure P4 1 Vertex 2 5 ※) 絵では3頂点の要素だが実際は8頂点の要素 2 2 Vertex x2 Verte rtex Ve 1 DO iE=1,iNUM_ELEM Multi-Thread 2 fLP(iE)=fDNX(1,iE)*fDP(1,iNODE(1,iE))+ 3 fDNX(2,iE)*fDP(1,iNODE(2,iE))+ ・・・・・・ 9 fDNX(8,iE)*fDP(1,iNODE(8,iE))+ 10 11 fDNY(1,iE)*fDP(2,iNODE(1,iE))+ 12 fDNY(2,iE)*fDP(2,iNODE(2,iE))+ ・・・・・・ 18 fDNY(8,iE)*fDP(2,iNODE(8,iE))+ 19 20 fDNZ(1,iE)*fDP(3,iNODE(1,iE))+ 21 fDNZ(2,iE)*fDP(3,iNODE(2,iE))+ ・・・・・・ 27 fDNZ(8,iE)*fDP(3,iNODE(8,iE)) 28 ENDDO 処理内容要素が頂点として参照する節点がもつ(前の事例 GRAD求められた)圧力勾配ベクトルの発散を求める Vertex 3 4 63

64.

チューニング対象カーネル FLD3X2ソース 1 DO iE=1,iNUM_ELEM Multi-Thread 2 fLP(iE)=fDNX(1,iE)*fDP(1,iNODE(1,iE))+ 3 fDNX(2,iE)*fDP(1,iNODE(2,iE))+ ・・・・・・ 9 fDNX(8,iE)*fDP(1,iNODE(8,iE))+ 10 11 fDNY(1,iE)*fDP(2,iNODE(1,iE))+ 12 fDNY(2,iE)*fDP(2,iNODE(2,iE))+ ・・・・・・ 18 fDNY(8,iE)*fDP(2,iNODE(8,iE))+ 19 20 fDNZ(1,iE)*fDP(3,iNODE(1,iE))+ 21 fDNZ(2,iE)*fDP(3,iNODE(2,iE))+ ・・・・・・ 27 fDNZ(8,iE)*fDP(3,iNODE(8,iE)) 28 ENDDO 処理内容要素が頂点として参照する節点がもつ(前の事例 GRAD求められた)圧力勾配ベクトルの発散を求める要素の頂点数 fLP fDNX fDP fDNZ fDP 2 1 fLP(1) fLP(4) 節点5 5 ※) 絵では3頂点の要素だが実際は8頂点の要素 fDNY fDP fLP(2) 3 fLP(3) 4 64

65.

性能評価 FLD3X2ソース 1 DO iE=1,iNUM_ELEM Multi-Thread 2 fLP(iE)=fDNX(1,iE)*fDP(1,iNODE(1,iE))+ 3 fDNX(2,iE)*fDP(1,iNODE(2,iE))+ ・・・・・・ 9 fDNX(8,iE)*fDP(1,iNODE(8,iE))+ 10 11 fDNY(1,iE)*fDP(2,iNODE(1,iE))+ 12 fDNY(2,iE)*fDP(2,iNODE(2,iE))+ ・・・・・・ 18 fDNY(8,iE)*fDP(2,iNODE(8,iE))+ 19 20 fDNZ(1,iE)*fDP(3,iNODE(1,iE))+ 21 fDNZ(2,iE)*fDP(3,iNODE(2,iE))+ ・・・・・・ 27 fDNZ(8,iE)*fDP(3,iNODE(8,iE)) 28 ENDDO 最適化状況ストアの向きがGRADとは逆なのでデータ依存性なしでSIMD化，ソフトウェアパイプライン化は適応されている結果実行時間性能ピーク比メモリスループット 57.4 秒 10.3 GFLOPS 8.0 % 36.8 GB/S B/Fから求まる理想値は13%なので遅い 65

66.

改善⼿法1 FLD3X2ソース 1 DO iE=1,iNUM_ELEM Multi-Thread 2 fLP(iE)=fDNX(1,iE)*fDP(1,iNODE(1,iE))+ 3 fDNX(2,iE)*fDP(1,iNODE(2,iE))+ ・・・・・・ 9 fDNX(8,iE)*fDP(1,iNODE(8,iE))+ 10 11 fDNY(1,iE)*fDP(2,iNODE(1,iE))+ 12 fDNY(2,iE)*fDP(2,iNODE(2,iE))+ ・・・・・・ 18 fDNY(8,iE)*fDP(2,iNODE(8,iE))+ 19 20 fDNZ(1,iE)*fDP(3,iNODE(1,iE))+ 21 fDNZ(2,iE)*fDP(3,iNODE(2,iE))+ ・・・・・・ 27 fDNZ(8,iE)*fDP(3,iNODE(8,iE)) 28 ENDDO 改善手法 1．配列のサイズをコンパイラに教える上位ルーチンでは real*4 :: fDNX(8、NE) call FLD3X2(・・・,fDNX,8,NE,・・・) FLD3X2ルーチンでは subroutine FLD3X2(・・・,fDNX,SZ,NE,・・・) real*4 :: fDNX(SZ,NE) となっており、コンパイラは配列fDNXの1次元⽬の⼤きさが可変という前提で命令を作るが、実際には固定なので、コンパイラに教えてみる 66

67.

改善⼿法2 FLD3X2ソース 1 DO iE=1,iNUM_ELEM Multi-Thread 2 fLP(iE)=fDNX(1,iE)*fDP(1,iNODE(1,iE))+ 3 fDNX(2,iE)*fDP(1,iNODE(2,iE))+ ・・・・・・ 9 fDNX(8,iE)*fDP(1,iNODE(8,iE))+ 10 11 fDNY(1,iE)*fDP(2,iNODE(1,iE))+ 12 fDNY(2,iE)*fDP(2,iNODE(2,iE))+ ・・・・・・ 18 fDNY(8,iE)*fDP(2,iNODE(8,iE))+ 19 20 fDNZ(1,iE)*fDP(3,iNODE(1,iE))+ 21 fDNZ(2,iE)*fDP(3,iNODE(2,iE))+ ・・・・・・ 27 fDNZ(8,iE)*fDP(3,iNODE(8,iE)) 28 ENDDO 改善手法 2. SIMDロードを適応するため，アンロール実装をループに戻す 1 iE+1 iE fDNX 2 3 4 5 6 7 8 1 2 ひとつのロード命令でまとめてロードできるのだが、 fDNX(1,iE)のような書き方だとやってくれないので、 fDNX(j, iE)のように書けるように変更(リループ) 67

68.

改善⼿法2 DO iE=1,iNUM_ELEM スレッド並列、SWP DO J=1,8 SIMD, FULLUNROLL tmp = tmp + fDNX(J,iE)* fDP(1, iNODE(J,iE)) + fDNY(J,iE)* fDP(2, iNODE(J,iE)) + fDNZ(J,iE)* fDP(3, iNODE(J,iE)) ENDDO fLP(iE) = tmp ENDDO 配列の1次元目がループ変数になったため、SIMDロードになるはず 68

69.

改善⼿法3 FLD3X2ソース改善手法 DO iE=1,iNUM_ELEM スレッド並列、SWP 3. DO J=1,8 SIMD, FULLUNROLL tmp = tmp + fDNXYZ(J,1,iE)* fDP(1, iNODE(J,iE)) + fDNXYZ(J,2,iE)* fDP(2, iNODE(J,iE)) + fDNXYZ(J,3,iE)* fDP(3, iNODE(J,iE)) ENDDO fLP(iE) = tmp ENDDO do I=i, N A(i) = A(i) + B(i) * C(i) enddo Register/演算器 A(i) ＝ αB(i) ＋ C(i) do I=i, N A(i) = A(i) + D(1,i) * D(2,i) enddo B(i) C(i) Aは書き込みだけでなく参照もされている場合 Cache 演算結果 Memory Register/演算器 cache line ③ ロード ④ ① B cache line ② C cache line 配列fDNX, fDNY, fDNZをfDNXYZにまとめてストリーム削減 A 1 1 2 Cache 演算結果 A(i) ＝ αB(i) ＋ C(i) D B C B C B C B C B C B ・・・ 2 3 3 4 4 5 5 6 Memory cache line Bn Cn Bm Cm ② ロード ③ ① A Bn Cn Bm Cm 69

70.

改善⼿法4 FLD3X2ソース改善手法 !ocl cache_sector_size(3,9) !ocl cache_subsector_assign(fDP) DO iE=1,iNUM_ELEM スレッド並列、SWP DO J=1,8 SIMD, FULLUNROLL tmp = tmp + fDNXYZ(J,iE)* fDP(1, iNODE(J,iE)) + fDNXYZ(J,iE)* fDP(2, iNODE(J,iE)) + fDNXYZ(J,iE)* fDP(3, iNODE(J,iE)) ENDDO fLP(iE) = tmp ENDDO 4. セクタキャッシュを利用 Way 0 Line 1 Line 2 Line N 1 2 3 4 5 6 7 8 先優 9 10 11 P D f ・・・・・・・・・・・・・・・・・・・・・・・・配列fDPは繰り返し利用されると分かっているので優先的にキャッシュに乗っていて欲しい L2は12ウェイあるので、3：9に分けて、9の側は fDPを優先にする 2 fDP(1:3,2) fDP(1:3,1) 1 fLP(1) fLP(4) 節点5 fLP(2) 3 fDP(1:3,3) 5 fDP(1:3,5) fLP(3) fDP(1:3,4) 4 70

71.

改善効果オリジナル実行時間性能ピーク比メモリスループット改善手法 57.4 秒 10.3 GFLOPS 8.0 % 36.8 GB/S 1. 配列のサイズをコンパイラに教える 2. 1＋SIMDロードを適応するため，アンロール実装をループにする 3. 2＋配列fDNX，fDNY，fDNZをfDNXYZにまとめてストリーム削減 4. 3＋配列を「京」の機能であるセクタキャッシュに載せる 1 実行時間性能ピーク比メモリスループット 2 3 4 52.6 49.9 49 47.5 秒 11.3 12.4 12.6 13.0 GFLOPS 8.8 9.7 9.8 10.2 % 40.3 42.4 43.2 42.5 GB/S 71

72.

ソフトウェアプリフェッチ＠富岳試作機 !ocl cache_sector_size(3,9) !ocl cache_subsector_assign(fDP) DO iE=1,iNUM_ELEM スレッド並列、SWP DO J=1,8 SIMD, FULLUNROLL tmp = tmp + fDNXYZ(J,1,iE)* fDP(1,iNODE(J,iE)) + fDNXYZ(J,2,iE)* fDP(2,iNODE(J,iE)) + fDNXYZ(J,3,iE)* fDP(3,iNODE(J,iE)) ENDDO fLP(iE) = tmp ENDDO 富岳試作機で測定演算量は全てのスレッドで⼀定のはずが、バリア同期が発⽣している ↓ ⼊⼒メッシュデータに依存して、スレッドごとのキャッシュミス率が異なってしまっている 72

73.

ソフトウェアプリフェッチ＠A64FX !ocl cache_sector_size(3,9) !ocl cache_subsector_assign(fDP) DO iE=1,iNUM_ELEM スレッド並列、SWP オリジナル !ocl prefetch_read(fDP(1,NODE(1,iE+32)),level=1) !ocl prefetch_read(fDP(1,NODE(2,iE+32)),level=1) !ocl prefetch_read(fDP(1,NODE(3,iE+32)),level=1) !ocl prefetch_read(fDP(1,NODE(4,iE+32)),level=1) !ocl prefetch_read(fDP(1,NODE(5,iE+32)),level=1) !ocl prefetch_read(fDP(1,NODE(6,iE+32)),level=1) !ocl prefetch_read(fDP(1,NODE(7,iE+32)),level=1) !ocl prefetch_read(fDP(1,NODE(8,iE+32)),level=1) DO J=1,8 SIMD, FULLUNROLL tmp = tmp + fDNXYZ(J,1,iE)* fDP(1,iNODE(J,iE)) + fDNXYZ(J,2,iE)* fDP(2,iNODE(J,iE)) + fDNXYZ(J,3,iE)* fDP(3,iNODE(J,iE)) ENDDO fLP(iE) = tmp ENDDO 配列fDPのプリフェッチをパラメータスタディスレッドごとの打ち分けが均等になり、1秒縮んだ 73

74.

命令 SIMD化 4命令時減少ソフトウェアプリフェッチ＠A64FX !ocl cache_sector_size(3,9) !ocl cache_subsector_assign(fDP) DO iE=1,iNUM_ELEM スレッド並列、SWP 総命令数削減オリジナル DO J=1,8 SIMD, FULLUNROLL !ocl prefetch_read(fDP(1,NODE(J,IE+64), level=1) tmp = tmp + fDNXYZ(J,1,iE)* fDP(1,iNODE(J,iE)) + fDNXYZ(J,2,iE)* fDP(2,iNODE(J,iE)) + fDNXYZ(J,3,iE)* fDP(3,iNODE(J,iE)) ENDDO fLP(iE) = tmp ENDDO プリフェッチの指⽰⾏をSIMDが有効になっているループ内へと変更し、プリフェッチもSIMD化 10.1秒 → 9.2秒 → 6.7秒 74

75.

乱流燃焼解析コード

76.

チューニング対象計算機 FX1000 Clock Freq. 2.2 GHz Core GFLOPS 70 GFLOPS L1D Cache 64 KiB (256GB /s) CMG CPU # of Core 12 GFLOPS 884 GFLOPS Memory 8 GiB (256 GB/s) L2 Cache 8 Mib (1024 GB/s) # of CMG 4 GFLOPS 3379 GFLOPS Memory 32 GiB Node # of CPU # of Node Syste GFLOPS m Memory 1 リングバスには他にPCIeやインターコネクトのコントローラが接続 1コア当たりの演算性能 2.2GHz x 2FMA x 8SIMD × 2Pipe = 70.4GFLOPS Machine 京 5760 SIMD width 2 (128 bit) 19.4 PFLOPS # of register 180 TiB 256 FX100 FX1000 4 (256 bit) 8 (512 bit) 256 32 • SIMDありきの性能なのに注意 • レジスタ数が減っているのに注意 76

77.

ベンチマーク問題液体酸素と⽔素の同軸噴流⽕炎反応機構で素反応を含む8化学種 H2 150K Cost distribution on SORA by profiler FIPP Use 1CMG (12threads) on FX1000 100step 10MPa O2 100K 7100 Cells (1cell for thickness) p=2 (# of SPs in Cell 27) 実在気体の状態⽅程式 SRK⽅程式輸送係数燃焼モデル A Update T and P H Correct Residual Chung B Compute E I Compute Residual F.G. CHEMKIN C Compute Cp J Compute Self Resiaual(A) Wilke混合則 D Compute Trans Prop K Compute Self Residual(B) E Compute Cv L Compute Gradient F Compute Thermal Prop M Sum of under 1% G Ref. flamelet tab. Flamelet Progress Variable (FPV) Procedures for Combustion Calculations 77

78.

インライン展開のやりすぎに注意チューニング) ⼀般的には演算区間であるような下位のループの実⾏時間を短縮し，GFLOPSやGB/sを向上させること． D) Compute Trans Propのコールツリー通らない(実⾏時パラメータ依存) インライン展開本コードでは，上位ループから回転数・演算数がごく⼩さい下位ループを多数呼んでおり，⼿続き呼び出しのオーバーヘッドや，レジスタ不⾜に伴う演算待ちがボトルネックであり，現状，それらの低減が主眼．⾮インライン展開⼿法ごとに整理して述べるデフォルト最良これ以外のループの回転数はごく少ない (例:コンパイル時に明らかになっている数8) do icell=1, セル数スレッド並列化 do isp=1, 27 Call_Subroutines enddo 最も回転数が多いループicell enddo 2番⽬に回転数が多いループisp 原点が0でないので注意 ComputeMwBar ComputeRconst FX100向けにインライン展開を多⽤．使⽤するレジスタ数が増えるが，FX1000ではレジスタ数が減っているので，レジスタに乗せるデータの⼀時退避・復帰が頻発し性能劣化 ComputeTransProp_LowPress ComputeTransProp_Chung_Single Mixing_Wilke 0ならインライン展開する，1ならインライン展開しない 78

79.

⼩回転ループはさけたい • コンパイル時にはすでに決まっている，⼩回転数のループ • ソフトウェアパイプライン化されるが，回転数が少ないため効果なし • ループ制御のオーバーヘッドを避けるためループで無くした⽅がよい F) Compute Thermal Propの内の下位のループ SIMD化(VL: 8) do icell=1, セル数スレッド並列化 SOFTWARE PIPELINING化 do isp=1, 27 IPC: 3.00, ITR: 144, 今のケースでは実際は2 ・・・ MVE: 5, POL: S) do ichem=1, pr%nchem y(ichem) = value(ie + ichem, icell) enddo ・・・コンパイル時には数が分かっているが enddo 可変回転数のループとして扱われている enddo プリ処理部でpr%nchem=_NSCLと設定このようなループがある FULL UNROLLING do icell=1, セル数スレッド並列化 do isp=1, 27 ・・・ do ichem=1, _NSCL y(ichem) = value(ie + ichem, icell) enddo ・・・ enddo enddo 原点が0でないので注意 79

80.

⼩回転ループはさけたい別のルーチンにも同様の⼿法を当てはめてみた Loop B,C) ソース上で直接回転数をハードコードしている do i=1,10など 52.6 52.5 52.4 52.3 52.2 52.1 52.0 Loop C Time [s] Loop A) 前ページと同じく，コンパイル時には回転数が確定しているが，コンパイラにはわからない今のケースでは8回転 0) Original (Implemented as Loop) 1) Modified (Unrolled) 0 1 0 1 0 1 0 1 Loop B 0 0 1 1 0 0 1 1 Loop A 0 0 0 0 1 1 1 1 原点が0でないので注意 80

81.

OpenMPのスケジュール調整 A) Update T and P ルーチンの実⾏時間内訳 Inctruction Commit Time [s] 10.0 8.0 Barrier Wait 6.0 4.0 do itr=1, max res = ・・・ if(res < EPS) exit enddo Instruction Wait 2.0 0 1 2 3 4 5 6 7 8 9 10 11 Thread Memory/Cach e Acces s W ait ■Number of FLOP 1.0E+11 2.0E+10 8.0E+10 1.5E+10 6.0E+10 1.0E+10 4.0E+10 2.0E+10 5.0E+09 0.0E+00 0.0E+00 0 1 2 3 4 5 6 7 8 9 10 11 Thread 収束判定に合格してループを抜けるタイミングがまちまちだった • 当該ループのOpenMPのディレクティブに schedule(dynamic, 1) を指定し !$omp parallel do schedule(dynamic, 1) とした ■Number of Instructions 0.0 • FX1000のCPU性能解析レポートの出⼒，バリア同期待ちが多い • セルを巡るループでスレッド並列化しており，各スレッドへのセルの割当量は均⼀だが演算数に違いが出ている 12.0 Inctruction Commit 10.0 Time [s] 12.0 8.0 Barrier Wait 6.0 4.0 Instruction Wait 2.0 0.0 0 1 2 3 4 5 6 7 8 9 10 11 Thread Memory/Cach e Acces s W ait 81

82.

重複した処理の回避 A) Update T and Pルーチン中の温度更新反復のコールツリー • 同じサブルーチンが複数の上位から呼ばれていることが多い Update T and P • 例えば⾚枠ConvertMass2Moleは質量分率からモル分率に変換するルーチン．反復ループ外から1回，反復ループ中からは他のルーチンを介して1反復当たり3回呼ばれるが，全ての呼び出しが同じ計算 • 他にもループ中に温度に依存しない計算があったり，依存するが同じ温度から同じ結果得る計算を何度も読んでいる個所があり，除去を⾏ったこのとき浮動⼩数点演算数は 1.09×1012 から 8.10x1011 に25％ほど削減温度を更新する反復ループがある do itr=1, iter_max call subroutine T = ... enddo 82

83.

配列初期化時の性能劣化 ※前ページまでの事例とは，ソースの版数と⼊⼒データが異なる C ase N o. A T otal range1 当該ルーチン概要 01 subroutine sample(n1, n2, input_arrayA, input_arrayB) 02 implicit none 03 1ルーチン単体(下位のルーチン含まず) 04 ! argument でコストの18%弱を占める 05 integer, intent(in) :: n1, n2 06 real(8), intent(in) :: input_arrayA(n1), input_arrayB(n2) ルーチン内に細かくタイマールーチンを挿⼊． 07 特定部分を計るためのタイマーが有効な 08 ! local 09 real(8) :: work_arrayA(n1), work_arrayB(n2) 時だけ速い 10 ・ 11 ・ 12 ! call timer_start(range2) 13 work_arrayA(:) = input_arrayA(:) 14 ! call timer_stop(range2) 15 16 ! call timer_start(range3) 17 work_arrayB(:) = input_arrayB(:) range3 20 ! call timer_stop(range3) 21 ・ 22 ・ range2 range3 range4 other 23 end subroutine sample 31 12.80 0.12 32 2.81 0.11 0.12 33 2.99 0.11 0.11 34 2.81 0.11 1.08 11.60 0.11 2.48 • range2,3は引数の値をワーク配列へコピーする配列式 0.10 0.11 2.56 • 0.11 0.11 2.49 コンパイラは配列式をループとして扱いループ最適化 (実⾏時回転数889以上でスレッド並列，SIMD，ソフトウェアパイプラインなど適応) • コメントアウトしてあるタイマールーチン呼び出しを有効にすると速くなる単位 [s] range2,3でおかしなことが起きている 83

84.

配列初期化時の性能劣化コンパイル時及び実⾏時の以下の条件が重なり遅くなっていた 1. コンパイラは配列式をループとして扱うため，range2とrange3はそれぞれループとなる 2. ⾃動スレッド並列化が有効である(-Kparallel)場合，同じループのスレッド並列版と，逐次版を⽣成し，実⾏時のループ回転数で切り替える 3. スレッド⽣成のオーバーヘッドを避けるため，並列リージョン拡張という，可能なら複数のループを合成してからスレッド並列化の処理を⾏う機能があるこの機能が動作したときは，逐次版のループを作らない range2と3の間にタイマールーチン呼び出しがある場合は並列リージョン拡張は働かないこのような現象が出るときの解決策 • -Knoregion_extensionを指定 • 配列式に!OCL SERIALを指定 • 今回のように無害なルーチンを配列式の間に挿⼊ range2 イメージ do i=1, n1 work_arrayA(i) = input_arrayA(i) enddo range3 do i=1, n2 work_arrayB(i) = input_arrayB(i) enddo イメージ range2 if(n1 > 889) then !$omp parallel range2のスレッド並列版ループ !$omp end parallel else range2の逐次版ループ endif イメージ !$omp parallel range2のスレッド並列版ループ range3のスレッド並列版ループ !$omp end parallel range3 if(n2 > 889) then !$omp parallel range3のスレッド並列版ループ !$omp end parallel else range3の逐次版ループ endif 実⾏時の回転数は range2は72, range3は9．並列リージョン拡張されなかった場合は，逐次版ループを実⾏する拡張された場合は低回転ループにも関わらず，スレッド並列版ループを実⾏するそのためオーバーヘッドで性能劣化 84

85.

まとめ 100.0 アプリ全体の実⾏時間は，81秒程度から51秒程度に改善 80.0 配列初期化時の性能劣化は，統⼀して測定できなかったので，その分10秒を個別に加えると90秒程度から51秒程度に改善 Time [s] 今回ご紹介した紹介したチューニング事例を全て適応 With Array Problem WithInit. Array Init Problem 60.0 Barrier Wait 40.0 Instruction Wait 20.0 0.0 As-Is Current Thread プロファイラ(CPU性能解析レポート)を使うとバーヘッドが出るため，ここではプロファイラを⽤いて求めた実⾏時間の内訳を，プロファイラなしで実⾏した際の全体実⾏時間で補正他にも，コンパイルオプションの再考として，元々FX100向けだったので⾊々指定されていた -Kfast,parallel,noalias=s,array_private, preex,ocl,nounroll,autoobjstack を再整理して -Kfast,parallel,ocl として56.0秒から53.8秒 Inctruction Commit Memory/Cache Acces s W ait チューニング）⼀般的には演算区間であるような下位のループの実⾏時間を短縮し，GFLOPSやGB/sを向上させること．本コードでは，上位ループから回転数・演算数がごく⼩さい下位ループを多数呼んでおり，⼿続き呼び出しのオーバーヘッドや，レジスタ不⾜に伴う演算待ちがボトルネックであり，今回はそれらボトルネックの低減が主眼でした 85

86.

その他のTips

87.

なるべく⻑いループでSIMDに SIMD化は最内ループに適応される (1,2) do idx=1, max(=191700) SWP (3-1) do ichem=1, spc_num(=8) 8SIMD (3-2) do j=1,3 FULL UNROLL (3-3) do j=1, spc_num(=8) 8SIMD 1.03秒，3.33E+10 FLOP, SIMD率40.0% (1,2) do idx=1, max(=191700) 8SIMD (3-1) do ichem=1, spc_num(=8) FULL UNROLL (3-2) do j=1,3 FULL UNROLL (3-3) do j=1, spc_num(=8) FULL UNROLL 0.46秒，2.35E+10FLOP，SIMD率90.4% 87

88.

Z-Fillの効果 Z-Fillなし Register/演算器 Cache 4stream ① cache line A(i) ＝ αB(i) ＋ C(i) cache line cache line Memory 暗黙のロード A ④ ② B ③ C 演算結果 Z-Fillあり -Kzfill キャッシュライン確保命令 Register/演算器 Cache 3stream cache line A(i) ＝ αB(i) + C(i) cache line cache line ① ② ③ Memory A B C 演算結果 88

89.

Z-Fillの効果疑似コード integer*8 :: I, SZ, ITR, NITR parameter(SZ=104857600) parameter(NITR=100) real*8 :: A(SZ), B(SZ), C(SZ), alpha Z-Fillにより暗黙のAのロードがなくなりストリームが削減し性能改善配列ひとつのサイ start = gettime() call FAPP_START() do ITR=1, NITR do I=1, SZ A(I)=alpha * B(I) + C(I) enddo 本体部分 enddo call FAPP_STOP() dt = start – gettime() case GB dt [s] GB/s ズ MB 800 80 8 withoutzfill 335.544 1.616 207.657 withoutzfill_numactl 335.544 1.618 207.343 withzfill 251.658 1.236 203.634 withzfill_numactl 251.658 1.237 203.382 withoutzfill 335.544 1.601 209.577 withoutzfill_numactl 335.544 1.623 206.767 withzfill 251.658 1.242 202.633 withzfill_numactl 251.658 1.241 202.788 withoutzfill 335.544 1.463 229.422 withoutzfill_numactl 335.544 1.674 200.500 withzfill 251.658 1.279 196.833 withzfill_numactl 251.658 1.284 195.948 89

90.

その他 ifを含むループはリストベクトル化オリジナルは，全ての節点で判定とループを実行上位要素数8までの節点上位要素数8以上の節点節点リスト 1 2 3 4 5 6 7 8 7.8秒 IF(NEP(8)>8) IF(NEP(8)>8) IF(NEP(8)>8) IF(NEP(8)>8) THEN IF(NEP(8)>8) THEN IF(NEP(8)>8) THEN IF(NEP(8)>8) THEN IF(NEP(8)>8) THENTHENTHENTHEN DO I=9,NEP(8) DO I=9,NEP(8) DO I=9,NEP(8) DO I=9,NEP(8) DO I=9,NEP(8) DO I=9,NEP(8) DO I=9,NEP(8) DO I=9,NEP(8) ・・・・・・・・・・・・・・・・・・・・・・・・ ENDDO ENDDO ENDDO ENDDO ENDDO ENDDO ENDDO ENDDO ENDIF ENDIF ENDIF ENDIF ENDIF ENDIF ENDIF ENDIF リストベクトル化 ifに合格するものだけの集合上位要素数が8以上の節点リスト 3 4 6 配列、特に多次元配列の初期化を、配列の形に合わせたようなループでやらない 8 IP=LST(4) IP=LST(4) IP=LST(4) IP=LST(4) DO I=9,NEP(IP) DO I=9,NEP(IP) DO I=9,NEP(IP) DO I=9,NEP(IP) ・・・・・・・・・・・・ ENDDO ENDDO ENDDO ENDDO ENDIF ENDIF ENDIF ENDIF 0.0?秒リストベクトル化後は IFなしで，実行可能 ↓ 最内ループは必ず実行され，SIMD化・SWP化されている REAL A(N1, N2, NE) DO IE=1, NE マルチスレッド DO I=1, N2 DO J=1, N1 SIMD A(J,I,IE)=Const ENDDO ENDDO ENDDO 2.2秒 C言語のmemsetを呼ぶラッパー関数を用意配列を8等分し，8スレッドから呼ぶ REAL A(N1, N2, NE) 0.6秒 SZ=(N1*N2*NE) / 8 DO I=8 マルチスレッド ST=1+SZ*(I-1) call memset_wrap(A(P),Const,SZ) ENDDO 90

91.

まとめ • これまでに単体性能チューニングを⾏った流体コード2種についての事例を紹介しました • 流体解析ソルバーでは • • キャッシュ利⽤効率の改善・スレッド並列化の⽅法の⼯夫 • ストアのシーケンシャル化 • ストリーム削減・セクタキャッシュ・プリフェッチ乱流燃焼コードでは • インライン展開のやり過ぎに注意 • ⼩回転ループはさけたい • OpenMPのスケジュール調整 • 重複した処理の回避 • 配列初期化時の性能劣化 • その他細かいTips • 皆さんのプログラムく⾼速化の参考になると幸いです 91

第5回配信講義計算科学技術特論B（2024）

R-CCS　計算科学研究推進室

関連スライド

第1回配信講義　計算科学技術特論A （2023）

第1回配信講義　計算科学技術特論A（2025）

第2回配信講義　計算科学技術特論A （2023）

第6回配信講義　計算科学技術特論A （2023）

第8回配信講義　計算科学技術特論A （2023）

第４回配信講義　計算科学技術特論A （2023）

各ページのテキスト

第5回 配信講義 計算科学技術特論B（2024）

R-CCS 計算科学研究推進室

関連スライド

第1回 配信講義 計算科学技術特論A （2023）

第1回 配信講義 計算科学技術特論A（2025）

第2回 配信講義 計算科学技術特論A （2023）

第6回 配信講義 計算科学技術特論A （2023）

第8回 配信講義 計算科学技術特論A （2023）

第４回 配信講義 計算科学技術特論A （2023）

各ページのテキスト

第5回配信講義計算科学技術特論B（2024）

R-CCS　計算科学研究推進室

第1回配信講義　計算科学技術特論A （2023）

第1回配信講義　計算科学技術特論A（2025）

第2回配信講義　計算科学技術特論A （2023）

第6回配信講義　計算科学技術特論A （2023）

第8回配信講義　計算科学技術特論A （2023）

第４回配信講義　計算科学技術特論A （2023）