実践的！FPGA開発セミナー vol.15（2022/10/26）

3.8K Views

October 26, 22

#fpga #fpga開発 #fpga開発シリーズ #FPGA開発 #セミナー #Fixstars Group #Intel® Agilex™ #ハードウェア開発

スライド概要

フィックスターズならではの「FPGA」に関する高速化手法、効率的な開発ノウハウ、苦労話などについてお話しいたします。

＜講演内容＞

1、続　Intel®️ Agilex™️ 開発キットを用いた各種機能トライアル～Agilex™️をもっと体感する～
6月に開催した Intel®️ Agilex™️ の各種機能トライアル（ https://www.docswell.com/s/fixstars/598G7X-20220629 ）に続く第 2 弾です。
前回、うまくできなかった HPS (Hard Processor System = ARMコア) 上での Linux 起動に再度チャレンジします。
また、前回は 40Gbps にとどまっていたネットワーク I/O 性能を 100Gbps にアップグレードした結果についても報告します。
その他、Tips、ノウハウも共有できればと思いますので、前回参加された方も、そうでない方も是非ご聴講下さい。

2、AI Engine を使ったマルチコアプログラミング～行列積アプリケーションの作成～
AI Engine は、最大で 400 近くのコアを搭載したメニーコアのプロセッサです。
これまでのセミナーでは AI Engine をシングルコアで使った際の情報を紹介してきましたが、
今回のセミナーでは AI Engine の複数コアを使うことを目的として、
大規模な行列に対する行列積を AI Engine で解く方法について紹介します。
AI Engine の複数コア間のデータ共有方法や、PLIO を使って AI Engine と PL の間でデータを
効率よく受け渡しする方法についても時間の限り解説したいと思います。

・当社技術ブログ記事：　https://proc-cpuinfo.fixstars.com/

・フィックスターズグループ／セミナー一覧：　https://www.fixstars.com/ja/seminar

・フィックスターズのFPGAシステム開発：　https://www.fixstars.com/ja/services/fpga

株式会社フィックスターズ

@fixstars

スライド一覧

フィックスターズは、コンピュータの性能を最大限に引き出すソフトウェア開発のスペシャリストです。車載、産業機器、金融、医療など、幅広い分野での開発経験があります。また、ディープラーニングや機械学習などの最先端技術にも力を入れています。並列化や最適化技術を駆使して、マルチコアCPU、GPU、FPGA、量子アニーリングマシンなど、さまざまなハードウェアでソフトウェアを高速化するサービスを提供しています。さらに、長年の経験から培ったハードウェアの知識と最適化ノウハウを活かし、高精度で高性能なアルゴリズムの開発も行っています。　　　　　　・開催セミナー一覧：https://www.fixstars.com/ja/seminar　　・技術ブログ：https://proc-cpuinfo.fixstars.com/

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Kaggleスコアアップセミナー～画像系コンペ入門[前編]（2023/08/02）

kaggle 画像処理機械学習深層学習ディープラーニングコンペ初心者 kaggleスコアアップシリーズ

株式会社フィックスターズ 79.3K

いまさらきけないCUDA高速化（2024/12/19）

cuda gpu llm nvidia 高速化

株式会社フィックスターズ 70.6K

いまさら聞けない ARM を使ったNEONの基礎と活用事例（2021/08/05）

arm neon

株式会社フィックスターズ 68.8K

ROS2自律走行実現に向けて 2 ～次世代ロボット開発フレームワークROS2のビルドシステム徹底理解～（2022/11/30）

ros2 gpu ロボット自律走行 ros2シリーズ高速化シリーズ

株式会社フィックスターズ 59.9K

いまさら聞けない！CUDA高速化入門～プログラミングモデルとアーキテクチャの解説、高速化の実践～（2021/10/29）

cuda gpu cuda高速化高速化シリーズ

株式会社フィックスターズ 55.1K

コンピュータビジョンセミナーvol5～Multi-View StereoのCUDA高速化～（2024/8/7)

cuda 機械学習 deeplearning 深層学習 visualslam 画像解析画像処理 cuda高速化自動運転コンピュータビジョンコンピュータビジョンシリーズ sfm

株式会社フィックスターズ 49.3K

各ページのテキスト

Agilex™ トライアル振り返り ● 前回の各種機能トライアル結果 ○ コア性能 ALM しきつめ回路で合成試行 ⇒ 98% Utilization, Fmax 848MHz を達成 ○ ネットワーク I/O 性能 E-Tile Transceiver 40Gbps (10Gbps x 4ch) ⇒ 安定した通信動作を確認 ○ HPS 試行 Agilex™ SoC Golden System Reference Design を移植 ⇒ Linux起動失敗... Copyright© Fixstars Group 6

使用評価ボード ● Intel® Agilex™ F シリーズ FPGA 開発キット ○ AGFB014R24A2E3VR0 ※ ES 品のため PCIe Gen4 未対応 ○ 2 x QSFP-DD（2 x 200Gbps） ○ 3 x DDR4 DIMM for FPGA, 1 x DDR4 DIMM for HPS ※ DIMM はユーザーが装着する参照URL: https://www.intel.com/content/www/us/en/products/details/fpga/development-kits/agilex/f-series.html 7 Copyright© Fixstars Group

https://www.intel.com/content/www/us/en/products/details/fpga/development-kits/agilex/f-series.html

開発環境 ● 合成ツールバージョン ○ Quartus® Prime Pro ver 22.3 ■ 最新バージョン 2022/9/23 リリース ■ ただし、Programmer は ver 20.4 を使用（.sof ファイルの config に失敗するため） ● 合成マシン ○ CPU : AMD Ryzen Threadripper 3960X 24コア／48スレッド ○ メモリ : 256GB ○ OS : CentOS 7.9 8 Copyright© Fixstars Group

Agilex™ 100GbE ネットワーク I/O 性能 ● 前回からのアップデート ○ 100GbE 対応のケーブルを使用 ■ FS 標準 3m Mellanox MCP1600-C003 互換 100G QSFP28 銅製Twinaxケーブル(DAC) ~￥8,000 参照URL: https://www.fs.com/jp/products/72704.html?attribute=1423&id=182001 ○ E-Tile Hard IP for Ethernet を 100GbE に変更 ○ 主な特徴 ■ MAC + PCS, PCS only, FlexE, OTN ■ 100GbE, 25GbE, 10GbE ■ RS-FEC, PTP (Precision Time Protocol) を使用可能 ■ 有償ライセンスではない Copyright© Fixstars Group

https://www.fs.com/jp/products/72704.html?attribute=1423&id=182001

10.

11.

Agilex™ 100GbE ネットワーク I/O 性能 ● 100GbE 試行デザイン ○ Example デザインを流用 ● Example デザインは 1port のみインスタンス ● Internal LoopBack or TX -> RX LoopBack モジュールを使う前提 ○ 2port 分をインスタンスするように変更ケーブル接続で実動作に近い評価を行うことが目的 2port Design TX RX Example Design E-Tile ToolKit JTAG TX RX E-Tile ToolKit JTAG TX RX Copyright© Fixstars Group 100GbE Cable 11

12.

Agilex™ 100GbE ネットワーク I/O 性能 ● E-Tile Toolkit 実行結果 ○ PRBS31 ○ No Error で実行可能 E-Tile Toolkit 実行手順 1. 2. 3. 4. 5. 6. 全 TX & RX を PRBS31 に設定 TX を Start RX を Serial Loopback として、Stop -> Start -> Stop （一回動作させる ※Warning メッセージに従う） RX を Loopback mode Off RX の Adaptation mode を Initial Adaptation にして Start One-Time を実行 RX を Start して開始（初回エラーが検出された時は Reset してクリア） Copyright© Fixstars Group 12

https://docs.google.com/file/d/12aJIq05ms5WgDaQi8yfRUC5Bn7gRN72F/preview

13.

14.

Agilex™ HPS 試行 ● Agilex™ Hard Processor System ○ Cotrtex-A53 クアッドコア参照URL: https://www.intel.com/content/www/us/en/docs/programmable/683567/21-3/hps-block-diagram-falconmesa-stratix-10.html https://www.intel.com/content/www/us/en/docs/programmable/683567/21-3/cortex-a53-mpcore-block-diagram-stratix.html Copyright© Fixstars Group 14

15.

Agilex™ HPS 試行 Linux ビルド情報 ○ RocketBoard.org ２通りの記載がある A. “Agilex SoC Golden System Reference Design” https://www.rocketboards.org/foswiki/Documentation/AgilexSoCGSRD ₋ 一括ビルドコマンドを利用した簡単な手順 B. “Building Bootloader for Stratix 10 and Agilex” https://www.rocketboards.org/foswiki/Documentation/BuildingBootloader ₋ Boot Loader, Linux イメージを個別にマニュアル実行する詳細な手順 ○ ソースコード ■ GHRD (Golden Hardware Reference Design) https://github.com/altera-opensource/ghrd-socfpga ■ GSRD (Golden Software Reference Design) ← A. で使用 https://github.com/altera-opensource/gsrd-socfpga ■ 個別リポジトリ ₋ ₋ ← B. で使用 Boot Loader https://github.com/altera-opensource/u-boot-socfpga https://github.com/altera-opensource/arm-trusted-firmware Yocoto Linux https://git.yoctoproject.org/poky https://git.yoctoproject.org/meta-intel-fpga https://github.com/altera-opensource/linux-socfpg Copyright© Fixstars Group 15

16.

17.

Agilex™ HPS 試行 GHRD ハードウェアビルド ● デザイン生成 ○ Intel® Agilex™ F-Series Transceiver-SoC Development Kit 用デザインがデフォルト ○ ghrd-socfpga リポジトリでは、今回のターゲットボードがサポートされている (前回はマニュアルポーティング) ○ Make 設定で各種変更が可能 ■ ボード、デバイス設定 ■ Toripple Speed Ethernet IP の削除 ■ DDR4 DRAM ECC 有無 etc. $ make BOARD_TYPE=pcie_devkit QUARTUS_DEVICE=AGFB014R24A2E3VR0 \ HPS_SGMII_EMAC2_EN=0 ENABLE_HPS_EMIF_ECC=0 \ BOARD_PWRMGT=linear generate_from_tcl 参照URL: https://www.intel.com/content/www/us/en/products/details/fpga/development-kits/agilex/f-series-transceiver.html https://github.com/altera-opensource/ghrd-socfpga/tree/master/agilex_soc_devkit_ghrd Copyright© Fixstars Group 17

18.

Agilex™ HPS 試行 GHRD ハードウェアビルド ● デザイン合成 ○ Platfrom Designer 起動 ⇒ DDR4 DRAM I/F IP設定変更（詳細は後述） $ make qsys_edit ○ 合成＆配置配線実行 ⇒ xxx.sof、xxx_hps_debug.sof が生成される $ make sof ※ xxx_hps_debug.sof には、デバッグ用の一時的な HPS コードが埋め込まれている（HPS コードが含まれない .sof ファイルは焼き込みできない） • .rbf ファイル生成 ○ v20.4 を使って実行した（QSPI からの起動失敗を回避するワークアラウンド） $/opt/intelFPGA_pro/20.4/quartus/bin/quartus_pfg \ -c ghrd_agfb014r24a2e3vr0_hps_debug.sof ghrd_agfb014r24a2e3vr0.jic \ -o device=MT25QU02G -o flash_loader=AGFB014R24A2E3VR0 -o mode=ASX4 -o hps=1 ⇒ ハードウェアビルド完了！ Copyright© Fixstars Group 18

19.

20.

Agilex™ HPS 試行 GHRD ハードウェアビルド ● （補足）GHRD マニュアルポーティング ○ ○ DDR4 DRAM I/F を残して最小限構成のデザインをベースするボードに合わせて以下を変更 ■ ■ HPS I/O ボード情報 HPS ペリフェラル機能 ■ DDR4 DRAM EMIF 設定変更デバイス情報、ピン配置修正 HPS IP 設定 Copyright© Fixstars Group 20

21.

Agilex™ HPS 試行 Boot Loader ビルド ● HPS First ブートフロー ○ FSBL (First Stage Boot Loader) ■ ■ ■ ○ uboot-spl & Arm Trusted Firmware が起動 HPS 上の On-Chip RAM で動作 HPS ペリフェラル初期化 HPS DDR4 DRAM 初期化 SSBL (Second Stage Boot Loader) ■ ■ ■ Linux 起動用 uboot が動作 OS を RAM に展開起動する FPGA コア領域をコンフィグする ※ FSBL 動作までであれば、DRAM 不要 FPGA コンフィグはブートフロー後半で完了参照URL: https://www.intel.com/content/www/us/en/docs/programmable/683389/21-4/boot-flow-overview.html Copyright© Fixstars Group 21

https://www.intel.com/content/www/us/en/docs/programmable/683389/21-4/boot-flow-overview.html

22.

Agilex™ HPS 試行 Boot Loader ビルド ● Boot Loaderビルド実行 ○ RocketBoards.org の Building Bootloader 手順に従う https://www.rocketboards.org/foswiki/Documentation/BuildingBootloader#Stratix_10_SoC_and_Agilex ■ ただし、QSPI ブート対応のため、以下の箇所のみコメントアウト # only boot from SD, do not try QSPI and NAND # sed -i 's/u-boot,spl-boot-order.*/u-boot\,spl-boot-order = \&mmc;/g' arch/arm/dts/socfpga_stratix10_socdk-u-boot.dtsi ⇒ u-boot-spl-dtb.hex が生成される ○ ブートローダ―含む .jic ファイル生成 ■ v20.4 を使って実行した（QSPI からの起動失敗を回避するワークアラウンド） $/opt/intelFPGA_pro/20.4/quartus/bin/quartus_pfg -c ghrd_agfb014r24a2e3vr0.sof ghrd_agfb014r24a2e3vr0.jic \ -o hps_path=u-boot-spl-dtb.hex -o device=MT25QU02G -o flash_loader=AGFB014R24A2E3VR0 -o mode=ASX4 -o hps=1 ■ ○ ブートローダ―含む .sof ファイル生成 ■ JTAG 経由のダウンロードで FSBL を起動可能 $quartus_pfg -c -o hps_path=u-boot-spl-dtb.hex ghrd_agfb014r24a2e3vr0.sof ghrd_agfb014r24a2e3vr0_uboot.sof Copyright© Fixstars Group 22

https://www.rocketboards.org/foswiki/Documentation/BuildingBootloader#Stratix_10_SoC_and_Agilex

23.

[beta]

Agilex™ HPS 試行 GSRD ソフトウェアビルド
●

Linux カーネル ＆ rootfs ビルド実行
○ RocketBoards.org の Agilex SoC GSRD手順に従う
https://www.rocketboards.org/foswiki/Documentation/AgilexSoCGSRD#Building_the_GSRD

■
■

Yocto Project 4.0 Kirkstone (2 番目の LTS)
ただし、Tripple Speed Ethernet を削除したため、該当する device tree を
読み込まないように修正した
₋ gsrd_socfpga/meta-intel-fpga-refdes/recipes-bsp/device-tree/device-tree.bb 内
# GSRD DTB Generation
# MMC, QSPI
cp ${STAGING_KERNEL_DIR}/arch/${ARCH}/boot/dts/intel/socfpga_agilex_socdk.dts ${WORKDIR}
#
sed -i '/\#include \"socfpga_agilex.dtsi\"/a \#include \"socfpga_agilex_ghrd_sgmii.dtsi\"'
${WORKDIR}/socfpga_agilex_socdk.dts

⇒ Linux カーネルイメージ & rootfs が生成される
○

QSPI ブートイメージを生成
■

■

FSBL の U-boot は Boot Loader ビルドで生成した .hex ファイルに差し替える
quartus_pfg コマンドは v20.4 を使用して、jic ファイルを生成する
Copyright© Fixstars Group

23

https://www.rocketboards.org/foswiki/Documentation/AgilexSoCGSRD#Building_the_GSRD

24.

25.

デバッグ体験＆ノウハウ共有 ● デバッグ経緯 ○ 前回現象 ■ QSPI ブート後 Config done LED OFF Power Good LED OFF ⇒ 全く動いていない・・・クロック、リセット、電源？ ○ SDM 設定確認 ⇒ 問題なし ○ 切り分け ■ ■ ■ xxx_hps_debug.sof を Programmer で焼く ⇒ OK コンフィグされる xxx_hps_debug.sof を .jic に変換、QSPI ブート ⇒ NG Power Good OFF のまま L チカデザインを .jic に変換、QSPI ブート ⇒ NG Power Good OFF のまま ⇒ ツールのES品対応があやしいことに気付く ○ ワークアラウンド ■ .jic 変換を Quartus Prime v20.4 で実行 Copyright© Fixstars Group ⇒ QSPI ブートできた！ 25

26.

デバッグ体験＆ノウハウ共有 ● Boot Loader 起動ワークアラウンド ○ 切り分け ■ シンプルな DDR4 DRAMも含まない HPS のみのデザイン + FSBL ⇒ NG DDR4 DRAM は無関係 ■ u-boot を入れた .sof を Programmer で焼く ⇒ NG ツールバージョンも無関係 HPS 上で動く .hex の問題 ⇒ FSBL を変更してみることに気付く ○ ワークアラウンド ■ RocketBoards Building Bootloader 手順の u-boot-spl.hex に差し替え ⇒ FSBL U-boot が起動した！ ○ その後、DDR4 DRAM I/F IP設定デバッグ、デバイスツリー修正を実行 ⇒ Linux 起動まで到達！ Copyright© Fixstars Group 26

27.

デバッグ体験＆ノウハウ共有 ● デバッグで意識していること ○ 「デバッグは現象把握が９割」 ■ ×：一体、何が起きているんだろう？？ ⇒ 分からないことが起こっているから困っている（大抵、思いもよらないことが起こっている） ■ 〇：何が起きているのか、観測する方法はなんだろう？現象を少しでも把握するのに、何ができるんだろう？ ⇒ 切り分け、正常状態との差を見る、など手を止めずに進められる Copyright© Fixstars Group 27

28.

まとめ ● Agilex™ 評価ボードを用いて、以下の各種試行を実施した。 ○ 100GbE ネットワーク I/O 性能 ○ HPS Linux 起動 ● ネットワーク I/O 性能確認において、安定した100Gbps x 2portの通信が確認出来た ● HPS Linux ビルド上、各種ワークアラウンドを施して、 Linux の起動を確認した Copyright© Fixstars Group 28

29.

30.

31.

今回のセミナーについて ● ● これまで何回かに渡り AI Engine の基礎・使い方について解説してきました ○ Vol. 7: AI Engine を用いたアプリケーション開発 ○ Vol. 13: AI Engine の使い方とシミュレーション方法の解説 ○ Vol. 14: ACRi ルームで無償利用可能なVersal 開発カード VCK5000 を試す今回は初のマルチコア編として、行列積をターゲットに AI Engine での実装のポイントについて紹介していきます Copyright© Fixstars Group

https://speakerdeck.com/fixstars/shi-jian-de-fpgakai-fa-semina-vol-dot-7?slide=4

32.

行列積 ● ● ● DNN など多くのカーネルの主要な演算を占める処理 naive な実装だとメモリ帯域ネックだが、チューニングすると計算性能ネックとなる AI Engine で実装すると... ○ ○ メリット ■ AI Engine は演算性能の高さが強みなのでPL時と比較して大幅な性能向上が見込める課題 ■ AI Engine の限られたメモリ空間上にどのように問題を置くか？ (32KB / Tile) ■ どのように効率よくたくさんの AIE にデータを供給するか？ ● AIE 間の IF ● PL <-> AIE の IF Copyright© Fixstars Group

33.

34.

1 つの AIE で作ってみる ● ローカルメモリ (32KB) に A/B/C のブロックを格納する ○ データ type: ﬂoat (4B) ○ ブロックサイズ: 32x32 (4KiB) AIE のバッファは基本ダブルバッファなので、 ■ A/B/C 合計で 24KiB ● PL からブロック単位で読んでデータを供給する ○ PL 側の BRAM はキャッシュとして使えるので、 32x32 より大きいブロックで読めるとより効率が良い ● 作るもの ○ PL kernel (read_a, read_b, write_c) ○ AIE kernel & graph Copyright© Fixstars Group

35.

複数のコア間でどのようにデータをやり取りするか？ ● AI Engine には大量のコアが存在 ○ ● VCK5000 だと 400 一番 naive な複数コアの使い方 ○ 1 コアでやった行列積と同じ処理を横に並べる (PL 含む) ○ この実装だと、AIE <-> PL の帯域が枯渇しすぐ限界が来る ■ 400コアを使い切るには 400 個の PL 側のメモリロジックが必要になる... ■ => もう少し賢い方式を考えてみる xN Copyright© Fixstars Group

36.

AI Engine のコア間インターフェース ● ● 3種類のインターフェースを使用可能 Window Interface (赤色) ○ ○ ○ ● Stream Interface (黒色) ○ ○ ● AI Engine 内のローカルメモリを使う IF 256bits/cycle read x2, 256bits/cycle write x1 サイズに上限あり (32KB/Tile) 遠距離のコア間を接続可能。FIFO として動く 32bits/cycle x2 Cascade Interface (緑色) ○ ○ ○ AI Engine 内のアキュムレータを渡す IF ■ アキュムレータ: 計算結果を格納するための幅広な専用レジスタ (48bit, etc.) 隣接方向は1方向 384bits/cycle https://japan.xilinx.com/products/technology/ai-engine.html Copyright© Fixstars Group

https://japan.xilinx.com/products/technology/ai-engine.html

37.

今回使うインターフェース ● Window Interface (赤色) ○ ● Stream Interface (黒色) ○ ● ブロック単位の A/B/C を格納するために使用計算が終わった C を追い出すために使用 Cascade Interface (緑色) ○ 今回は未使用 https://japan.xilinx.com/products/technology/ai-engine.html Copyright© Fixstars Group

https://japan.xilinx.com/products/technology/ai-engine.html

38.

参考: Cascade Interface を使う実装 ● Vitis Libraries の行列積実装では Cascade Interface を使用している ● C[i][j] = A[i][K1]*B[K1][j] + A[i][K2]*B[K2][j] の形で並列化する ● 中間結果 C[i][j] が cascade で渡される ● accumulator を渡すので、整数型だと乗加算の広いビットのまま渡せる Copyright© Fixstars Group

https://github.com/Xilinx/Vitis_Libraries/blob/main/dsp/L1/include/aie/matrix_mult.hpp

39.

40.

41.

42.

43.

Systolic Array の動き ● 全ての演算完了後、各 Core 内のローカルメモリに計算済みの C が揃う ● 揃ったデータは、Stream Interface で PL まで持っていく ○ 接続だけ定義すればツールが勝手に出力してくれます https://japan.xilinx.com/products/technology/ai-engine.html Copyright© Fixstars Group

https://japan.xilinx.com/products/technology/ai-engine.html

44.

なぜ Systolic Array が良いのか？ ● メリット ○ ○ ● AIE 内でのデータの再利用性が高いため、 PL <-> AIE への転送量が少なく済み、PL 側がボトルネックになりにくい ■ AIE/PL 間の IF は port あたり 128bit (複数port 定義可能)。 ■ PL の周波数が遅いので、AIE 的には port あたり 32bit/cycle でしかデータが来ない複数 AIE で大きなブロックを解く感じになるので、 DRAM へのアクセス単位も大きくできて効率 up ■ PL 側は 128x128 のブロック単位で read し、それを BRAM に入れて AIE に必要な部分を渡すデメリット ○ ○ AIE の HW 的に systolic array のデータコピーは実現できないので、 CPU でコピーする必要がある AIE のコア 1 つ 1 つに計算結果の C[i][j] が残るので、それを出すのが大変 ■ ストリームで出すだけと書きましたが、 AIE -> PL 側のストリーム数にも限度があるので、内部で束ねて出したりしました... Copyright© Fixstars Group

45.

46.

Systolic Array の実装: AIE のグラフ ● グラフにはカーネル間の接続を書く ● 必要な処理 ○ カーネルの定義 (NxN 個) ○ カーネルに対する配置制約 ○ ■ systolic array の形になる用に制約する ■ adf::location<adf::kernel>(x) = (col, row) PL との接続 ■ 端のカーネルだけ入力をPL と繋ぐ ■ 全カーネルの C をストリームで出す Copyright© Fixstars Group

47.

Systolic Array の実装: PL Kernel ● read_a: ○ Systolic Array 全体分の領域をまとめて読み出し BRAM に入れる (ライン単位でバンク分けしておく) ○ 複数ラインを同時に読み出してAIE に渡す ■ AIE と PL の間には Vitis の構文で FIFOを入れておく ○ dataﬂow で AXI MM の読み出しと BRAM からの出力が同時に動くと尚良し ■ 大きいサイズを解くときにデータ供給効率 UP Copyright© Fixstars Group

48.

49.

50.

動かしてみる ● ボード: VCK5000 ○ ● ACRi ルームで動くようにしたかったが間に合わず... データサイズ: ○ (K, K) x (K, K) の対称行列 (256 の倍数) ■ ○ ● (M, K) x (K, N) の総 ops は M * N * K * 2 として計算 (256, K) x (K, 256) の行列積で K が可変 (256の倍数) 目標性能: ○ ○ コアあたりが 1.25 GHz * 16 FOPS/cycle = 20 GFLOPS ■ mac (mul + add) を 2ops 換算 ■ 実際は計算以外にもA/B の出力処理があるので多少ペナルティがかかる (10%程度) 64 コア時: 1280 GOPS Copyright© Fixstars Group

https://gw.acri.c.titech.ac.jp/wp/

51.

52.

反省点 (弁明) ● 現状の作りだと、1回の PL kernel 実行で (256, K)x(K, 256) の行列積を実行 ○ ○ ● Host 側の作りが甘いため、 1回目の C の書き出しまで全て終わってから2回目の処理が開始される ○ ○ ● K は自由に設定可能 (512, 512) x (512, 512) とか解くには 4回 PL kernel を実行する C の書き出しカーネルは実装をサボって 32bit/cycle の性能にしたから凄く時間がかかる... ちゃんとオーバーラップさせれば C の書き出し時間は無視できるようになる見込み ■ それにしても 32bit だと遅すぎたかも (256, K) x (K, 256) の K を凄く大きくした場合でも 50% 程度しか出ないのは原因調査中 ○ HW emulation を実施中... Copyright© Fixstars Group

53.

54.

AI Engine で行列積を実装してみた所感 ● ● AI Engine の計算が速すぎるので PL 側がすぐボトルネックになる ○ 今回だと (32, 32)x(32, 32) の演算に 4096 cycle (8並列) ○ AIE vs PL でクロック換算すると 4:1 くらいはあるのでPL 的には 1024 cycle で計算完了 ○ PL は 1024 cycle の間に 32x32 の入力データ x2 を用意する必要がある ■ AIE のコア数が増えると更に必要なレートは増えていく... ■ systolic array にしてデータの再利用性を高めるなどにして、転送量を減らす必要あり上記の理由より、PL 側の設計はちゃんとしておく必要がある ○ データ幅, ポート数, DRAM 帯域, etc. ○ AIE <-> PL が 128bit だから DRAM 側も 128 bit にしたら全然性能が足りませんでした... Copyright© Fixstars Group

55.

まとめ ● AIE の複数コアを使って行列積を実装してみた ○ Systolic Array 型のアーキテクチャにより、 AIE 内で効率よくデータを再利用した ○ ● 性能は理論の 50% 程度しか出ていないので、要プロファイリング PL 側がボトルネックになりがちなので、ちゃんと数値ベースで検討することがすごく大事 ● AIE も PL も自由度が高いアーキテクチャなので、もっと効率の良い解き方はありそうな印象 ○ cascade を使用して K ループ方向の並列性を抽出, etc. ○ 色々と考えてみると面白いかもしれません Copyright© Fixstars Group

56.