実践的！FPGA開発セミナー vol.17 （2022/12/22）

1.8K Views

December 22, 22

#fpga #fpga開発 #fpga開発シリーズ #FPGA開発 #HLS #Intel HLS #モジュール開発 #FPGA実装

スライド概要

フィックスターズならではの「FPGA」に関する高速化手法、効率的な開発ノウハウ、苦労話などについてお話しいたします。

＜講演内容＞

1．本講演～Intel HLS を利用したモジュール開発～
Intel HLS は Intel Quartus Prime で無償利用可能な高位合成ツールです。
高位合成が普及している中、Intel FPGA ユーザーであれば適用を検討するべきツールですが、まだ公開事例を見かけることが少ない状況です。
今回のセミナーでは、基本的な使い方や特徴、Xilinx Vivado/Vitis HLS との違い、モジュール開発時のハマりポイントや注意点などをお話します。

2．Lightning Talk！
1、Vitis HLS 2022.1 で追加された performance pragma を使ってみる
2、格安FPGAボード Tang Nano 9Kで試すFPGA Ethernet通信

・当社技術ブログ記事：　https://proc-cpuinfo.fixstars.com/

・フィックスターズグループ／セミナー一覧：　https://www.fixstars.com/ja/seminar

・フィックスターズのFPGAシステム開発：　https://www.fixstars.com/ja/services/fpga

株式会社フィックスターズ

@fixstars

スライド一覧

フィックスターズは、コンピュータの性能を最大限に引き出すソフトウェア開発のスペシャリストです。車載、産業機器、金融、医療など、幅広い分野での開発経験があります。また、ディープラーニングや機械学習などの最先端技術にも力を入れています。並列化や最適化技術を駆使して、マルチコアCPU、GPU、FPGA、量子アニーリングマシンなど、さまざまなハードウェアでソフトウェアを高速化するサービスを提供しています。さらに、長年の経験から培ったハードウェアの知識と最適化ノウハウを活かし、高精度で高性能なアルゴリズムの開発も行っています。　　　　　　・開催セミナー一覧：https://www.fixstars.com/ja/seminar　　・技術ブログ：https://proc-cpuinfo.fixstars.com/

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Kaggleスコアアップセミナー～画像系コンペ入門[前編]（2023/08/02）

kaggle 画像処理機械学習深層学習ディープラーニングコンペ初心者 kaggleスコアアップシリーズ

株式会社フィックスターズ 78.7K

いまさらきけないCUDA高速化（2024/12/19）

cuda gpu llm nvidia 高速化

株式会社フィックスターズ 68K

いまさら聞けない ARM を使ったNEONの基礎と活用事例（2021/08/05）

arm neon

株式会社フィックスターズ 64.6K

ROS2自律走行実現に向けて 2 ～次世代ロボット開発フレームワークROS2のビルドシステム徹底理解～（2022/11/30）

ros2 gpu ロボット自律走行 ros2シリーズ高速化シリーズ

株式会社フィックスターズ 57.8K

いまさら聞けない！CUDA高速化入門～プログラミングモデルとアーキテクチャの解説、高速化の実践～（2021/10/29）

cuda gpu cuda高速化高速化シリーズ

株式会社フィックスターズ 53.4K

CUDA高速化セミナー vol.2 ～CUDAアーキテクチャの進化～（2022/06/23）

gpu cuda cuda高速化高速化シリーズ cuda高速化シリーズ

株式会社フィックスターズ 48K

各ページのテキスト

高位合成(HLS) とは ● 高位合成(HLS) = C/C++ でFPGA の実装ができる？ ○ ・・・正しいが、正確ではない高位合成 C/C++ Code High-Level Synthesis 合成/配置配線 Verilog/VHDL Code Synthesis/Implement FPGA Bitstream ● 高位合成(HLS) とはC/C++ からVerilog/VHDL を生成すること ○ HLS だけでFPGA の実装が完了することは稀である ○ Fixstars ではHLS はIP やモジュールの開発に使用し、トップレベルのデザインはVerilog や IP 結線を行うシステム構築ツールで実装することが多い Top Level (Verilog, IP Integrator) Module by IP Catalog Module by HLS Module by Verilog Copyright© Fixstars Group Module by HLS 5

HLS の原理的にしんどいところ ● 「C/C++ からVerilog/VHDL を生成する」 ○ C/C++ : ソフトウェアを表現するための、逐次処理を記述する言語 ○ Verilog/VHDL: ハードウェアを表現するための、並列処理を記述する言語 ○ ・・・別のものを表現するために生まれた両者をつなぐのは原理的にしんどい ● しんどいが故に以下のようなことが起こりがち ○ 既存のC/C++ コードをそのまま持ってきても高位合成できない ■ 最近はこういうことを言う人は減ってきたかな ○ 高位合成はできたが、期待した性能に届かない ■ 書き方を工夫したり、pragma を活用しないと性能は出ないことが多いです ○ ソフトウェアエンジニアでも開発できると思ったのにやっぱりできない ■ 高位合成で加速するアクセラレータ開発 (2) ～高位合成と C ベース設計 1章を読むと共感できます ● HLS は魔法のツールではない！ Copyright© Fixstars Group 6

https://www.acri.c.titech.ac.jp/wordpress/archives/8675

ではなぜわざわざHLS を使用するのか ● モジュール実装のTAT が大きく向上するから ○ C/C++ で実装するので、ソフトウェアベースでテストが可能 ■ ハードウェアベースのテスト(Co-simulation)と比較して非常に短い時間で完了する ■ 機能面の抜け漏れや論理的なバグはこの段階で潰せる ○ 高位合成時にモジュール本体だけでなくテストもハードウェア化してくれる ■ Verilog/VHDL でテストを書き直す必要がない ■ ハードウェア化時に仕込まれたバグもここで弾くことができる ○ 汎用的なインターフェースのコード実装を省略できる ■ ハンドシェイクを行うインターフェースのRTL 実装は、テストを含め意外と面倒 ● 時間のかかるFPGA 開発で、モジュール実装TAT の向上は非常に助かる ○ HLS で機能的には正しいことを(一応)保証してくれるので、性能向上に集中できる ○ Fixstars ではどうしても性能がでない場合を除き、ほとんどのモジュール開発でHLS を利用 Copyright© Fixstars Group 7

代表的なHLS ● Vivado/Vitis HLS: 無償: 2013年~ ○ AMD Xilinx が自社製品向けに提供しているHLS ○ Web 上にたくさん情報があり、Fixstars でもよく使用している ● Intel High-Level Synthesis: 無償: 2017年~ ○ Intel FPGA が自社製品向けに提供しているHLS ○ Vivado/Vitis HLS と比較すると情報は少ないが、Fixstars では最近使用する機会が増えている ● その他 EDA ベンダ提供の HLS:有償 ○ Catapult HLS (Siemense) ○ Stratus HLS (Cadence) ■ etc... ○ ASIC 業界での利用が多く、Fixstars での使用経験はほとんどない(はず) ● 本日はIntel HLS についてお話します。参考: https://en.wikipedia.org/wiki/High-level_synthesis Copyright© Fixstars Group 8

https://en.wikipedia.org/wiki/High-level_synthesis

[beta]

Intel HLS について
● Intel FPGA の開発ツールQuartus Prime に含まれていて無償利用可能
○ /path/to/intelFPGA_pro/<version>/hls/bin/i++
○ i++ はg++ を模していて、ソースコードとオプションを指定すれば高位合成可能
■ Vitis HLS のプロジェクトベースで高位合成するスタイルとは異なる

● 下記のようなモジュールを実装するときのコードとコマンドを例示
○ unsigned int 8 bit x 8 のvector 同士の足し算をするモジュール
■ 入出力はAvalon-ST 64 bit 形式
Input A :{ 8, 7, 6, 5, 4, 3, 2, 1}
Input B :{16, 14, 12, 10, 8, 6, 4, 2}

vecadd

Copyright© Fixstars Group

Output :{24, 21, 18, 15, 12, 9, 6, 3}

9

10.

モジュールのテストコード Intel HLS 実装例 vecadd_test.cpp モジュール本体 vecadd.cpp モジュールへのテストデータを生成 2 つの入力stream からデータをread しa, b に格納下記を要素数分繰り返す入力データをコンソールに表示データ内の各要素に対して加算を実行し、out に格納入力データを入力stream に格納 out に格納したデータを出力 stream にwrite モジュールを呼び出し出力データを出力streamからread 出力データをコンソールに表示 Copyright© Fixstars Group 10

11.

Intel HLS 実行例 x86 emualtion: ソフトウェアベースでのテスト Co-simulation: ハードウェアベースでのテスト $ i++ vecadd.cpp vecadd_test.cpp -march=x86-64 $ i++ vecadd.cpp vecadd_test.cpp -march=Agilex -ghdl モジュールコードテストコード x86 emulation を指定モジュールコードテストコード Co-simulation 実行のテスト時のためにデバイスを指定波形を保存数秒でビルド完了 -> テストを実行 1分程度で高位合成完了 -> テストを実行 $ ./a.out a = 0, 1, 2, 3, 4, 5, 6, 7 b = 0, 2, 4, 6, 8, 10, 12, 14 out = 0, 3, 6, 9, 12, 15, 18, 21 $ ./a.out a = 0, 1, 2, 3, 4, 5, 6, 7 b = 0, 2, 4, 6, 8, 10, 12, 14 out = 0, 3, 6, 9, 12, 15, 18, 21 1秒未満で実行完了 1分程度でシミュレーション完了実行結果に問題がなければCo-simulation へ ➚ 問題があれば修正、このTAT が短いことが利点実行結果に問題がなければテストは完了 x86 emulation はOK でもCo-simulation でNG のパターンもよくあるので注意 Copyright© Fixstars Group 11

12.

Intel HLS のレポート、シミュレーション波形高位合成レポートはHTML 形式で出力されるシミュレーション波形は下記コマンドで確認可能 $ firefox ./a.prj/reports/report.html $ vsim ./a.prj/verification/vsim.wlf 性能面に問題があればコードを修正 & テストレポートだけでは分からないことは波形で確認 - レイテンシ : レポートのレイテンシサイクル数を確認スループット: レポートのII(Initiation Interval) を確認 - Copyright© Fixstars Group モジュール起動までサイクル数モジュールを複数回連続実行したときのII 12

13.

AMD Xilinx Vivado/Vitis HLS との違い ● 細かい記述方法の差はあるが、大きくは変わらないと考えてよい ○ あえて挙げるとすれば下記となる項目高位合成用のプロジェクト標準バス性能の最適化コメント Intel HLS Vivado/Vitis HLS 不要必要 Git 管理するときはプロジェクト不要の方が嬉しいが、決定的な差ではない Avalon AXI 共にMM, Stream があり、Quartus, Vivado との連携良好プラグマなしでも、ある程度最適化プラグマで都度指示最終的には両者ともプラグマで指示をすることになる * プラグマ: 高位合成時の指示のこと性能チューニング時に多用する ● 両社とも、自社製品以外でのそれぞれのHLS の利用を許可していないので、開発対象デバイス次第でどちらを利用するか決まる ○ どちらかに触れたことがあれば、大きな違和感なく開発が行えるはず Copyright© Fixstars Group 13

14.

小ネタ: 開発時にハマったこと ● Stream で入力されるパケットから固定長のHeader を取り除き、 Body だけを出力するモジュールをIntel HLS で開発 Header Body 14 Byte N Byte (N ≧ 46) Module X by Intel HLS Body N Byte (N ≧ 46) ● 性能面の要求として、100 Gbps 以上のスループットが求められる ○ Stream を512 bit 幅とし、モジュールを250 MHz かつII=1 で動作させようと考えた ■ 512 bit * 250 MHz / 1 = 128 Gbps * II: Initiation interval, II=1 だと、Stream を連続入力して処理できる ● 簡単そうに見えるが、実は少しむずかしい Copyright© Fixstars Group 14

15.

小ネタ: 開発時にハマったこと ● Stream の幅(512 bit=64 Byte) の関係で、Body Size で場合分けが発生する ○ 可変長の長さのパケットは、64 Byte 単位で切られて入出力され、入力と出力でStream の切れ目が異なることに注意(下図の点線) Pattern A 0 1 2 Pattern B 3 入力入力出力出力 0 1 2 0 1 0 出力0は、入力0,1 が入ってからでないと出力できない出力1は、入力2が入ったら出力できる出力2は、入力3が入ったら出力できる 2 1 3 2 3 出力0は、入力0,1 が入ってからでないと出力できない出力1は、入力2が入ったら出力できる出力2, 3 は、入力3が入ったときに連続して出力する必要があるこの実装が大変だった Copyright© Fixstars Group 15

16.

小ネタ: 開発時にハマったこと ● 最後の連続出力を記載すると、II=1がどうしても達成できない ○ Intel HLS の特性なのか、同一の出力ポートへのwrite が2行あると、II=2 になるようだ ● どうしたか？ -> 出力ポートを2つに増やした ○ 異なるポートへのwrite であれば、2行書いてもII=1 になった ○ 後段にMerge module を追加したが、これはHLS でII=1 で問題なく記述することができた入力通常の出力 Module X by Intel HLS 最後の一回専用の出力出力 Merge module by Intel HLS ● よりスマートな方法があるかもしれないので、情報提供お願いします🙇 Copyright© Fixstars Group 16

17.

18.

19.

20.

21.

https://docs.xilinx.com/r/ja-JP/ug1399-vitis-hls/pragma-HLS-performance

22.

Performance pragma の使い方 ● 構文: #pragma HLS performance target_ti=N ● ドキュメントのコード例で解説 ○ i ループが 1000 cycle で終わるように制約する ○ j ループの unrolling や b の array_partition が自動で適用される https://docs.xilinx.com/r/ja-JP/ug1399-vitis-hls/pragma-HLS-performance Copyright© Fixstars Group

https://docs.xilinx.com/r/ja-JP/ug1399-vitis-hls/pragma-HLS-performance

23.

実際に使ってみる: vecadd ● まずはシンプルに vecadd。入出力のIF は AXI MM ● レポート上で Performance Pragma の目標値を達成できたかを確認できる ● シンプルな例なのに ti=1024 (II=1) を達成できず => AXI MM が 1port しかなく、 a, b の読み出しに 2サイクルかかるため Copyright© Fixstars Group

24.

25.

26.

27.

28.

実際に使ってみる: matmul (32並列, cont.) ● どんな回路が生成されているのか？ => レポートに記載があった ● b を cyclic にしているので j ループを展開していそうに見えるが詳細は不明 https://docs.xilinx.com/r/ja-JP/ug1399-vitis-hls/%E9%85%8D% E5% 88% 97%E3%81%AE%E5%88%86%E5%89%B2 Copyright© Fixstars Group

https://docs.xilinx.com/r/ja-JP/ug1399-vitis-hls/配列の分割

29.

30.

まとめ ● performance プラグマを試してみた ● interface 部分は最適化対象外なので、そこは手動で設計が必要 ● array_partition 等の自動推論部分は優秀で、行列積くらいなら良い感じに制約をかけてくれる ○ ただし、その制約が最適なのかどうかは確認した方が良さそう ● とりあえず performance プラグマを使用してみて、良い回路が出ない場合は手動で制約をかけるような形が有用と思われる Copyright© Fixstars Group

31.