CUDA高速化セミナーvol.3 ～ソフトウェア高速化と深層学習～（2022/07/28）

2.1K Views

July 28, 22

スライド概要

CUDA高速化セミナーシリーズの第三回として、ソフトウェア高速化技術の基礎知識と深層学習技術の仕組みを説明し、その後深層学習における処理の高速化の手法について解説します。

深層学習に関連する研究又は開発業務を行っていて、学習・推論処理の高速化に興味がある方にオススメの内容となっております。

＜講演内容＞
・ソフトウェア高速化の基礎技術と深層学習技術の仕組みの解説
・深層学習における高速化についての解説

＜過去資料＞
・vol.1　画像処理アルゴリズムの高速化：　https://www.docswell.com/s/fixstars/K24MYM-20220527
・vol.2　CUDAアーキテクチャの進化：　https://www.docswell.com/s/fixstars/5RXQJ2-20220623
・vol.3　ソフトウェア高速化と深層学習：　
https://www.docswell.com/s/fixstars/5DEJQD-20220728
・vol.4　TensorRT化のワークフロー事例紹介：　https://www.docswell.com/s/fixstars/524MGM-20220825
・vol.5 　画像処理アルゴリズムの高速化２：https://www.docswell.com/s/fixstars/ZQ81QX-20220929

株式会社フィックスターズ

@fixstars

スライド一覧

フィックスターズは、コンピュータの性能を最大限に引き出すソフトウェア開発のスペシャリストです。車載、産業機器、金融、医療など、幅広い分野での開発経験があります。また、ディープラーニングや機械学習などの最先端技術にも力を入れています。並列化や最適化技術を駆使して、マルチコアCPU、GPU、FPGA、量子アニーリングマシンなど、さまざまなハードウェアでソフトウェアを高速化するサービスを提供しています。さらに、長年の経験から培ったハードウェアの知識と最適化ノウハウを活かし、高精度で高性能なアルゴリズムの開発も行っています。　　　　　　・開催セミナー一覧：https://www.fixstars.com/ja/seminar　　・技術ブログ：https://proc-cpuinfo.fixstars.com/

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 3.34MB)

関連スライド

各ページのテキスト

これまでのウェビナー紹介資料は Speaker Deck をご覧ください https://speakerdeck.com/fixstars/ いまさら聞けない CUDA 高速化入門 https://speakerdeck.com/fixstars/imasarawen-kenai-cudagao-suhua-ru-men 画像処理アルゴリズムの高速化 https://speakerdeck.com/fixstars/cudagao-su-hua-seminavol-dot-1hua-xiang-chu-li-arugorizumufalsegao-su-hua CUDA アーキテクチャの進化 https://speakerdeck.com/fixstars/cudagao-su-hua-seminavol-dot-2cudaakitekutiyafalsejin-hua Copyright © Fixstars Group

発表者紹介冨田明彦二木紀行ソリューションカンパニー執行役員ソリューション第一事業部エグゼクティブエンジニア前職では組込み向けCPUのデジタル設計に携わる。2008年にフィックスターズへ入社。金融、医療業界において、ソフトウェア高速化業務に携わる。その後、新規事業企画、半導体業界の事業を担当し、現職。理化学研究所でスーパーコンピュータを利用したバイオ系の研究に10年以上携わる。2010年にフィックスターズへ入社。GPUプログラムの高速化、分散並列処理、深層学習のアーキテクチャ開発まで、幅広く業務を担当。SC06でゴードン・ベル賞を受賞。博士(薬学)、薬剤師。 Copyright © Fixstars Group 4

フィックスターズの強みコンピュータの性能を最大限に引き出す、ソフトウェア高速化のエキスパート集団ハードウェアの知見目的の製品に最適なハードウェアを見抜き、その性能をフル活用するソフトウェアを開発します。アルゴリズム実装力各産業・研究分野の知見ハードウェアの特徴と製品要求仕様に合わせて、アルゴリズムを改良して高速化を実現します。開発したい製品に使える技術を見抜き、実際に動作する実装までトータルにサポートします。 Copyright © Fixstars Group 6

サービス提供分野半導体産業機器金融自動車 ●NAND型フラッシュメモリ向けファームウェア開発 ●次世代AIチップの開発環境基盤生命科学 ●Smart Factory実現への支援 ●マシンビジョンシステムの高速化 ●自動運転の高性能化、実用化 ●ゲノム解析の高速化 ●次世代パーソナルモビリティの研究開発 ●医用画像処理の高速化 Copyright © Fixstars Group ●デリバティブシステムの高速化 ●HFT(アルゴリズムトレード)の高速化 ●AI画像診断システムの研究開発 8

10.

AI・深層学習向け技術支援 AIを使うためのハードウェア選定や、高速な計算を実現するソフトウェア開発技術で、お客様の製品開発を支援します。お客様の課題ご支援内容推論精度を維持したまま計算時間を短縮したい組込みデバイス向けにAIモデルを軽量化 AIモデル設計データの前処理・後処理したい推論精度の改善学習計算を高速化して研究開発を効率化したい分散処理による学習高速化精度と計算時間を両立するAIモデルをモデル圧縮・推論の高速化開発したい Copyright © Fixstars Group

11.

画像処理アルゴリズム開発高速な画像処理需要に対して、経験豊富なエンジニアが責任を持って製品開発をご支援します。お客様の課題ご支援内容高度な画像処理や深層学習等のアルゴリズムを開発できる人材が社内に限られているアルゴリズム調査・改変課題に合ったアルゴリズム・実装手法を調査製品実装に向けて適切な改変を実施機能要件は満たせそうだが、ターゲット機器上で性能要件までクリアできるか不安深層学習ネットワーク精度の改善様々な手法を駆使して深層学習ネットワークの精度を改善製品化に結びつくような研究ができていない論文調査・改善活動論文調査から最先端の手法の探索性能向上に向けた改善活動を継続 Copyright © Fixstars Group

12.

GPU向け高速化高性能なGPUの本来の性能を十分に引き出し、ソフトウェアの高速化を実現します。お客様の課題ご支援内容 GPUで計算してみたが期待した性能が出ない GPU高速化に関するコンサルティング GPU/CPUを組み合わせた全体として最適な CPU・GPU混在環境でのシステム設計設計がしたいアルゴリズムのGPU向け移植原価を維持したまま機能を追加するため、もう少し処理を速くしたい GPUプログラム高速化品質確保のため、精度を上げたく演算量は増継続的な精度向上えるが性能は維持したい Copyright © Fixstars Group

13.

14.

15.

アジェンダ ● ソフトウェア高速化 ● ● ○ ソフトウェア高速化とは何か? ○ 速度×電力×場所 ○ 高速化を行うためのハードウェア ○ 高速化の手段深層学習 ○ 深層学習と高速化 ○ ニューラルネットワーク ○ 「推論」と「学習」 ○ 畳み込みニューラルネットワーク(CNN) ○ 誤差逆伝播法 ○ バッチ処理 ○ 行列計算 GPUと高速化 ○ 分散並列化 ○ さらなる高速化 Copyright © Fixstars Group 15

16.

ソフトウェア高速化とは何か? ● プログラムを速くすること ● 例えば、あるリストを昇順に並び替えるプログラムが遅いので速くしたい ○ 速いアルゴリズムを使用 ■ 遅い: 隣接する値を比較して入れ替えていくバブルソート ■ 速い: ある基準値未満と以上の2グループに分割して処理していくクイックソート ○ 既存のライブラリやフレームワークを使用 ○ 速いコンピュータを使用 ○ 既にソート済みの数列を使用 ● 目的を達成できればOK ○ 条件と制約 – 高速化をするにあたり検討 Copyright © Fixstars Group 16

17.

18.

19.

20.

21.

22.

23.

24.

FPGAとASIC ● FPGA (Field Programmable Gate Array) ○ プログラミング可能な集積回路 ○ 作成した集積回路は後から書き換え可能 ■ 目的に合わせた処理が可能 ● ASIC（Application Specific Integrated Circuit） ○ ○ ○ ○ ○ 設計後の変更が困難初期投資に費用がかかる消費電力が低い動作が高速大量に生産する場合に単価が安い ● 集積回路の設計には、Verilog HDLやVHDLなどのハードウェア記述言語を利用 Copyright © Fixstars Group 24

25.

クラウドコンピューティング ● コンピュータネットワークを介して、コンピュータの処理能力をサービスとして遠隔から提供 ○ AWS (Amazon Web Services) ○ GCP (Google Cloud Platform) ● 手元の端末が貧弱であってもクラウド側のサーバが処理を ● することで高度で高速な演算が可能利用者は電力やスペースの制約を考慮する必要がない ● セキュリティの厳しいスタンドアロンのシステムなどでは利用が困難 ○ ネットワークの外に出せないような機密データ ● レイテンシが重要視されるシステムには向かない Copyright © Fixstars Group 25

26.

エッジデバイス ● インターネットに接続された装置のこと ○ スマートフォン ○ インターネット家電 ● クラウドコンピューティングにより情報を高速に処理可能 ● エッジデバイス側で高度な処理を行うエッジコンピューティング ○ ネットワークの遅延やサーバの負荷を低減し、高性能演算を可能に ○ エッジデバイスにおける高速化はシステム全体へ大きく寄与 Copyright © Fixstars Group 26

27.

28.

量子コンピュータ ● 従来のコンピュータでは現実的な時間で解くことが困難な問題に対して、量子力学的な現象を利用して効率的に解くためのコンピュータ ● 量子力学的な現象 ○ 2つ以上の状態を同時に取り得る事象 ○ 「量子ビット」で表現 ○ 複数の状態を表現できる量子ビットに対して量子力学的な操作を行い、それらを観測することで結果を得る ● まだ開発途上の技術 ○ 一般的に利用できるようになるまでにはしばらくかかる見込み ○ 組合せ最適化問題に特化している量子アニーリングマシン ○ NISQと呼ばれる誤り訂正機能のない量子コンピュータ Copyright © Fixstars Group 28

29.

30.

31.

32.

ライブラリの利用 ● 最適化されたライブラリやフレームワークの使用して高速化 ● GPUを利用した汎用深層学習ライブラリ ○ PyTorch ○ TensorFlow ● NVIDIA GPUによる深層学習用ライブラリcuDNN ○ 深層学習ライブラリのコア技術として組み込まれる ● 推論の実行に関しては、複数レイヤにまたがる処理に対してメモ ● リ使用量の削減やカーネルの最適化を行うTensorRT 数値演算の高速化 ○ Intel CPU用のMKL (Math Kernel Library) ○ NVIDIA GPU用のcuBLAS Copyright © Fixstars Group 32

33.

高速化を行う前に ● 調査・分析・検証 ○ 対象を調べて必要なことを見つける ● プロファイリング ○ 対象を調べる方法の一つであり、各関数の実行時間や呼び出し回数などがわかる ● ボトルネック ○ 最も時間のかかる場所のことであり、そこを改善することにより全体の性能が顕著に向上 ● リファクタリング ○ 直接の性能を向上させるものではなく、改善や改良を行う際に高い作業効率が期待できる Copyright © Fixstars Group 33

34.

深層学習と高速化 ● 深層学習について ○ 単純なニューラルネットワークから始まり、複雑な CNNやRNNなどの様々なアーキテクチャが存在する ○ 「学習」によりニューラルネットワークモデルを作り、そのモデルを使って「推論」を行う ● 高速化の必要性 ○ 深層学習のアーキテクチャのほとんどは膨大な計算を行う必要がある ○ 深層学習を行う対象や環境は様々であり、それぞれに適した処理能力が必須となる ● 速度と精度 ○ 深層学習を利用する上で精度は最も重要 ○ 環境や目的に合わせて判断する必要がある Copyright © Fixstars Group 34

35.

36.

「推論」と「学習」 ● ニューラルネットワークモデル ○ 計算に必要な複数のパラメータを持ち、多くの場合、それを多層で表現される ● 推論とはモデルを使って結果を求めること ○ 入力データに対して、モデルの持つパラメータを使って計算を行い、出力結果を得る ● 学習とはモデルのパラメータを決定すること ○ 学習データを使って、モデル内のパラメータを計算で決定する Copyright © Fixstars Group 36

37.

38.

39.

Softmax Affine ReLU Affine ReLU Affine ReLU ○ 前述のネットワークモデル ReLU Affine ● 全結合層 Affine 畳み込みニューラルネットワーク(CNN) ● CNNの構造 ○ Convolutionレイヤ(畳み込み層) Copyright © Fixstars Group Softmax Affine ReLU Affine ReLU Conv Pooling ReLU Conv Pooling ReLU Conv ○ Poolingレイヤ(プーリング層) 39

40.

畳み込み層 ● 各層を流れるデータは形状のあるデータ ○ 3次元データなど ○ 画像は通常、縦・横・チャンネルの3次元形状 ● 全結合層の問題点 ○ データの形状が反映されない ○ 全結合層の入力では1次元に変換が必要 ○ 画像は3次元の形状で、これには空間的情報が含まれている ● 畳み込み層は形状を維持する ○ 畳み込み層の入出力データを特徴マップと呼ぶ Copyright © Fixstars Group 40

41.

42.

43.

44.

45.

3次元データの畳み込み演算 1 4 1 0 2 3 0 3 1 0 1 3 2 2 0 2 2 0 1 0 3 1 2 0 1 4 1 0 4 3 0 2 0 2 0 1 3 0 2 2 1 3 0 1 2 3 0 2 0 ⊙ 2 0 1 0 1 0 0 1 1 0 0 1 1 0 3 1 0 2 1 3 2 0 39 33 2 15 44 0 2 1 入力データフィルター出力データ入力データとフィルターのチャンネル数は同じ値にする必要がある Copyright © Fixstars Group 45

46.

47.

プーリング層の特徴 ● プーリング層の特徴: ○ 学習パラメータがない ○ チャンネル数は変化しない ○ 微小な位置変化に対して影響をあまり受けない 1 4 1 0 2 3 0 3 1 0 1 3 2 2 0 2 2 0 1 0 3 1 2 0 1 4 1 0 4 3 0 2 0 2 0 1 3 0 2 2 1 3 0 3 2 4 0 2 2 3 1 3 4 3 4 3 2 2 2 1 入力データ出力データ Copyright © Fixstars Group 47

48.

49.

50.

51.

バッチ処理 ● 入力データを一つずつ計算せずに、まとめて計算すること ● 入力データはネットワークモデル(パラメータ) に対して内積計算を行うが、複数の入力データをまとめて行列として扱うことで効率的に計算できる ○ 複数のデータを一つずつ処理する際のオーバヘッドの削減 ○ 行列計算に最適化されたライブラリの利用 ○ GPUを利用することでさらに高速化 Copyright © Fixstars Group 51

52.

行列計算 ● 行列計算はGPUによる高速化が可能 ● CNN内の計算 ○ 畳み込み層やプーリング層では3次元以上のデータを扱う必要がある ■ 例えば、高さ・横幅・チャンネル(RGBなど)・データ数(バッチ処理による)の4次元のデータ ○ 3次元以上のデータを2次元に変換 ■ フィルターの適用領域が重なる場合、メモリ消費は大きくなる ○ 入力データとフィルターを2次元に変換し内積を取る ○ 最後に出力データの次元を変換すれば完了 ● ループ処理のオーバヘッド削減や最適化された内積演算プログラムの利用により高速化を期待できる Copyright © Fixstars Group 52

53.

54.

GPUと高速化 ● NVIDIAなどによるGPUデバイスでは深層学習に特化した最適化・高速化された ● ● ● ● ライブラリや深層学習フレームワークなどの利用深層学習フレームワークで対応していなかったり、利用したい機能が実装されているとは限らないライブラリの関数を直接利用する、デバイスに特化したコードを専用に記述する必要があるライブラリにされていないような最新技術の利用や、対象のデータ構造を利用した効率的なメモリアクセスを考慮するような最適化を行う場合なども独自に設計・実装が必要 PyTorchやTensorFlowなどの深層学習フレームワークのソースコードに対し、必要なコードを追加・修正することで対応 Copyright © Fixstars Group 54

55.

分散並列化 ● 複数のコンピュータを使って計算を行う分散並列化による高速化 ○ データ転送のためのネットワーク帯域がボトルネックになる可能性 ○ 物理的にネットワークを高速にしたり、データ転送を少なくするようなアルゴリズムを適用 ● データ並列 ○ 複数のプロセスそれぞれに同じニューラルネットワークモデルを複製して、それらに対して分割した入力データを計算させる方法 ○ 各データはそれぞれのプロセスで計算され、通常はパラメータの更新時に各プロセスを同期 ● モデル並列 ○ 1つのニューラルネットワークモデルに対し複数のプロセスを割り当てて計算させる方法 ○ 1台のコンピュータでは扱いきれないような巨大なパラメータを持つモデルでも複数のコンピュータを使って演算処理が可能 ○ 実装が煩雑でプロセス間のデータ通信量がボトルネックになりやすいという欠点がある ● 最近の深層学習フレームワークの多くが分散並列処理の機能を有している ○ PyTorch ○ TensorFlow Copyright © Fixstars Group 55

56.

さらなる高速化 ● ● ● ● 畳み込み演算の高速化 ○ 高速フーリエ変換(FFT) ○ Winogradアルゴリズム ○ NVIDIA cuDNNライブラリで実装枝刈り ○ ネットワークモデルのパラメータが0に近いなど、計算結果に影響が小さいと判断される要素を省き疎行列にすること ○ データサイズが小さくなることで計算量が少なくなり高速化が期待される量子化 ○ 小さいビット数で表現することでデータサイズを小さくする ○ 近年では16 ビットで表現される半精度浮動小数点演算を搭載したハードウェアが登場 ○ 半精度浮動小数点演算ではデータサイズが通常の半分になることから消費メモリが少なく済み、半精度演算に特化した GPUの機能により高速演算が可能二値化 ○ 重みなどを1ビットとして扱うことで、使用メモリ量の削減と演算速度の高速化が期待 ○ ハードウェア的にメモリ制約が厳しいFPGAやエッジデバイス上で顕著な効果が見込まれる Copyright © Fixstars Group 56

57.

まとめ「高速化×深層学習×GPU」 ● 高速化×深層学習 ○ 高速化の目的や対象、環境などにより、様々な手段や方法がある ○ 深層学習は様々な状況で利用されており、高速化についても多様な方法がある ○ 深層学習は現実的な時間で実行可能な方法を備えているが、それでも膨大な計算量を処理するためにさらなる高速化が求められている ● 深層学習×GPU ○ GPUは深層学習に対する高速化に大きく寄与している ○ GPUは深層学習に特化した複数の機能を組み込んでいる ○ 目的とコストの観点からも、現状では深層学習の実用化に必須のデバイスとなっている Copyright © Fixstars Group 57

58.

CUDA高速化セミナーvol.3 ～ソフトウェア高速化と深層学習～（2022/07/28）

株式会社フィックスターズ

関連スライド

Kaggleスコアアップセミナー～画像系コンペ入門[前編]（2023/08/02）

いまさら聞けない ARM を使ったNEONの基礎と活用事例（2021/08/05）

Kaggleスコアアップセミナー～画像系コンペ入門[後編]（2023/09/26）

ROS2自律走行実現に向けて 2 ～次世代ロボット開発フレームワークROS2のビルドシステム徹底理解～（2022/11/30）

いまさら聞けない！CUDA高速化入門 ～プログラミングモデルとアーキテクチャの解説、高速化の実践～（2021/10/29）

ROS2自律走行実現に向けて 1 ～次世代ロボット開発フレームワークROS2のビルドシステム徹底理解～（2022/10/17）

各ページのテキスト

いまさら聞けない！CUDA高速化入門～プログラミングモデルとアーキテクチャの解説、高速化の実践～（2021/10/29）