推論ライブラリを実装する

13.1K Views

December 13, 23

#unity #unity3d #cedec2023 #AI #機械学習 #ONNX #Unity #推論

スライド概要

2023/8/23〜25に開催された CEDEC 2023 の講演スライドです。
講師：大前広樹（ユニティ・テクノロジーズ・ジャパン株式会社）

Unity Technologies Japan

@UnityJapan

スライド一覧

リアルタイム3Dコンテンツを制作・運用するための世界的にリードするプラットフォームである「Unity」の日本国内における販売、サポート、コミュニティ活動、研究開発、教育支援を行っています。ゲーム開発者からアーティスト、建築家、自動車デザイナー、映画製作者など、さまざまなクリエイターがUnityを使い想像力を発揮しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

UnityのVR開発環境の現状整理 2022

unity unitysync

Unity Technologies Japan 188.1K

UIもshaderで盛る！〜 shaderとanimationで作るリッチなUI演出

unity unitysync

Unity Technologies Japan 144.9K

オープンソース自動運転シミュレーター「AWSIM」のご紹介と実装事例

unity unitysync

Unity Technologies Japan 123.4K

トゥーンシェーダー応用編～楽して破綻のないアウトラインを目指して～

unity unitysync

Unity Technologies Japan 103.4K

モバイル向け大量描画テクニック

unity unitysync

Unity Technologies Japan 87.8K

【Unity道場 2月】シェーダを書けるプログラマになろう

gpu unity unity3d shader unity道場 unitydojo unity道場 2月~シェーダを書けるプログラマになろう~

Unity Technologies Japan 82.8K

各ページのテキスト

推論ライブラリを実装するユニティ・テクノロジーズ・ジャパン株式会社大前広樹

2 *ただし、周囲の受講者にご配慮下さい

3 AI

4 AI SUGOI “‘X{)$(O’&Q 3重耐性 49連勝 3点振り $@%#” Babu Babu ２０２２年までは・・・

5 AI AI AI AI AI ２０２３年

AIは世界的なトレンドになり世界を急激に変え始めている技術者としてもそろそろ避けて通れない雰囲気…

でもなんか気付いたらメッチャ色々技術が積み上がってて何をどうすれば良いのか・・・

あ、▼▼さん！今度の企画なんですけど、 ○○にAI使ってやれませんかね …って言われてもどうすりゃいいんだよ〜

AIコワイあれ・・こわくない・・・？本セッションの目標

10.

• AIとは構成 • AI(機械学習の基本) • モデルを実機で使うためには(ONNX) • 実機で推論モデルを動かすためには Unity Sentisを実例に

11.

11 AIって何？

12.

12 input なんかこういう図だけ見たことあるけど・・・こういう「ニューラルネット」をつくって「学習」させるとなんかの役に立つらしい？でも効率的ではないとも聞くなぁていうか、そもそも・・・ output

13.

13 人の顔を認識したり・・・質問にイイ感じに回答したり・・・なんでこれが出来るようになるん？

14.

AI（機械学習）の基本

15.

台東区で2LDKの部屋借りようとおもったらだいたいイクラくらい？それだったら月○○万円くらいっすねそもそも機械学習（AI）で解決したい問題は、これはコンちゃん？なすちゃん？プログラミングそれは『なすちゃん』 (アルゴリズム)だけではっすね解決しづらい問題これ数字の何って描いてあんの？それは『５』っすね

16.

識別的モデル入力内容から答えを予想したり、・・・分類したりする線形回帰２値分類多値分類数字認識生成的モデル画像や文章や音声など、・・・入力されたデータ以上の（あるいは異なる形式の）出力を生成する画像生成文章生成音声生成解決したい問題に合わせて「モデル」を設計していく画像認識

17.

予測計算学習データ学習データをもらって正解の値を目指して計算する正解データ最適化損失計算「勾配」を使って、予測計算のためのパラメーターを調整する正解データとどのくらい離れているかを計算する勾配計算損失から「勾配」をつくる勾配降下法を使った識別モデルのプログラムは、４つの要素で出来ている

18.

入力データをみてか２値分類か？を分類したい

19.

この辺で線を引いて・・・こっち側にいるのはで・・・こっち側にいるのはかな・・・ AとBで分類したいデータがある予め用意したデータじゃなくても、入力したらか分かるようになりたい。か今取ったデータはかな？かな？

20.

この直線を引く一次関数 Yp = W * X + B ＝適切なWとBの値が２値分類の予測計算見つけられたら、正確に分類出来るこれを見つける作業が『学習』

21.

損失計算 Yp 予測結果と正解データの２つの値がどれだけズレてるか（損失）を計算する。損失はできるだけ０に近づけたいので、単純な差分を使う今のパラメータで予想してみたで〜よりも差が際立ちやすい手法を使った方が学習に役立つ Y 正解データ正解はこれでした i.e. loss = (Y-Yp)²

22.

勾配計算損失から「パラメータを次に調整すると今回の損失の値はこんな感じでしたきはどうしたらいい？」という足がかりに勾配値に反映しとくな！なる「勾配値」を作る

23.

最適化（パラメータ調整）更新された勾配値でパラメータをそれぞれ更新する。パラメータ W W この時にどのくらい反映するか＝「学習率」とっても簡単な最適化例： B B W -= 学習率 x Wの勾配値 B -= 学習率 x Bの勾配値そしてまた予測計算へ！

24.

この４つのプロセスを繰り返すことでだんだん最適なパラメーターが見つかる最適と思われるパラメータを獲得したモデルを「学習済みモデル」と呼ぶモデルを保存してスマホやPC、サーバーなどで使う！

25.

input output 入力テンソルこの謎のグラフは… 予測関数出力テンソル実は「予測関数」のこと！

26.

より複雑なモデルでは『特徴表現学習』という部分が増えて、元データの特徴をより多角的に学習できるようにモデルを作ったりする（でも、基本の構成は同じ！）入力画像畳み込み処理を何回か行うことで畳み込みを行った結果元画像から学べる特徴量を増やす小さくなった画像を1階のテンソルに変換して、多値分類を行う複雑な複合材構造の衝撃検出と特性評価のための畳み込みニューラルネットワーク A Convolutional Neural Network for Impact Detection and Characterization of Complex Composite Structures, Iuliana Tabian, Hailing Fu and Zahra Sharif Khodaei, 2019

https://www.mdpi.com/1424-8220/19/22/4933

27.

０階のテンソルスカラー値 1.0 1階のテンソルベクトル [1.0, 0.0, 0.0] 機械学習のモデルで扱う入出力はすべて「テンソル」 2階のテンソル行列・・・ [ 1.0, 0.0, 0.0, 0.0 0.0, 1.0, 0.0, 0.0 0.0, 0.0, 1.0, 0.0 0.0, 0.0, 0.0, 1.0 ]

28.

手書き数字の画像(28 x 28) [784] の入力テンソルテンソルに変換 [784] 数値予測出力テンソル [10] の [10] どの数字かの確率を保持したテンソル関数は基本同じ階のテンソルを扱うので、事情に合わせて変形して使う

29.

https://projector.tensorflow.org/ 文章や単語などもベクトルに変換してしまうことで扱えるようになる Word2Vec 10K

https://projector.tensorf

30.

テンソルに対する計算処理は、大抵のライブラリで部品化されている線形関数活性化線形関数活性化関数線形関数関数入力テンソル予測モデルこれらのコンポーネントを「レイヤー」と呼ぶ活性化関数出力テンソル

31.

学習したものを実機に持っていく

32.

● さまざまな推論用のシステムがサポートする共通フォーマット ● モデル構造や、モデルに紐付くデータやメタデータなどを効率的に持っていける ● 一般的に必要な要件を定義しながらも、拡張性にも考慮されている ● ONNXは実行環境とは独立した仕様となっている

33.

モデルデータは好みの環境で作って ONNX形式で出力する

34.

34 数多くのオペレーターが定義されている

35.

35 Operator 線形関数活性化線形関数関数入力テンソル活性化関数出力テンソル PyTorchで描いた予測関数 ONNXモデルをグラフ化したもの

36.

Unity Sentis ● ONNXベースのモデルを Unityが対応しているさまざまなプラットフォームで実行するライブラリ

37.

Safe Harbor State ●Unity Sentisは現在まだ実験的機能 (Experimental) です。ここで解説された実装方式や方針は今後予告なく変わることがあります。 ●本セッション内容は「推論ライブラリっていうのはこういうことをしてるのね」ということを理解するための補助として参照してください。

38.

数多くのONNX オペレーターを実装推論ライブラリを実装する＝(ONNXの)オペレーターを実装するという作業

39.

推論ライブラリ実行時の流れ準備（Editor）実行(Runtime) Layer model.onnx Layer Layer Layer Model Asset モデルデータの実行環境向けにインポート最適化モデルのモデルを実行する入力データの準備ロード Workerを作成（テンソル化）モデルの実行をスケジュール推論結果の受取（非同期）推論ライブラリの役割は ● モデルに保存されたグラフから、実行するオペレーション（レイヤー）群を構築する ● 構築されたレイヤー群を使って、定型のオペレーションを効率良く実行する

40.

Sentisでのモデルの最適化 ModelOptimizer model.onnx Model Asset •意味のないレイヤーや重複しているレイヤーなどを見つけて整理 •レイヤーやサブグラフの中に同様に機能するもっと簡素な別のレイヤーに置き換えられるものがあれば置き換え •推論時にデータの読み取りが必要なレイヤーは CPUで動作するよう設定 •etc

41.

ONNX Model Model Asset

42.

Sentisでモデルを実行する Layer モデルのモデルを実行する入力データの準備ロード Workerを作成（テンソル化） Layer Layer Layer モデルの実行をスケジュール ModelAsset modelAsset = Resources.Load(“model.onnx”) as ModelAsset; Model runtimeModel = ModelLoader.Load(modelAsset); 推論結果の受取（非同期）

43.

Sentisでモデルを実行する Layer モデルのモデルを実行する入力データの準備ロード Workerを作成（テンソル化） Layer Layer Layer モデルの実行をスケジュール推論結果の受取（非同期） IWorker worker = WorkerFactory.CreateWorker (BackendType.GPUCompute, runtimeModel); CPUで動かすか GPUで動かすかなどを指定する

44.

Sentisでモデルを実行する Layer モデルのモデルを実行する入力データの準備ロード Workerを作成（テンソル化） Layer Layer Layer モデルの実行をスケジュール TensorFloat inputTensor = TextureConverter.ToTensor(inputTexture); テクスチャデータなど、ゲームでよく使うデータ構造をテンソルに変換してくれるコンバータも用意されている推論結果の受取（非同期）

45.

Sentisでモデルを実行する Layer モデルのモデルを実行する入力データの準備ロード Workerを作成（テンソル化） worker.Execute(inputTensor); 非同期で実行 Layer Layer Layer モデルの実行をスケジュール推論結果の受取（非同期）

46.

Sentisでモデルを実行する Layer モデルのモデルを実行する入力データの準備ロード Workerを作成（テンソル化） Layer Layer Layer モデルの実行をスケジュール TensorFloat outputTensor = worker.PeekOutput() as TensorFloat; outputTensor.AsyncReadbackRequest(callback); // callback => Action<bool> 推論結果の受取（非同期）

47.

Sentisでモデルを実行する Layer モデルのモデルを実行する入力データの準備ロード Workerを作成（テンソル化） Layer Layer Layer モデルの実行をスケジュール推論結果の受取（同期） TensorFloat outputTensor = worker.PeekOutput() as TensorFloat; 推論結果を同期待ちしたい場合は outputTensor.MakeReadable(); float[] results = outputTensor.ToReadOnlyArray(); MakeReadable()を呼ぶと終わるまでブロックする

48.

CPU BurstとJob Systemで CPU実行 Sentisのバックエンドタイプさまざまなプラットフォームで利用可能にするため、レイヤー/Opの実装は1つ GPU Compute GPU Command Bu er Compute Shaderでコマンドバッファに書き込み GPU実行任意のタイミングでGPU実行 GPU Pixel Pixel Shaderでではない ff GPU実行

49.

フィルタ GPU Pixel 実装の工夫テンソルはRender Textureをフィルタ使用して実装するが、テクスチャデータの次元に沿っては格納しない畳み込み結果テクスチャフェッチ回数が多いConv（畳み込み）レイヤー等に有利な形でテンソルをテクスチャに格納

50.

GPU Backend Sentisの Workerは生成時に実際の処理を行う”Backend” オブジェクトが接続される。処理構造 Worker 参照 *講演後編集 Model

51.

TensorData (GPU) 転送 Tensor TensorData (CPU) *講演後編集 Backend テンソルは使用時にはBackendと同じメモリ空間にいる必要があるので、テンソルのデータは内部的には TensorDataという別の形で持っており、かつデバイス間を移動（アップロード）する機能を持つ GPU

52.

TensorData (GPU) 生成 Job Tensor GPU Operation実装 Backend Job Job Job Job … Job Thread Worker Job発行 Workerを動かすと、ジョブを使えるバックエンドでは Modelの構成に沿ってJobを発行 Execute Model *講演後編集

53.

TensorData (GPU) 生成 Job Tensor Job Job Job Job … Job Thread Worker 各Jobが BackendのOperationを呼び出して処理を実行 Execute Model *講演後編集 GPU Operation実装 Backend

54.

Y ReLU関数の実装例 X 活性化関数のひとつ public interface IOps : IDisposable { … TensorFloat Relu(TensorFloat x); … } *講演後編集 (0, 0) インターフェイス

55.

CPU(Burst) の場合 public virtual TensorFloat Relu(TensorFloat X) { var O = NewOutputTensorFloat(X.shape); if (O.shape.HasZeroDims()) return O; C# (Job発行側) var job = new ReluJob(); job.ScheduleXO(Pin(X), Pin(O, uploadCache: false), O.shape.length, 1024); return O; } float Apply(float v) { return 0.5f * (v + abs(v)); } public void Execute(int threadIdx) { float v = Xptr[threadIdx]; Optr[threadIdx] = Apply(v); } *講演後編集 C# (Burst Job)

56.

[beta]

GPU Compute の場合
public override TensorFloat Relu(TensorFloat X)
{
var O = NewOutputTensorFloat(X.shape);
if (O.shape.HasZeroDims())
return O;

C# (CPU)

var fn = new ComputeFunc("Relu");
fn.ScheduleXO(Pin(X), Pin(O, uploadCache: false), O.shape.length);
return O;
}
#ifdef RELU
[numthreads(64, 1, 1)]
void Relu(uint3 dispatchThreadID : SV_DispatchThreadID)
{
uint threadIdx = unrolledDispatchArgs.x * dispatchThreadID.y + dispatchThreadID.x;
if(threadIdx >= unrolledDispatchArgs.y)
return;
{
float v = Xptr[threadIdx];
Optr[threadIdx] = Apply(v);
}
}
#endif

*講演後編集

Compute Shader

57.

[beta]

GPU Pixel の場合
public override TensorFloat Relu(TensorFloat X)
{
return Activation(X, "Relu");
}

C# (CPU)

TensorFloat Activation(TensorFloat X, string kernelName,
float alpha = 0f, float beta = 0f)
{
var O = NewOutputTensorFloat(X.shape);
if (O.shape.HasZeroDims())
return O;
var func = new PixelFunc("Hidden/Sentis/Activation");
var pinX = PinBlockAny(X);
var pinO = PinAsSame(O, pinX, uploadCache: false);
func.SetFloat(k_ID_Alpha, alpha);
func.SetFloat(k_ID_Beta, beta);
func.SetTensor(k_TensorPropertiesX, pinX);
func.SetTensorBlockStride(k_TensorPropertiesO, pinO);
func.EnableKeyword(kernelName);
func.Dispatch(pinO);
return O;
}

*講演後編集

Pixel Shader
float4 frag(v2f i, UNITY_VPOS_TYPE screenPos :
VPOS) : SV_Target
{
…
#ifdef Relu
v = 0.5f * (v + abs(v));
#endif
…
return v
}

58.

Special Thanks Lein.@キノピオPro 氏 ( twitter.com/lears_VR ) みどりの森（ https://mido0021.booth.pm/ ）

59.

Q&A

推論ライブラリを実装する

Unity Technologies Japan

関連スライド

UnityのVR開発環境の現状整理 2022

UIもshaderで盛る！ 〜 shaderとanimationで作るリッチなUI演出

オープンソース自動運転シミュレーター「AWSIM」のご紹介と実装事例

トゥーンシェーダー応用編 ～楽して破綻のないアウトラインを目指して～

モバイル向け大量描画テクニック

【Unity道場 2月】シェーダを書けるプログラマになろう

各ページのテキスト

UIもshaderで盛る！〜 shaderとanimationで作るリッチなUI演出

トゥーンシェーダー応用編～楽して破綻のないアウトラインを目指して～