Core ML版Stable DiffusionをiOSで快適に動かす

11.9K Views

October 17, 23

coreml stablediffusion swift ml ios macos

スライド概要

「Mobile勉強会 Wantedly × チームラボ #11」での発表資料です。
https://wantedly.connpass.com/event/297601/

Shuichi Tsutsumi

@shu223

スライド一覧

フリーランスiOSエンジニア「エンジニアと人生」コミュニティ主宰

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

各ページのテキスト

Core ML版 Stable Diffusion を iOS で快適に動かす堤修一 @shu223

自己紹介 • 堤修一 • @shu223 (GitHub, Qiita, Zenn, note, 𝕏, YouTube, Podcast, etc...) • 書籍（商業出版4冊、個人出版多数 @BOOTH）:

https://shu223.booth.pm/items

• 1年間研究開発部のマネージャーにチャレンジ • 12年間iOSだけやってきたエンジニアのキャリアチェンジ • 2023年6月からエンジニアに復帰 • マネージャーからエンジニアに戻ります • 最近のお仕事 • タッチ名刺交換

本日のお題について • ⭕ ❌ 「Stable Diffusion」という画像生成AIの解説 • 巨大なモデルをiOSで動かす際の考え方や勘所

Stable Diffusionとは • 画像生成AI • 入力テキストに応じて画像を自動生成するtext-to-imageモデル • 2022.8 オープンソースとして公開

Core ML Stable Diffusion とは Core ML フォーマットに変換された Stable Diffusion のモデル • 従来のモデルをAppleハードウェアで動かす => CPUのみ利用 • Core MLモデル => CPU, GPU, Neural Engineを利用 → Appleのハードウェアを最大限活かせるのがCore MLモデル 1 詳細な最適化の解説： Deploying Transformers on the Apple Neural Engine - Apple Machine Learning Research 1

https://machinelearning.apple.com/research/neural-engine-transformers

Core ML Stable Diffusion のリポジトリ https://github.com/apple/ml-stable-diffusion • Apple謹製 • モデル変換コード、macOS/iOSで動かすためのSwiftコード等を含む • 公式ブログ記事： Stable Diffusion with Core ML on Apple Silicon - Apple Machine Learning Research

初登場時以降の進化 2022年12月の初公開時以降あまり話題になっていないが、着々と進化している • ControlNetサポート • SDXLサポート • 6ビット量子化（関連記事： 1, 2, 3） • Multilingual text encoder サポート • 関連記事： [iOS 17] 多言語BERT埋め込みモデルのサポー

Core ML Stable Diffusion の何が嬉しいのか？ • 手元のMacで、無料かつオフラインで使いまくれる • 自前のmacOS/iOSアプリに組み込める • For me: 様々なノウハウが詰まったCore MLの公式サンプル

10.

CLIから動かす Swiftで書かれたCLIサンプル StableDiffusionSampleを利用 swift run StableDiffusionSample \ "a photo of an astronaut riding a horse on mars" \ --resource-path </path/to/models> --seed 93 \ --output-path </path/to/output/image> • --resource-path • コンパイル済みCore MLモデルファイル .mlmodelc が入ったディレクトリのパスを指定

11.

自作アプリに組み込む 1/2 Swift Package としてプロジェクトに追加する • → Package Product "StableDiffusion" をターゲットに追加

12.

自作アプリに組み込む 2/2 import StableDiffusion ... let pipeline = try StableDiffusionPipeline(resourcesAt: resourceURL) pipeline.loadResources() let image = try pipeline.generateImages(prompt: prompt, seed: seed).first

13.

Hugging Faceによるサンプルアプリ • GitHub • App Store

14.

Diffusers を iPhone 15 Pro で動かしてみる

15.

モデルのダウンロード（初回のみ必要）

16.

モデルのロード（起動毎に必要）

17.

⚠ ローディングがとてつもなく長い

18.

起動する度に 5分 2 Pipeline loaded in 293.2635090351105 2 モデルのダウンロードが完了した状態からの起動

19.

起動状態

20.

⚠ 画像生成時に必ずクラッシュ

21.

使用メモリ量のスパイク（iPhone 15 Pro利用）

22.

iOSで「まともに」動かす

23.

iOSでまともに動かす • 使用メモリ量を小さくする • 起動時間を短くする • 画像生成時間を短くする

24.

iOSでまともに動かす • 使用メモリ量を小さくする • 起動時間を短くする • 画像生成時間を短くする

25.

使用メモリ量を小さくする方法 • reduceMemory オプションを有効にする • サイズの小さいモデルに変更する

26.

使用メモリ量を小さくする方法 • ⭕ reduceMemory オプションを有効にする • サイズの小さいモデルに変更する

27.

reduceMemory を有効にする ModelInfo.swift の reduceMemory プロパティを決定する処理を書き換える 3 var reduceMemory: Bool { // Enable on iOS devices, except when using quantization if runningOnMac { return false } if isXL { return !deviceHas8GBOrMore } return !(quantized && deviceHas6GBOrMore) } 3 現行実装ではiPhone 15 Proの場合は必ず無効化されてしまう

28.

reduceMemory を有効にするとどうなるか？ • 必要なときにモデルをロードし、すぐにアンロードする • 画像生成処理のオーバーヘッドを増やすことになる • ドキュメントでは解説されていないが、ソースコードを見ると起動時に prewarmResources という処理を行っている public func loadResources() throws { if reduceMemory { try prewarmResources() } ...

29.

prewarmResources loadResources 後すぐに unloadResources を行う func prewarmResources() throws { try loadResources() unloadResources() } Both .mlpackage and .mlmodelc models are compiled upon first load. （中略） .mlmodelc files do cache this compiled asset and non-first load times are reduced to just a few seconds.

30.

デモ

31.

画像生成時にクラッシュしなくなった

32.

画像生成の処理時間 Got images: [Optional(<CGImage 0x12810d510> (IP) <<CGColorSpace 0x283e04780> (kCGColorSpaceDeviceRGB)> width = 768, height = 768, bpc = 8, bpp = 24, row bytes = 2304 kCGImageAlphaNone | 0 (default byte order) | kCGImagePixelFormatPacked is mask? No, has masking color? No, has soft mask? No, has matte? No, should interpolate? Yes)] in 83.99049496650696 1枚あたり 83.99 秒起動時間も依然として 5分かかっている

33.

iOSでまともに動かす • 使用メモリ量を小さくする • 起動時間を短くする • 画像生成時間を短くする

34.

起動時間を短くする方法起動時間のほとんどが、モデルのロード（実態としては 4 MLModel の初期化）に時間がかかっている → サイズの小さいモデルに変更する 4 ライブラリ内の loadResources メソッド

35.

画像生成時間を短くする方法サイズの小さいモデルに変更する The Neural Engine is capable of accelerating models with low-bit palettization: 1, 2, 4, 6 or 8 bits. （ニューラル・エンジンは、低ビットのパレタイズでモデルを高速化できる） compressed weights are faster to fetch from memory ... （圧縮されたウェイトはメモリからのフェッチが高速になり、） 5 apple/ml-stable-diffusion: Stable Diffusion with Core ML on Apple Silicon のREADMEより 5

https://github.com/apple/ml-stable-diffusion

36.

（再掲）使用メモリ量を小さくする方法 ⭕ • reduceMemory オプションを有効にする • サイズの小さいモデルに変更する

37.

とにかくモデルの圧縮が重要

38.

現在の使用モデルを調べる 1/3 let loader = PipelineLoader(model: iosModel()) func iosModel() -> ModelInfo { guard deviceSupportsQuantization else { return ModelInfo.v21Base } if deviceHas6GBOrMore { return ModelInfo.xlmbpChunked } return ModelInfo.v21Palettized } → iPhone 15 Proでは ModelInfo.xlmbpChunked を利用 6 deviceSupportsQuantization が true かつ deviceHas6GBOrMore が true 6

39.

現在の使用モデルを調べる 2/3 static let xlmbpChunked = ModelInfo( modelId: "apple/coreml-stable-diffusion-xl-base-ios", modelVersion: "SDXL base (768, iOS) [4 bit]", supportsEncoder: false, quantized: true, isXL: true )

40.

現在の使用モデルを調べる 3/3 apple/coreml-stable-diffusion-xl-base-ios • iOS向けに 4.04 混合ビット量子化（mixed-bit palettization）したもの • ・・・ではあるが、もともとがSDXLモデルなのでクソでかい • Unetだけで 1.3 GB以上

https://huggingface.co/apple/coreml-stable-diffusion-xl-base-ios

41.

モデルを圧縮する or モデルの圧縮版を探す

42.

Hugging Face で公開されている Core ML Stable Diffusion モデル → 2023年10月現在で16種類

https://huggingface.co/models?other=core-ml&search=diffusion

43.

! どれを選べばいいのか

44.

軽いSDモデルを選ぶポイント • SDXLではないもの・・・XLは最新の高画質版であり、デカい • palletized とついているもの・・・圧縮されていることを示す • 16bit -> 6-bit • SDバージョンの違いによるサイズの違いはあまりない → "apple/coreml-stable-diffusion-2-1-base-palettized"

45.

デモ

46.

各種パフォーマンス • 起動時間：100秒前後（300%高速化） 7 • 使用メモリ量のピーク値：約850MB 8 • 画像生成処理時間：10秒以下（800%高速化） 7 アプリの起動時間全体ではなく、パイプラインのロード時間を計測 8 サイズの小さいモデルの使用に伴い、reduceMemory は再び無効化した

47.

さらなる起動時間の短縮モデルのロード（MLModelの初期化）が90%以上を占める time to load unet: 57.41793203353882 time to load textEncoder: 30.462964057922363 time to load decoder: 3.1042929887771606 time to load encoder: 2.146523952484131 Pipeline resources loaded in 106.28662097454071

48.

さらなるモデル圧縮 Mixed-Bit Palettization 公式リポジトリREADME の "Advanced Weight Compression (Lower than 6-bits)" に詳細あり

https://github.com/apple/ml-stable-diffusion#core-ml-stable-diffusion

49.

more • ControlNet • Multilingual text encoder • 関連記事： [iOS 17] 多言語BERT埋め込みモデルのサポート

https://note.com/shu223/n/n54f428063564

50.

まとめ Stable DiffusionのようなクソデカCore MLモデルをiOSで動かす • キャッシュ機構を利用して都度ロード & アンロード • → メモリ使用量を抑える • モデルサイズを小さくする • → 起動時間・メモリ使用量・画像生成時間すべて改善 • Hugging Face探す/coremltoolsで自前圧縮/Mixed-Bit Palettization

51.

ご清聴ありがとうございました！

Core ML版Stable DiffusionをiOSで快適に動かす

Shuichi Tsutsumi

関連スライド

「スキルなし・実績なし」 32歳窓際エンジニアがシリコンバレーで働くようになるまで

iOSではじめるフォトグラメトリ #iOSDC

ローカルLLM on iOS の現状まとめ

ARKit in visionOS 〜アレはVision Proで実現できるのか〜

WhisperKit がだいぶ良いので紹介する

Core MLのアップデート

各ページのテキスト