AutoML Vision 事例〜 AutoML Visionでラーメン二郎全店舗識別を試す〜

1.7K Views

July 11, 19

#AutoML Vision #ラーメン二郎 #画像分類 #機械学習 #Google Cloud

スライド概要

GoogleのAutoML Visionをラーメン二郎データセットを使って試しました、学習時間に対する識別精度や推論の処理時間等を含め詳しく紹介します。
(Google Developers ML Summit Tokyo vol 3 発表資料)
https://events.withgoogle.com/mlsummit-tokyo-vol3/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 192.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 81.9K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 42.9K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.4K

各ページのテキスト

AutoML Vision 事例〜 AutoML Visionでラーメン⼆郎全店舗識別を試す〜 Google Developers ML Summit Tokyo vol 3 2019 年7⽉11⽇⼟井賢治 (@knjcode) 1

本⽇の発表内容は趣味で取り組んだ成果をまとめたものです 2

⽬次⾃⼰紹介 AutoML Visionとはラーメン⼆郎とはラーメン⼆郎識別bot AutoML Visionで画像分類を試す AutoML Visionのメリット機械学習エンジニアは不要に？まとめ 3.1

⾃⼰紹介名前：⼟井賢治 (@knjcode) 所属：ヤフー株式会社テクノロジーグループサイエンス統括本部機械学習を活⽤しヤフオク!のサービスを改善偽物出品検知AI 出品時のタイトル推薦 etc 福岡(天神)のオフィスで働いています 3.2

https://twitter.com/knjcode/

偽物出品検知AI 出典: https://about.yahoo.co.jp/pr/release/2018/11/30a/ 3.3

https://about.yahoo.co.jp/pr/release/2018/11/30a/

ヤフオク! 出品時のタイトル推薦写真: https://en.wikipedia.org/wiki/Google_Home アップロードした画像から商品名を⾃動で推薦 3.4

https://en.wikipedia.org/wiki/Google_Home

⽬次⾃⼰紹介 AutoML Visionとはラーメン⼆郎とは AutoML Visionで画像分類を試す AutoML Visionのメリット機械学習エンジニアは不要に？まとめ 4.1

AutoML Vision とはユーザがラベル付きのデータセットを⽤意するだけで、カスタム機械学習モデルの学習・デプロイ・サービングまで⾃動で⾏ってくれるサービス 2019年7⽉10⽇現在β版で下記3種類のサービスが利⽤可能画像分類オブジェクト検出 AutoML Vision Edge 今⽇は、AutoML Visionでラーメン⼆郎の画像分類を試した事例を詳しく紹介します 4.2

⽬次⾃⼰紹介 AutoML Visionとはラーメン⼆郎とは AutoML Visionで画像分類を試す AutoML Visionのメリット機械学習エンジニアは不要に？まとめ 5.1

10.

ラーメン⼆郎とは関東圏を中⼼に暖簾分けで全国に数⼗店舗あるラーメン店濃厚でボリュームのあるラーメンが特徴店舗ごとに微妙に味や⾒た⽬が異なり、常連は⾒た⽬で店舗を⾒分けることができる 5.2

11.

常連は⾒た⽬で店舗を⾒分けることができる？ 5.3

12.

常連は⾒た⽬で店舗を⾒分けることができる？神⽥神保町店三⽥本店環七⼀之江店 5.4

13.

でラーメン⼆郎全店舗を識別できたら⾯⽩いのでは ⇒ 前職同僚がラーメン⼆郎5店舗の識別モデルを作っているのを⾒た事をきっかけに全店舗版を開発、twitterのbotとして公開 DeepLearning 5.5

14.

ラーメン⼆郎全店舗識別bot @jirou_deep 写真の⾒た⽬だけで⼆郎の店舗名を識別現在の正解率は約99% @jirou_deep にラーメン⼆郎の画像付けてリプライすると店舗名を答えます 5.6

https://twitter.com/jirou_deep

15.

jirou_deep 精度改善の歴史年⽉の公開以来、コツコツと精度改善(2019年2⽉末時点) データセット：約3万枚〜約9万枚正解率：約87.4% 〜約99.06% 使⽤Framework：初期はMXNet、途中からPyTorch 精度改善のための⼯夫モデル： Inception-V3 ⇒ ResNet-152 ⇒ SE-ResNeXt-50 学習設定: Optimizerや各種ハイパーパラメータの調整データ拡張: Mixup, RandomErasing, CutMix, etc 2017 8 データセットを拡⼤しつつ、精度改善に効きそうな⼿法を追試・再実装して試している廃業した店舗をデータセットから外したり、新規開店した店舗を追加したりクラス数も変化 5.7

16.

⽬次⾃⼰紹介 AutoML Visionとはラーメン⼆郎とは AutoML Visionで画像分類を試す AutoML Visionのメリット機械学習エンジニアは不要に？まとめ 6.1

17.

AutoML Vision で画像分類を試すラーメン⼆郎識別botのモデル作成に利⽤した、約9万枚のデータセットでAutoML Vision(ベータ版)の性能を試してみました必要な作業（これだけ）: データセットを Google Cloud Storage にアップロード AutoMLのコンソールからTrainボタンをクリックはアップロードされたデータセットを⾃動で、学習・評価・テスト⽤に分割してくれますが、⾃作モデルと識別精度を⽐較できるようにデータセットの分割も同⼀にしています(データセット作成時に指定可能) ※ 本⽇の内容は AutoML Vison ベータ版の2019年2⽉末時点の検証結果です ※ AutoML 6.2

18.

実はAutoMLのα版公開後に⼀度試している当時の状況(2018年3⽉) データセット：約48,000枚 AutoMLの精度： 94.8% (Precision) α版には学習設定が2通りあった Baseモード (約1時間学習) Advancedモード (約24時間学習) Baseモードで 68.0% Precision Advancedモードで 94.8% Precision 出典: https://cloudplatform-jp.googleblog.com/2018/03/automl-vision-in-action-from-ramen-to-branded-goods.html 6.3

https://cloudplatform-jp.googleblog.com/2018/03/automl-vision-in-action-from-ramen-to-branded-goods.html

19.

版での変更点 AutoML Vision β の版では、学習時間の指定および追加学習が可能に学習時間 α版: Baseモード(1時間) or Advancedモード(24時間)の2択 β版: 1 compute hourを単位に、任意の時間設定可能追加学習 α版: 提供なし β版: 2〜24時間の範囲で追加学習可能 (追加学習は何度でも可能だがモデル学習後2週間以内限定) とは、の内部的なコンピューティング能⼒の使⽤状況であり、実際の時間とは正確に⼀致しないとのこと 1時間や24時間の設定で初期モデルを学習し、識別精度をさらに⾼めたい場合に追加学習を⾏うのが良さそう AutoML Vision β ※ compute hour AutoML 6.4

20.

1 compute hour 及び 24 compute hours の設定で学習してみた 6.5

21.

の学習結果 AutoML AutoMLが学習したモデル（および⾃作モデル）の識別精度から24 compute hoursでかなり正解率が向上しているが、⾃作モデルと⽐較すると正解率に迫る精度がでている 1 compute hour ※: ⾃作モデルはこれまでの各種精度改善のノウハウを使って学習 SE-ResNeXt-50, 各種基本的なデータ拡張 + Random Erasing を採⽤ (NVIDIA Tesla V100を4枚搭載のGCEインスタンスを利⽤し約13時間かけて学習) 6.6

22.

AutoML Vision の追加学習を試してみる 6.7

23.

参考) AutoML Vision β版の料⾦ ( 基本料⾦ 1 時間あたり 20$ 既存モデルのトレーニングを再開する場合も、 1 時間あたり 20$ 無料枠モデルごとのトレーニング 1 時間分が、毎⽉ 10 個まで無料出典: https://cloud.google.com/vision/automl/pricing 時間あたり20$は、おおよそGCEのn1-highmem-32インスタンスにを枚搭載して利⽤した場合の料⾦（2019年7⽉10⽇現在） 1 V100 8 6.8

https://cloud.google.com/vision/automl/pricing

24.

参考) 追加学習時の料⾦について ( 追加学習時は精度が向上しなかった時間分は課⾦されない模様出典: Google Cloud AutoML Visionのコンソール画⾯ 6.9

25.

とりあえず、12 compute hours の追加学習を実施 6 . 10

26.

の学習結果 (36 compute hours) AutoML 各モデルの識別精度でさらに正解率が向上しかし、まだ⾃作モデルのほうが精度が良い 36 compute hours 6 . 11

27.

さらに追加学習すると、⾃作モデル超えるのでは… 6 . 12

28.

すでに、720$のコストが掛かっており悩ましいしかし AutoML Visionが⾃作モデルを超えるのか気になる 6 . 13

29.

精度向上する限り、12時間単位で追加学習を実施！ 6 . 14

30.

学習結果 (72 compute hours まで追加学習) での正解率98.75%が最⾼精度⾃作モデルがかろうじてAutoMLの精度を上回った 60 compute hours から60 compute hoursで精度向上しているが、なぜか課⾦されていない ※: 48 6 . 15

31.

学習したモデルの推論速度について各モデルの推論時間を計測(テストデータ3200枚を利⽤) 画像1枚あたりの各モデルの推論時間 (ms) モデルを追加学習するごとに、推論時間が伸びる傾向があるのモデルをAPIから利⽤する場合には画像をBase64エンコードして送信します。上記推論時間は(⾃作モデル含め)画像の転送時間も含んだ時間です。 ※ us-central1に起動したインスタンスからAPIを利⽤(AutoML Visonのモデルもus-central1にある) ※ 2019年2⽉28⽇に計測、⽇によって若⼲推論時間が変わるが追加学習したモデルが遅い傾向は同様 ※ AutoML 6 . 16

32.

⽬次⾃⼰紹介 AutoML Visionとはラーメン⼆郎とはラーメン⼆郎識別bot AutoML Visionで画像分類を試す AutoML Visionのメリット機械学習エンジニアは不要に？まとめ 7.1

33.

AutoML Vision のメリットデータセットを⽤意するだけで⾼精度な識別モデルを作成可能機械学習エンジニアの知識やノウハウやハイパーパラメータチューニング等の試⾏錯誤が不要とりあえず分類モデルを作りたい場⾯で有効ベースラインモデルが欲しい、⾊々と案件があるが⼈⼿が⾜りない、etc モデル作成だけでなく、デプロイ・サービング(API化)に対応モデルの学習後すぐにスケーラブルにAPIとして利⽤可能特に、画像分類モデルのPoC作成時には APIまで⾃動作成される点はありがたい 7.2

34.

AutoML Vision のデメリット？モデルの推論時間が⻑い学習時間が伸びるほど推論時間が増加していく 2019年4⽉に公開された、学習済みモデルをEdgeデバイスで利⽤可能となる「AutoML Vision Edge」で上記は改善できる可能性あり現状、機械学習エンジニアがチューニングしたモデルの⽅が⾼精度より精度の良いモデルの利⽤や、精度向上のための各種⼿法を随時取り⼊れてモデルを改善できる 7.3

35.

⽬次⾃⼰紹介 AutoML Visionとはラーメン⼆郎とはラーメン⼆郎識別bot AutoML Visionで画像分類を試す AutoML Visionのメリット機械学習エンジニアは不要に？まとめ 8.1

36.

機械学習エンジニアは不要に？モデルの識別精度は⼈間のチューニングに迫る精度を実現可能 (ただし、それなりに費⽤はかかる(個⼈の趣味としては⾼い)) ↓ しかし、AutoML Visonの利⽤には学習⽤データセットが必要 ↓ 画像分類に限っても、業務要件をいかに分類タスクに落とし込むか、また、データ収集や整理にも⼀定のスキルやノウハウが必要になる (特に、Web上から画像を収集してデータセットを作成する場合、重複画像の除去やラベル(分類)誤りの修正が⾮常に重要) 8.2

37.

重複画像の除去やラベル(分類)誤りの修正、等々を含む、画像分類データセット作成時のノウハウと注意点について以下の資料で詳しく解説しています https://www.slideshare.net/techblogyahoo/yjfukuoka 8.3

https://www.slideshare.net/techblogyahoo/yjfukuoka

38.

AutoML (Vision) でできないこと業務をいかにデータセットや分類問題に落とし込むかデータセットの準備・クリーニング事例1で具体的な事例を紹介最新のモデルや精度向上⼿法の導⼊事例2で具体的な事例を紹介 8.4

39.

事例1)データのクリーニング有無による精度の違い ( ラーメン⼆郎データセット(クリーニング済み)とクリーニング前のデータセットを⽤意し、同⼀設定でモデルを学習し精度の違いを⽐較してみるここでのクリーニングとは、データセットに対する、重複画像の除去やラベル誤りの修正、⽬視による学習に使えない画像の除去、等々を含むデータセットの整理・整備のことを指します 8.5

40.

データセットの詳細クリーニング有り・無しの2パターンのデータセットを⽤意クリーニングで学習データが3万から2万枚に減った場⾯を想定 ※ ※ ※ クリーニング無しデータセットは端数を捨て、切りの良い枚数に削減どちらのデータセットも同⼀の検証⽤およびテスト⽤データセットで評価クリーニング無しデータセットについても、検証⽤およびテスト⽤画像に限り、画像の重複やダブリが無いように確認&画像除去済み 8.6

41.

学習条件モデル: ResNet50 (ImageNet学習済みモデルの転移学習) バッチサイズ: 256 オプティマイザ: Adabound (final_lr=0.5) weight decay: 5e-4 学習率(初期値): 0.001 学習エポック数: 30 (10,20エポックで学習率を0.1倍) データ拡張: 左右反転、RandomResizedCrop, RandomRotation 評価⽤データで正解率最⼤のエポックのモデルでテストデータの正解率を評価試⾏回数: 5回 (同⼀条件で5回学習し、正解率の平均および標準偏差を算出) 8.7

42.

検証結果クリーニング済みデータセットのほうが学習⽤画像の枚数が少ないにも関わらず約3%程度、識別精度が良い ⇒ データの量だけでなく品質も重要 8.8

43.

事例2)最新のモデルや精度向上⼿法の活⽤ ( より精度の良いモデルの利⽤ EﬀicientNet データ拡張⼿法の改善 CutMix RICAP ICAP 上記を活⽤し、2019年2⽉時点のモデルよりも更に⾼精度にラーメン⼆郎の店舗を識別するモデルの作成にチャレンジ 8.9

44.

EﬀicientNet ICML2019 で Google Research, Brain Team から発表されたモデルは、既存のよりも⾼い精度と優れた効率の両⽅を実現計算コストと精度のバランスを考慮し、EﬀicientNet-B4を利⽤することにした EﬀicientNet CNN 出典: https://developers-jp.googleblog.com/2019/07/eﬀicientnet-automl-google.html 8 . 10

https://developers-jp.googleblog.com/2019/07/efficientnet-automl-google.html

45.

データ拡張⼿法 (CutMix) 年⽉にarxivに論⽂が投稿されたデータ拡張⼿法 Mixup(2枚の画像を合成)と Cutout(画像の⼀部を⽋損)を混ぜ合わせたような⼿法画像の⼀部にクロップした別の画像を埋め込む (元画像と位置を揃える) CIFAR-100でSoTA 2019 5 (top-1 error 14.23%) 出典: CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features 8 . 11

https://arxiv.org/abs/1905.04899

46.

データ拡張⼿法 (RICAP) 年⽉にarxivに論⽂が投稿されたデータ拡張⼿法 2018 11 枚の画像からランダムにクロップした画像を⼀枚に貼り合わせる CIFAR-10でSoTA 4 (top-1 error 2.19%) 出典: Data Augmentation using Random Image Cropping and Patching for Deep CNNs 8 . 12

https://arxiv.org/abs/1811.09030

47.

データ拡張⼿法 (ICAP) 前述のCutMixとRICAPを組み合わせた⼿法を独⾃に実装した 4枚のクロップ画像を元画像での位置を揃えた状態で貼り合わせるラーメン⼆郎データセット(縮⼩版) で検証し、CutMix, RICAPを上回る精度を確認参考: https://twitter.com/knjcode/status/1139912956592787456 8 . 13

https://twitter.com/knjcode/status/1139912956592787456

48.

と ICAP を使いモデルを学習してみる EﬀicientNet-B4 8 . 14

49.

学習条件モデル: EﬀicientNet-B4 (ImageNet学習済みモデルの転移学習) バッチサイズ: 16 オプティマイザ: momentum SGD (momentum=0.9) weight decay: 1e-5 初期学習率: 0.0125 エポック数: 200 学習率スケジューラ: Cosine Annealing (200エポック⽬に学習率が1e-5になるように設定) データ拡張: 左右反転、RandomResizedCrop, RandomRotation, PCAノイズ各種jitter(brightness=0.25, contrast=0.4, saturation=0.2, hue=0.05), ICAP(β=2.0) 8 . 15

50.

検証結果およびこれまでのモデルの結果(再掲含む) EﬀicientNet および ICAP を利⽤して、2019年2⽉時点の⾃作モデルより更に識別精度が向上 (99.06% ⇒ 99.28%) EﬀicientNet-B4 8 . 16

51.

⽬次⾃⼰紹介 AutoML Visionとはラーメン⼆郎とはラーメン⼆郎識別bot AutoML Visionで画像分類を試す AutoML Visionのメリット機械学習エンジニアは不要に？まとめ 9.1

52.

まとめのモデルの識別精度 α版から着実に進化学習時間次第で、⼈間がチューニングした分類モデルに迫る精度を実現可能 AutoML Visionの推論速度モデル精度と推論速度のトレードオフ画像をBase64エンコードして送信するオーバーヘッドも有り推論速度を重視する場合、AutoML Vision Edgeの利⽤も要検討状況に応じた使い分けが必要データセットがあり、ベースラインモデルやPoCを⼿早く作成したいという場⾯では AutoML Vision がお勧め精度や推論速度を重視する場合には、機械学習エンジニアによるモデルのチューニングも依然として有効 AutoML Vision 9.2

53.

参考画像分類データセット作成時のノウハウと注意点 https://www.slideshare.net/techblogyahoo/yjfukuoka Adaptive Gradient Methods with Dynamic Bound of Learning Rate https://arxiv.org/abs/1902.09843 CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features https://arxiv.org/abs/1905.04899 Data Augmentation using Random Image Cropping and Patching for Deep CNNs https://arxiv.org/abs/1811.09030 EﬀicientNet: AutoML Google https://developers-jp.googleblog.com/2019/07/eﬀicientnet-automl-google.html EﬀicientNet: Rethinking Model Scaling for Convolutional Neural Networks https://arxiv.org/abs/1905.11946 モデルスケーリングとで最⾼精度を達成したの画像認識技術「ラーメン⼆郎」は創業者⼭⽥拓美⽒の登録商標です資料中のラーメン⼆郎写真は撮影者の許可を得て掲載 ※ ※ 10

54.

ご清聴ありがとうございました 11

AutoML Vision 事例 〜 AutoML Visionでラーメン二郎全店舗識別を試す 〜