サイエンス領域におけるMLOpsの取り組み #yjtc

2.7K Views

February 02, 22

#yjtc #MLOps #機械学習 #モデル開発 #モデル監視 #ヤフー

スライド概要

ヤフーでは、さまざまな形で機械学習を活用してきました。その経験をもとに、AIプラットフォームと連携し、MLOpsの導入・推進を進めています。本セッションでは、サイエンス部門におけるMLOpsを推進するためにこれまで行ってきた取り組みについて紹介します。

Yahoo! JAPAN Tech Conference 2022は2022年2月3日、4日に開催しました。
https://techconference.yahoo.co.jp/2022/

アーカイブ動画はこちらからご覧ください。
https://youtu.be/tf9C0sLOZ14

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 193.7K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.3K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 82.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.1K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 43.2K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.5K

各ページのテキスト

MLOps強化の背景ヤフーにおける機械学習の活⽤広告領域におけるCTR予測等の機械学習モデルを始め、10年以上に渡り機械学習を活⽤したサービスを提供現在では広告だけでなく事業の柱であるコマース・⾦融を始め、様々な領域で機械学習を活⽤したサービスを展開 • 深層学習によるYahoo!ニュース不適切コメント削除の事例 ©2022 Yahoo Japan Corporation All rights reserved. ※CTR Prediction for Contextual Advertising: Learning-to-Rank Approach https://randd.yahoo.co.jp/jp/papers/75 ※https://about.yahoo.co.jp/pr/release/2020/03/06c/

https://randd.yahoo.co.jp/jp/papers/75

MLOps強化の背景 MLOpsについて Machine Learning+DevOps • 機械学習や⼈⼯知能のソリューションをライフサイクル全体で管理するために導⼊される、⼀連のポリシー、プラクティス、ガバナンス機械学習開発 • 学習データの管理 • 実験管理 • モデルの検証 • パイプライン化 … ©2022 Yahoo Japan Corporation All rights reserved. ソフトウェア開発 • 拡張性 • テスト容易性 • 監視・アラート検知 • セキュリティ …

MLOps強化の背景事業側からのMLOpsへの期待 A/Bテストの実施回数増加、Leadtimeの短縮 • オフラインでの実験回数を増やす • オフラインの実験を素早くオンライン環境に提供しA/Bテストを素早く実施できるモデルの不具合による事故（ユーザーに影響のある障害）の削減・影響軽減 • モデルのリリース前にモデルの不具合に気がつくことができる • 万が⼀本番環境で不具合が起きてもそれを早期検知し正常に戻すことができる ©2022 Yahoo Japan Corporation All rights reserved.

MLOps強化の背景モデル不具合による障害の例問題のあるモデル予測モデルがNaNを返却してしまう不具合が発⽣モデル実装で0除算を加味できていなかった • ⼊⼒値、乱数が特定の条件になった際にだけNaNが発⽣推論システム・・・ • → デプロイ前のモデルの検証が不⼗分 → 障害発⽣時のメトリクス取得・検知の不⾜ ©2022 Yahoo Japan Corporation All rights reserved. 配信システム NaNの返却を想定しておらず、問題のあるモデルにリクエストした配信システムのプロセスがダウン・・・システム全体に影響がありKPIが毀損・・・ NaNを返却

10.

MLOps強化の背景 MLOps推進チームの構築ゴール • サイエンス内のPDCAの⾼速化、並びに状況の可視化 • サイエンス起因の事故を限りなく0にする具体的な活動 • PDCA状況の可視化⽅法検討 • サイエンス内のMLOpsの課題の吸い上げ • PF提供者であるAIPF担当者と新規機能の企画 ©2022 Yahoo Japan Corporation All rights reserved. AIプラットフォーム連携 MLOps推進啓発活動課題共有事業向けサイエンス本部サイエンス基礎技術本部

11.

12.

MLOpsの状況理解(スコア化) スコア化スコア化のメリット • 定量的な評価が可能 • アンケート形式にすることで必ずなんらかの回答できる • 回答者に課題認識を持ってもらうことができる googleが提案しているMLTestScoreを採用 • 機械学習システムにおける信頼性、安定性をスコア化 • 論文発表されており、一定の品質が期待できる • 他社でも活用事例あり ※The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction ※機械学習システムの信頼性を数値化する ML Test Scoreのハンズオンワークショップを開催しました - Mercari Engineering Blog ©2022 Yahoo Japan Corporation All rights reserved.

13.

MLOpsの状況理解(スコア化) スコアの基準 MLTestScoreの詳細 0:何もしていない 0.5:⼿動で実⾏し、その結果が⽂章化され共有されている 1.0:CIに組み込まれ、⾃動で反復実⾏される項⽬ TEST FOR DATA AND FEATURES TESTS FOR MODEL DEVELOPMENT TESTS FOR MODEL INFRASTRUCTURE MONITORING TESTS FOR ML ©2022 Yahoo Japan Corporation All rights reserved. 質問概要質問内容例⼊⼒に使うデータや特徴量に関する質問 • • • • 全ての特徴量は予測に対して有⽤か特徴量はデータ利⽤ポリシーに準拠しているか新しい特徴量は素早く追加可能か全ての特徴量⽣成コードはテストされているか作成するモデルの管理や品質に関する質問 • • • • 全てのハイパーパラメータはチューニングされているかモデルが古くなった際の影響は把握されているかシンプルなモデルとの⽐較を⾏っているか多種多様な価値観を考慮したモデルになっているか • • 学習は再現性があるかモデル作成のためのコードや設定ファイルはユニットテストされているか全ての機械学習パイプラインは結合テストされているかカナリーリリースによって、モデルはプロダクション環境下で検証されているかモデルを反映するためのプロダクション環境に関する質問モデルの監視に関する質問 • • • • • • 学習とサービングの⼊⼒データは不変性を保っているかモデルは極端に古い状態ではないかモデルは数値的に安定しているかサービング時の予測性能は悪化していないか

14.

15.

16.

調査により得られた知⾒回答者による基準のぶれ初回実施後、スコアの⾼いプロダクトにヒアリングに⾏くと下⽅修正されることが多数発⽣…基準の感覚にズレが⽣じていたすべての質問項⽬に対して、社内の環境も勘案した達成基準を設定質問内容モデル作成のためのコードや設定ファイルは全てレビューが⾏われ、リポジトリに格納されているか学習は再現性があるか ©2022 Yahoo Japan Corporation All rights reserved. 達成基準 0︓レビューされていない、もしくはリポジトリ管理されていないコードが存在する 0.5︓すべてのコードのレビューをしており、リポジトリ管理もしている 1.0︓すべてのコードのレビューをしており、リポジトリ管理もしている。更にCI/CD による⾃動ビルド、デプロイ(必要に応じて)が実施されている 0︓過去の実験を再現できるようなしくみが存在しない。あるいは実験をした⼈しか再現できない。 0.5︓他の⼈が実験の再現をできるようにコードやドキュメントが整備されている。 1.0︓ドキュメントを読まなくても実験が再現できるように、notebook等で実験が再現できるようになっている。また、過去の実験について担当者がいつでも確認できるような仕組みが⽤意されている。

17.

18.

調査により得られた知⾒実施結果 MODEL DEPLOYMENT、INFRASTRUCTUREがgoogleと⽐べて全体的に低い • code reviewやunit testなどエンジニアリングに関連する項⽬に⼤きな差がある • ⼀部素性での妥当性検証やモデルのデバッグといったmodel validationフェーズで検証される項⽬に⼤きな差がある論文中のgoogleのスコア ©2022 Yahoo Japan Corporation All rights reserved.

19.

調査により得られた知⾒実施結果 FEATURES AND DATA項⽬については全体的に⾼い • 特に特徴量の追加効果、コスト、ポリシー管理 • 現状では、特徴量の追加にそれほどチャレンジできていない可能性 • サイエンス向けデータセットが揃ってきたことによる改善の可能性 ※サイエンス向けデータセットサービス個別データ HDFS Teradata … ©2022 Yahoo Japan Corporation All rights reserved. 前処理を事前に実施 Cleansing Data Warehouse Modeling Data (Aggregated) モデリングに活⽤

20.

調査により得られた知⾒実施結果 MODEL MONITORINGは項⽬によってスコア差が⼤きい • モデルに利⽤するデータの監視や、学習と推論の間のデータの不変性の担保等、Data Validationに関連する項⽬の数値が⾮常に低い • モデルの劣化による影響の項⽬が⾼めな理由として、モデルが古くならないよう、定期的な学習によって性能の維持ができている ©2022 Yahoo Japan Corporation All rights reserved.

21.

調査により得られた知⾒ MLTestScore上位プロダクトプロダクト 0 プロダクションレベルというよりも、研究プロジェクトの⼀種 (0,1] 総合的にテストはされていないが、可能な限り信頼性向上に努めている (1,2] 基礎的なプロジェクトの要求事項は通過した。しかし、信頼性向上のためのさらなる投資が必要とされる (2,3] 適切なテストがされている、だが更に⾃動化の余地が残っている (3,5] 信頼性の⾼い⾃動化されたテストとモニタリングレベル。ミッションクリティカルな状況でも問題はない >5 卓越したレベルの機械学習システム FEATURE AND DATA MODEL DEPLOYMENT INFRASTRUCTURE MONITORING 広告プロダクトA 4.5 4.5 3 4.5 3.0 検索プロダクトA 3.0 3.0 3.0 3.0 3.0 広告プロダクトB 3.0 3.0 3.5 3.5 2.5 検索プロダクトB 2.5 2.5 3.0 2.5 2.5 ©2022 Yahoo Japan Corporation All rights reserved. MLTESTSCORE

22.

調査により得られた知⾒広告プロダクトAの事例オンライン検証を実施する各種モデルの最新版が常にロードバケットの調整のみでテストが容易に実施可能オンライン検証を効率良く⾏うための仕組みが充実 TensorFlow Serving model Airﬂow S3 Storage AI開発基盤・・・ Git Model Validation 機械学習API ・・・広告スコア PVC Quobyte/NetApp リクエストモデルが本番システムに適⽤可能かテストを⾃動で実施 Hadoop Hive HDFS ©2022 Yahoo Japan Corporation All rights reserved. Spark AD Server AD LOG 広告配信・・・ Trino(Presto) https://techblog.yahoo.co.jp/entry/2020101930034463/

https://techblog.yahoo.co.jp/entry/2020101930034463/

23.

24.

調査を受けて Data Validation機能の提供モデルの性能に影響を与えるデータの変化を検知 • データ⽣成状況の監視 • スキーマ定義に対する⼊⼒データの不整合監視 • データ量・統計量の変化の監視 Data Drift Detection 統計量計算 Schema Validation Log user age A 10 B 25 HDFS Teradata … ©2022 Yahoo Japan Corporation All rights reserved. ドリフト検知モデル可視化 {“columns”:[ {“name”: “user”, “type”: string}, {“name”: “age”, “type”: int} ]} 特徴量データ alert通知モデリング

25.

調査を受けて Model Validationの仕組み検討モデルを本番環境にデプロイしてもよいかどうかの検証 • オンラインデプロイ済みのモデルとの性能⽐較 • 特徴量を絞った際に性能が⼤きく劣化しないかの確認 • 推論環境でのレイテンシー性能の確認システムチェック配信システム上での結合検証⾮機能要件（レイテンシ等）の確認 Model Validation … モデルチェック特徴量パターン特徴量の部分集合での性能確認 Fairnessの確認 … ©2022 Yahoo Japan Corporation All rights reserved.

26.

調査を受けて Data Validation機能によるデータ異常検知の実例ユーザ特徴量作成の処理中に不具合が発⽣していた • 結果、⼀部素性ですべての値が0に処理に一部不具合 • すべての値が０になっていた • 不定期に現象が発生なぜ気が付かなかった︖ • 不定期に事象が発⽣しており、現段階で致命的な障害にはなっていなかったサービスログ特徴量変換処理特徴量テーブルデータモデルストアロード処理 Data Validation導⼊の検証中に発⾒ Data Validation 検証で異常を検知 ©2022 Yahoo Japan Corporation All rights reserved. 特徴量KVS 配信PF

27.

調査を受けて最後に MLTestScoreはMLOpsの状況把握のための⼀つのアプローチ • ある程度機械学習システムが成熟したタイミングでの実施が良さそう • 事業が多岐にわたる場合には基準の⽬線合わせが必須今進めていること • 機械学習による改善施策がどの程度⾏えているかの定期的な計測・可視化 • A/Bテストの実施状況、オンラインテストまでのleadtime等の計測を開始システムの安定性とA/Bテストの効率化の両⾯から課題の抽出・解決策の検討をすすめる ©2022 Yahoo Japan Corporation All rights reserved.

28.