0.9K Views
August 31, 23
スライド概要
プライベートクラウドとして機械学習基盤を開発、運用してきた歴史を振り返りました
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
機械学習プラットフォーム AIPFの成⻑の軌跡 ヤフー株式会社 データ統括本部 AIプラットフォーム部 ⿊松 信⾏ Copyright ©2022 (C)Yahoo 2020 Japan Yahoo Corporation Japan Corporation. All rightsAllreserved. Rights Reserved.
⾃⼰紹介 ⿊松 信⾏ ヤフー株式会社 @kuromt_ AIプラットフォームチーム Kubernetesを使った機械学習基盤の開発と運⽤ ヤフー社内のMLOpsコミュニティの運営 ©2023 Yahoo Japan Corporation All rights reserved. 2
AIPFとは • ヤフーの社内向け機械学習PFの名称 • CPU/GPUサーバで構成されたマルチテナントなKubernetesであるACPを軸と してMLOpsに必要な機能を社内に提供している • 2019年にプライベートクラウドとして⽴ち上げ、運⽤開始から4年が経過 ©2023 Yahoo Japan Corporation All rights reserved. 3
MLOpsの概念図とAIPFプロダクトの関係 MLOps: 機械学習における継続的デリバリーと自動化のパイプライン を参考に作成 ©2023 Yahoo Japan Corporation All rights reserved. 4
MLOpsの概念図とAIPFプロダクトの関係 OSSと内製ツールを 組み合わせて MLOps基盤を構築 MLOps: 機械学習における継続的デリバリーと自動化のパイプライン を参考に作成 LakeTahoe Notebooks/ LakeTahoe Job API Github Enterprise ArgoCD/ Screwdriver MLflow Model Registry Argo Workflows/ Airflow 内製ツール (k8sのCustom Controller) OSS/ エンタープライズ製品 MLflow Tracking CuttySark Dronach ©2023 Yahoo Japan Corporation All rights reserved. 5
ACPの同時実⾏Pod数 1万以上のPodが同時に起動 ©2023 Yahoo Japan Corporation All rights reserved. 6
様々な利⽤事例 ©2023 Yahoo Japan Corporation All rights reserved. 7
オンプレミスの話 ©2023 Yahoo Japan Corporation All rights reserved. 8
ヤフーがプライベートクラウドを採⽤する理由は主にコスト対効果 • ヤフーはオンプレミス環境でサービスの開発から提供まで実施している • ヤフーのインフラ規模になるとオンプレミスの⽅がコストが低い クラウド コスト オンプレミス 利⽤規模 ©2023 Yahoo Japan Corporation All rights reserved. 9
プライベートクラウド環境における不安 • (利⽤者視点)世の中の技術のトレンドから置いていかれるのではないか • (提供者視点)コストをかけて構築しても社内で広まらないのではないか ©2023 Yahoo Japan Corporation All rights reserved. 10
世の中の技術トレンドに追従できるプライベートクラウドを提供するために 社外の標準技術を採⽤する + 常に変化できる状態を保つ I/Fを外部サービスに寄せる 継続的な開発により成⻑を⽌めない コア技術のエコシステムを採⽤する OSSのこまめなアップデート ©2023 Yahoo Japan Corporation All rights reserved. 11
AIPFにおけるツール選定と機能追加 他にも社内のPFチームと協⼒しながら 様々なサービスを提供 学習API Argo Workflows Argo CD マネージド推論サーバ マネージドNotebooks モデルモニタリングサービス Argo Events 19 /1 0 19 /1 2 20 /0 2 20 /0 4 20 /0 6 20 /0 8 20 /1 0 20 /1 2 21 /0 2 21 /0 4 21 /0 6 21 /0 8 21 /1 0 21 /1 2 22 /0 2 22 /0 4 22 /0 6 22 /0 8 22 /1 0 22 /1 2 23 /0 2 23 /0 4 23 /0 6 23 /0 8 データ品質管理サービス ©2023 Yahoo Japan Corporation All rights reserved. 12
AIPFにおけるツール選定と機能追加 他にも社内のPFチームと協⼒しながら 様々なサービスを提供 学習API Argo Workflows Argo CD マネージド推論サーバ それぞれのプロダクトは⾃⽴ 性を持ち継続的に開発・アッ プデートを続けている マネージドNotebooks モデルモニタリングサービス Argo Events 19 /1 0 19 /1 2 20 /0 2 20 /0 4 20 /0 6 20 /0 8 20 /1 0 20 /1 2 21 /0 2 21 /0 4 21 /0 6 21 /0 8 21 /1 0 21 /1 2 22 /0 2 22 /0 4 22 /0 6 22 /0 8 22 /1 0 22 /1 2 23 /0 2 23 /0 4 23 /0 6 23 /0 8 データ品質管理サービス ©2023 Yahoo Japan Corporation All rights reserved. 13
社内で利⽤されるプラットフォームになるために • 社内で利⽤してもらうためには徹底的なユーザファーストを意識する • 社内プラットフォームが提供する価値は社内のエンジニアがスピード感を持って 開発できる環境を提供すること • プラットフォームの開発と運⽤は直接の利益を⽣まない • 利⽤者が増えるほどプラットフォームの効果は⼤きくなる ©2023 Yahoo Japan Corporation All rights reserved. 14
AIPFにおける取り組み •コミュニケーションにユーザのコストをかけない • やり⽅が分からない、どうしたらいいかという相談を受けたあとの経過時間は ユーザにとっての時間コスト • 同じ社内だからこそ⾼いレベルでサポートできる • ユーザとPFチーム間のコミュニケーションは基本的にオープン • 信頼されるPFとして認知され、様々なチームから毎⽇相談や要望が寄せられる トラブルの相談は即⽇調 査して対応⽅法まで提案 ©2023 Yahoo Japan Corporation All rights reserved. 15
ACPのNamespace数 500 以上のNamespace ©2023 Yahoo Japan Corporation All rights reserved. 16
社内プラットフォームの満⾜度調査 • ヤフーでは半年ごとに約60の主要プラットフォームの満⾜度を調査している • AIPFのプロダクトは常に上位にランクイン LakeTahoe ACP 2021 上半期 2021 下半期 2022 上半期 2022 下半期 🥇 1位 🥉 3位 🥇1位 🥇1位 4位 🥈 2位 🥈2位 🥈2位 7位 8位 Cuttysark ©2023 Yahoo Japan Corporation All rights reserved. 17
©2023 Yahoo Japan Corporation All rights reserved.