オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜

11.5K Views

March 29, 22

#機械学習 #Kubernetes #MLOps #オンプレミス #AIプラットフォーム

スライド概要

2022/3/24に開催した「オンプレML基盤 on Kubernetes」の資料です。オンプレミス環境のKubernetesを使って構築した機械学習基盤の開発、運用の取り組みをご紹介します。
https://ml-kubernetes.connpass.com/event/239859/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 190.8K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 81.3K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 64.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 42.6K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.1K

各ページのテキスト

⾃⼰紹介 • 名前 • 北嶋昇 • 経歴 • Yahoo! JAPAN(2006-) • K8S/Hadoop/D&S Infra/Siteop • 趣味 • 登⼭/ランニング/ボルダリング • SNS • https://www.yamareco.com/modules/yamareco/use rinfo-339612-prof.html ©2022 Yahoo Japan Corporation All rights reserved. 2

AIPF (AI Platform) とは AIPFはK8Sを基盤とした機械学習のモデリングおよび、機械学習パイプライン、推論環境、 MLOpsに必要なモニタリングシステムを提供するプラットフォームプロジェクト概要 ACP 機械学習/ディープラーニング向けのマルチテナントK8S環境 MLflow, Airflow, Argo Workflows, Argo CD など様々なアプリケーションを提供 LakeTahoe サイエンティストへのモデリング環境(jupyterlab)の提供機械学習を簡単に実⾏できるAI Platform Training API の提供 CuttySark ManagedなTensorflowServing ,Tritonを使った推論環境を提供 Dronach 機械学習モデル/FeatureStoreの継続的なモニタリングシステムデータサイエンティスト/エンジニアが上記のツールを組み合わせてシステムの実装 ©2022 Yahoo Japan Corporation All rights reserved. 5

Network • IP Clos Fabric NW • データ分析基盤のようなサーバ間の通信が多い環境に向けた「East-West」なトラフィックにも強い構成 • ⾼帯域で耐障害性があるNetwork • NW Security • コアスイッチではなくサーバ(HV)でNetwork ACLを管理参考：データドリブンなサービスを支えるネットワークの作り方〜ヤフーのデータセンターネットワーク紹介 https://techblog.yahoo.co.jp/entry/20200323819517/ ©2022 Yahoo Japan Corporation All rights reserved. 7

https://techblog.yahoo.co.jp/entry/20200323819517/

Server • OpenStack + KVMを⽤いたIaaS基盤 • 基本的に1HV1VM構成※ • 実機と⽐較して95%程度のパフォーマンス • GPU/NVMe/NICパススルーの活⽤ • 合計130台近くのGPUサーバ • SmartNICを活⽤した⾼速な通信 • パケット処理をHWにオフロードすることで⾼いパフォーマンスを実測 ©2022 Yahoo Japan Corporation All rights reserved. ※ K8S MASTER, INGRESS,ETCDなどのVMは除く 8

Server Spec CPU GPU MEMORY DISK NETWORK Xeon Gold 6138 x 2 V100 x 4 384GB NVMe 8TB 100G Xeon Gold 6238 x 2 V100 x 4 384GB NVMe 1.6TB 100G Xeon Gold 6238 x 2 V100 x 8 384GB NVMe 1.6TB 100G EPYC 7532 2.40GHz x 2 A100 x 4 1024GB NVMe 3.2TB 100G Xeon Gold 6238 x 2 - 384GB NVMe 1.6TB 25G EPYC 7702 x 1 - 512GB NVMe 3.2TB 25G ©2022 Yahoo Japan Corporation All rights reserved. 9

10.

Storage(PVC) • NetApp • NFS + ISCSI • ランダムなRead/Writeで⾼スループットを実現 • DB(MySQL, NoSQL)、データキャッシュなど • Quobyte • File Storage + Object Storage(S3) • 安価なコモディティハードウェア上で動作しサーバを追加することで容量と性能がスケール • モデルデータ、メトリクス、ログなど ©2022 Yahoo Japan Corporation All rights reserved. 10

11.

12.

Kubernetes • Multitenant CPU/GPU Heterogeneous Cluster • 個⼈/ProjectでNameSpaceごとの権限管理(認証dex, 認可garm+Athenz) • Namespaceごとに全体の1/3のResourceQuota(⼀⼈で全体を壊さなければ良い) • IngressなどのDomainはOPAなどで重複排除 • Priority 定期Job High, 通常 Middle, 実験的に⼀気に動かしたい場合 low • ユーザのシステム監視は個別にPrometheus+Alertmanager+Grafanaを⽴てる • ユーザ間のデータの共有はHDFSかDragon(S3) ©2022 Yahoo Japan Corporation All rights reserved. 12

13.

Kubernetes 通信先/量などを記録 • Security ACL 特殊な通信の許可 Ingress • 抑制対策通信先の抑制 • 最⼩限のポート開放 • FalcoでのコマンドやNetworkのなどの監視 • Input • Ingressのなどのログを監視し⼤量のデータが持ち出されていないか監視 A C L container falco • ロギングなど不⼗分なものやIPによる制限ができないものは Output⽤のIngressを作成し制御 Telegraf アラート集計 • Output • データを持ち出せないようにOutputも社内の認証などがかかっているものに制限 Log送信コマンドやネットワークの監視 ©2022 Yahoo Japan Corporation All rights reserved. NiFi HDFS 保管/監査 13

14.

オンプレを⽀える技術 •認証基盤システム概要 Athenz Roleごとのアクセス管理 dex/oauth2-proxy UIのための、Oauth2を利⽤した認証/認可 AthenzSidecar APIのための、X509 Method URLでの認可 open-policy-agent CopperArogsを利⽤したCluster/Namespace/ServiceAccountのX509証明書の発⾏ Pkinit Hadoop操作のためのX509証明書からのKerberosTokenの発⾏社内Secret管理システム X509証明書を使って権限管理を⾏い、鍵の取得を⾏える ©2022 Yahoo Japan Corporation All rights reserved. 14

15.

16.

AIPF (AI Platform) とは (再掲) AIPFはK8Sを基盤とした機械学習のモデリングおよび、機械学習パイプライン、推論環境、 MLOpsに必要なモニタリングシステムを提供するプラットフォームプロジェクト概要 ACP 機械学習/ディープラーニング向けのマルチテナントK8S環境 MLflow, Airflow, Argo Workflows, Argo CD など様々なアプリケーションを提供 LakeTahoe サイエンティストへのモデリング環境(jupyterlab)の提供機械学習を簡単に実⾏できるAI Platform Training API の提供 CuttySark ManagedなTensorflowServing ,Tritonを使った推論環境を提供 Dronach 機械学習モデル/FeatureStoreの継続的なモニタリングシステムデータサイエンティスト/エンジニアが上記のツールを組み合わせてシステムの実装 ©2022 Yahoo Japan Corporation All rights reserved. 16

17.

18.

19.

MLOps まだ定まっておらずそれぞれで実装 LakeTahoe Notebooks Tensorflow/Pytorch/XGBoost/LigthGBM/etc.. hive/cassandraなどを使って実装 LakeTahoe API Tensorflow/Pytorch/XGBoost/LigthGBM/etc.. Dronach Cu?ySark ©2022 Yahoo Japan Corporation All rights reserved. 19

20.

21.

LakeTahoe 機械学習を簡単に実⾏できるAI Platform Training API APIやCLIを使った機械学習の実⾏が可能 ※1 • 分散学習のためのリソース確保 • システム組み込みのハイパーパラメータ探索 • ランダムサーチ、グリッドサーチ、ベイズ最適化（デフォルト） • 並列での探索も可能 $ acloud auth login $ acloud laketahoe jobs submit training <ジョブID> ¥ --config <ジョブ定義YAMLファイルのパス> $ acloud laketahoe jobs describe <ジョブID> --summarize trainingInput: scaleTier: BASIC_GPU masterConfig: imageUri: ”containerregistry.example.com/aipf/laketahoecustom-tensorflow-gpu:latest" args: - "--module-name" - "trainer.task" - "--packages" "hdfs://path/to/packages/tf_probability _mnist-1.0.tar.gz" - "--data-path" - "hdfs://path/to/data/mnist.npz" - "--num-epochs" - "10" - "--num-monte-carlo" - "50" - "--fake-data" - "False” hyperparameters: ※1 Notebookの起動もCLI/API/UIから可能 ©2022 Yahoo Japan Corporation All rights reserved. 21

22.

LakeTahoe アーキテクチャ • CRDを⽤いる代わりに外部のデータベースに状態を保存 • マルチテナントなKubernetesでCRDを登録したくなかった DB 読み書きユーザー HTTP リクエスト LakeTahoe 読み書き API コントローラー読み書き HDFSなどのストレージ • controller-runtimeを利⽤読み書き学習Pod K8s API 作成 ©2022 Yahoo Japan Corporation All rights reserved. 操作 ACP

23.

24.

We are hiring!! オンラインカジュアル⾯談歓迎データプラットフォームエンジニア（AIプラットフォーム/データ基盤/DBA）・AI/機械学習によって世界を良くしたい⼈・技術/サイエンス⼒を活かしてML基盤を作りたい⼈・ユーザ視点に⽴って、システムの設計/開発ができる⼈ TensorFlow PyTorch • Argo Workﬂows • • Argo CD • MLﬂow インフラ • • Kubernetes NW高速化 • • LakeTahoe CuttySark Dronach GPU VM ©2022 Yahoo Japan Corporation All rights reserved. 視点 PF ミドルウェア • • • LakeTahoe Notebooks ML アプリケーション • • 視点 24

https://about.yahoo.co.jp/hr/job-info/role/1323/

25.

カジュアル⾯談の応募⽅法と過去の資料 • カジュアル⾯談希望の連絡お待ちしています • 北嶋: nkitajim (YamaReco) • ⿊松: @kuromt_ (Twi7er) • 資料 • ヤフーのAIプラットフォーム紹介〜 AI開発をより⼿軽に • MLOpsを⽀えるヤフー独⾃のモデルモニタリングサービス • AI Pla-orm with Kubernetes and GPU in Private Cloud #GTC21 • Yahoo!Japan AIPla-ormとWorkﬂow管理 ©2022 Yahoo Japan Corporation All rights reserved. 25

26.

27.

28.

K8S network latency Horovod synthe\c benchmarch (Resnet50) 2node x 4gpu(V100) img/sec per GPU 350 300 250 200 20%程度の劣化 150 100 50 0 batch-size=64 centos device=host batch-size=256 centos vxlan mtu=1500 centos vxlan mtu=9000 ubuntu vxlan mtu=9000 batch-sizeが⼩さい場合、vxlanなどの影響が⼤きく出ている vDPAなどでopenstack側からdeviceを追加しないとうまくいかない ©2022 Yahoo Japan Corporation All rights reserved. 28

29.

AMD vs Intel numpy thread python numpyの場合、amd/intelともに速度変わらず(amdの⽅が若⼲早い) condaなどでpureなmklを使う場合、古いバージョンの場合は、MKL_DEBUG_CPU_TYPE=5をつけないと遅くなる condaなどでpureなmklを使う場合は、最新版に変更を⾏うか、MKL_DEBUG_CPU_TYPE=5を設定して対応が必要 ©2022 Yahoo Japan Corporation All rights reserved. 29

30.

NVIDIA Driver • 更新頻度 • Tensorﬂow,pytorchのサポートで必要になったらあげている(⼤体半年に⼀度) • ドライバに関するトラブル • 特になし • テスト • 過去のcudaも含め、 hbps://github.com/NVIDIA/cuda-samples の動作が変わっていないことを確認 ©2022 Yahoo Japan Corporation All rights reserved. 30

https://github.com/NVIDIA/cuda-samples

31.

Container Image管理 •tag Tag固定 (stableなど) バージョンごとに Tag固定 (v1.0など) プラットフォームユーザ事故の起こりにくさ ○ ○ × × × ○ プラットフォームユーザ管理のしやすさメリット/デメリット • Jupyterなど実験を⾏なってもらう際は常に最新を使って欲しい場合 • • 定常バッチなどでバージョンを固定したい場合バージョンごとにセキュリティアップデートなどがあり管理は多少めんどくさいユーザもバージョンを変えるたびにテストが必要 ※ここでMLOPSが結局重要になる • • •Fat/Small メリット/デメリット • • 依存/インストール順序などを考慮しながら最新版にしていく必要があるユーザはとりあえず起動すれば全てのスクリプトが利⽤できるみんなが使えばcacheにのるのでサイズよりも共通化を意識 • • • 最新版を取り込む作業が簡単ユーザは環境ごとに切り替えが必要 Imageが軽くなる • Fat × ○ × Small ○ × ○ ©2022 Yahoo Japan Corporation All rights reserved. 31

32.

ユーザコミュニケーション • ユーザコミュニケーション • 機能追加などはSlackで周知 • ⼀⽇数件あがるので結構ユーザは⼤変と思う。。 • 周知とは別にまとめを作って欲しいと⾔われている • 基本的に↑と同じSlackで分からないことがあれば聞いてもらう • 情報はちょっとごちゃっとするが、他の⼈への周知や、ユーザ同⼠のフォローも⾏われる • 初めはK8S難しいなどの質問もあったが、現在はナレッジシェアとかも多くなっている(ユーザと⼀緒に成⻑したい) • ユーザコミュニティフォーラム • ユーザが試したことや、共有したいことをシェア ©2022 Yahoo Japan Corporation All rights reserved. 32

33.

研究者のトイルを少なくするための取り組みがあるか • 実験環境 • LakeTahoe Notebooksで簡単に実験は⾏えるようになってきている • 今起きている問題 • 初期構築が⾯倒 • アップデートが⼤変 • リソースの無駄が多い • モデル開発から本番デプロイまでに連携が必要 K8S層を隠蔽したアプリケーションを提供が必要 Pipelineを簡単に作れるInterfaceが必要 ©2022 Yahoo Japan Corporation All rights reserved. 33

34.

Kubernetes 事故 • Masterのラックが落ちて死亡(あるある) • ラック分散 • ArgoWorkﬂow,JobなどでCompleteJobが作られまくってETCD死亡 • Pod数に上限/CompleteJobを消すDefault設定(今は全体で10000podくらいが限界) • Priority/PodDisrupAonBudget/topologySpreadConstraints設定し忘れ(あるある) • 設定しましょう。。w • DockerRegistryのTLS期限切れ • CertManger+ACME (HTTP01チャレンジ)の導⼊予定 • 最新のImageにしたら動かない • テストをひたすら追加/RunGmeバージョンを指定 • NUM_THREADSなどの設定がなくCPU使いまくり or 遅い • Deploy templateの共通化 ©2022 Yahoo Japan Corporation All rights reserved. 34

35.