オンプレML基盤 on Kubernetes #2 パネルディスカッション #ml_kubernetes

6.8K Views

August 29, 22

#ml_kubernetes #Kubernetes #機械学習 #オンプレミス #GPUスケジューリング #モデルモニタリング

スライド概要

「オンプレML基盤 on Kubernetes #2 パネルディスカッション #ml_kubernetes」
　　オンプレミスで大規模なKubernetesクラスタを運用しているヤフーとPFNの合同イベントの二回目のパネルディスカッションでヤフーが発表した資料です。
　　ヤフーのMLOpsを支えるプラットフォームの裏側を紹介します。
　　https://ml-kubernetes.connpass.com/event/255797/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.5K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.4K

各ページのテキスト

Kubernetesスケジューラ •1GPUのアドホックワークロードが複数ノードに分散する •3/4空きGPUのノードが頻出 •全GPUを使いたいバッチワークロードのアロケーションの妨げになる •→GPUワークロードのみbin-packing •kube-schedulerを標準Scheduler Pluginでチューニング •NodeResourcesFitをLeastAllocatedからGPUのMostAllocatedへ •CPUワークロードをNodeResourcesBalancedAlloca=onで分散 •GPUノードとCPUノードはtaintで分離 ©2022 Yahoo Japan Corporation All rights reserved. 3

Kubernetesスケジューラ •WIP: 分散学習に向けた本格的なスケジューラ改善 •ギャングスケジューリング・階層型キュー対応 •Volcano, Apache YuniKorn •RDMA⽤CLOS NW整備/CNI対応 •Multus, NUMA/RDMA-aware Topology Mapping •トラフィックのスコアリングへの反映 •Telemetry-aware Scheduling etc… ©2022 Yahoo Japan Corporation All rights reserved. 4

LakeTahoe/LakeTahoe Notebooks •機械学習ジョブの実⾏やJupyterLabインスタンスの作成を⾏うためのREST API •CLIツールやWebアプリからも操作可能 $ acloud auth login $ acloud laketahoe jobs submit training <ジョブID> --config <ジョブ定義ファイルのパス> $ acloud laketahoe jobs describe <ジョブID> --summarize ©2022 Yahoo Japan Corporation All rights reserved. 6

LakeTahoeのコントローラー DB • CRDを⽤いる代わりに外部のデータベースに状態を保存 • controller-runtimeのsource.Sourceを実装してコントローラー（Reconciler）の⼊⼒とする読み書き LakeTahoe 読み書き API コントローラー HTTP リクエスト操作 JupyterLab 学習ジョブ K8s API ユーザー作成 ©2022 Yahoo Japan Corporation All rights reserved. ACP 7

CuttySark(カティサーク) •推論マネージドサービス •TensorFlowやTritonサーバをWebAPI経由で管理 •監視設定もWebAPI経由で管理 •2つのコントローラーを使って管理している •柔軟に要望に応える •ZCP特有の制限に対応 •権限が全て付与されない 1. Admission Webhooksが使えない 2. 特定namespaceのsecretでlist出来ない ©2022 Yahoo Japan Corporation All rights reserved.

10.

11.

特徴量を指定するとデータのドリフトを検知するWorkﬂowを⽣成する対象のデータと実⾏スケジュールを指定してBaseModelリソースを作ると Dronach Controllerがドリフト検定と統計情報収集のワークフローをデプロイドリフト検定A Data : hdfs://data/xxx Schedule : * */1 * * * BaseModel をデプロイドリフト検定B $ kubectl apply -f basemodel.yml API server BaseModel Resource Dronach Controller ©2022 Yahoo Japan Corporation All rights reserved. 統計情報収集 11

12.

13.

14.

オンプレ Trouble Pattern • • 物理レイヤー障害点問題対策サーバ CPU/MEMORY/DISK/NIC/GPU 1サーバがダウンダウンしても⼤丈夫なソフトウェア設計 Leafスイッチ 1ラックに収容しているサーバが全て落ちるラック分散 Mlagなどでスイッチの冗⻑化 ※重要な箇所のみ対応(Hadoopのマスターノードなど) Spineスイッチ特になし ※4冗⻑されているため1Spineスイッチが落ちても問題なし ※CoreSwitchに集約するパターンの場合トラフィックで問題になる時期もあったが、CLOSネットワーク化してから帯域の問題は0 DC間ネットワーク特になかったが、ヒートドームで多重にしているネットワークが全てダウン(街のネットワーク⾃体が全てダウン)が1度起きた DCの冗⻑化 ※できるが⾦がかかる DC(空調/電源) 特になしソフトウェアレイヤー障害点問題対策オペレーションミス設定不備でのデプロイテスト環境でのテスト/監視ダブルチェック(テスト/監視が優先) パフォーマンス/リミットキャパシティ上限を迎え停⽌監視パフォーマンステスト(監視が優先) 分散設計バグバグテスト ※直せばい ©2022 Yahoo Japan Corporation All rights reserved. 14

15.

オンプレ Trouble Pattern • サーバ(検証機/サーバ/VM/Container) • サーバチームでベンチマーク系のソフトでテストしている • 検証機/サーバが納品されてタイミングでそれぞれ実施パーツテストノート CPU Multi process gzip/zcat time Avx flops DISK dd single / multi process Network Iperf / qperf 最近問題起こるのは⼤抵ここw ※BIOS/Firmware/Driver… GPU Cuda Samples 追加でMlperfなども投げてストレステストをしているどこが問題かを切り分けるためにもまずはテストを⾏い想定通りのパフォーマンスが出ることを確認⻑期間利⽤していると、あとで障害はでまずけどねw ©2022 Yahoo Japan Corporation All rights reserved. 15

16.

Master/ETCD/Ingress • 障害 • ラック分散をできておらずETCD死亡 • • 初期段階でラック分散するだけのサーバがなかったw ETCDのキャパオーバー • ETCD_QUOTA_BACKEND_BYTESの設定 • MasterNodeと同居していたがVMを分離(現在は8vcore, 16GB Memory, 60GB Disk) • Master Nodeのメモリ/パフォーマンス不⾜ • Master Nodeのメモリ監視 • NamespaceごとのPod数の制限(12000pods くらいが今の上限) • Argo WorkflowsのTTLの設定(ttlStrategy) • JobのTTLの設定(ttlSecondsAfterFinished) • VMのスケールアウト(現在は12vcore,32GB Memory, 60GB Disk) ©2022 Yahoo Japan Corporation All rights reserved. 16

17.

Multi Tenancy Trouble • 障害 • Quota • pods,limits.cpu,limits.memory,nvidia.com/gpu • requests.storage,persistentvolumeclaims • • Netappには筐体ごとにvolume数の上限があります(解放するライセンス⾃体も⼀応あるらしい) 共有リソースの重複 • Ingress • NameがないIngressがdeployされ即死 • OPAで重複する名前のものはエラーにする ©2022 Yahoo Japan Corporation All rights reserved. 17

18.

Node/PVC Trouble • 障害 • PVCがmountできない • Quobyte • Mountを⾏うQuobyte-clientが半死 • • Netapp-nfs • • 問題なし Netapp-iscsi • Multipathの設定不備によるmountの失敗 • Mountできてもreadできない時があるがiscsiなのため検知ができないケースがある • • Fatal errorがあったら強制restart(最新版ではほぼ起きなくなっているが保険としてまだ⼊れている) Deployment/StatefulでもRestartPolicy:Naverつけたい。。(いい⽅法ないですか︖) Terminated Podsが消えない • • metadata.deletionTimestamp+metadata.deletionGracePeriodSeconds>now なpodを強制削除 Node障害からの⾃動drain+restart • まだやっていません。 ©2022 Yahoo Japan Corporation All rights reserved. 18

19.

20.

チーム体制 •各チームが担当プロダクトのオーナーシップを持ちながら、プラットフォーム全体を意識して開発に取り組んでいます。プロダクト AIPF ACP MLﬂow Argo LakeTahoe CuttySark Dronach チーム PO & Engineer PO & Engineer PO & Engineer PO & Engineer Manager ※1人のエンジニアが複数プロダクト（チーム）に関わることはあります。 ©2022 Yahoo Japan Corporation All rights reserved. PO & Engineer 主務 PO & Engineer 他部署と兼務（他部署が主務） ※人数は正確ではありません。 20

21.

22.

We are Hiring !! データプラットフォームエンジニア（AIプラットフォーム/データ基盤/DBA）・機械学習を推進することで⽇本をUPDATEしたい⼈・OSS/内製を問わずエンジニアリング/サイエンスを活⽤してML基盤を作りたい⼈・ユーザ視点に⽴って、使いやすいプラットフォームの開発をしたい⼈ TensorFlow PyTorch • Argo Workﬂows • • Argo CD • MLﬂow インフラ • • Kubernetes NW高速化 • • LakeTahoe CuttySark Dronach GPU VM ©2022 Yahoo Japan Corporation All rights reserved. 視点 PF ミドルウェア • • • LakeTahoe Notebooks ML アプリケーション • • 視点 22

https://about.yahoo.co.jp/hr/job-info/role/1323/

23.

カジュアル⾯談の応募⽅法と過去の資料 •カジュアル⾯談希望の連絡お待ちしています •北嶋: nkitajim (YamaReco) •⿊松: @kuromt_ (Twi<er) •資料 •オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 •ヤフーのAIプラットフォーム紹介〜 AI開発をより⼿軽に •MLOpsを⽀えるヤフー独⾃のモデルモニタリングサービス •AI Pla?orm with Kubernetes and GPU in Private Cloud #GTC21 •Yahoo!Japan AIPla?ormとWorkﬂow管理 ©2022 Yahoo Japan Corporation All rights reserved. 23

24.