AI Platform with Kubernetes and GPU in Private Cloud #GTC21

2.8K Views

May 10, 21

#gtc21 #AIプラットフォーム #Kubernetes #GPU #プライベートクラウド #機械学習

スライド概要

GTC 2021に登壇した際の資料となります。
https://www.nvidia.com/en-us/gtc/catalog/?linkId=100000039037143&search=S31217#

Yahoo! JAPANでは、機械学習/ディープラーニング向けのAI Platformをオンプレミスで構築し、社内のサイエンティストとサービス開発者に広く利用されています。従来、社内における、GPUなどの計算リソース活用は非効率であり、エンジニアにとってGPUを含めた機械学習環境の構築・運用、開発のコストも非常に高いものでした。そこで、AI Platformの提供により、計算リソースの有効利用を促進し、なおかつ、利用者にとってより最適な実行環境の実現を進めています。本資料では、Kubernetes、NVIDIA GPU、Mellanox NICなどを用いて構成されるAI Platformについて、インフラレイヤーの説明からプラットフォームの全体構成、提供機能、実際の運用で直面した問題の事例について紹介します。

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 190.8K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 81.3K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 64.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 42.7K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.1K

各ページのテキスト

Who are we? Akira Oiwa Noboru Kitajima IaaS Computing Team Manager AI Platform Principal Engineer OpenStack/K8S/GPU/SDS/etc K8S/Hadoop/D&S Infra 趣味: ⼭(https://www.yamareco.com/modules/yamareco/userinfo339612-prof.html) ©2021 Yahoo Japan Corporation All rights reserved. 2

Intro Yahoo! JAPAN is AI Tech Company? ヤフーでは、ビッグデータを⽤いたAI技術を⽇々研究・開発しており、様々なサービスに適⽤し、ユーザの利便性やサービスの質の向上を続けている。そして、社会への新たな価値の想像を推進する。年々、社内でAI/ML利活⽤が拡⼤している @AFLO ©2021 Yahoo Japan Corporation All rights reserved. 6

Intro かつての社内のAI/ML環境 • 利⽤者各⾃で環境を⽤意しており、計算リソースも限られ、効率的に利⽤されているわけではなかった • ⼈的リソースが限られる中でも、サーバリソース管理や環境構築⼯数が多い状況 • サーバメンテ(脆弱性対応、サーバ障害対応)、テスト環境構築も⼀苦労、スケールアップ・アウトも⾯倒 • モデリングのための適切な実験環境が整っていない • データを柔軟に扱いにくい(計算環境にデータをもってくるのも⼤変) データサイエンティストにとって最適な実⾏環境がなかった ©2021 Yahoo Japan Corporation All rights reserved. 7

Intro Yahoo! JAPANのデータサイエンス組織 • Yahoo! JAPAN • Media/Commerce/etc.. • Technology Group • System • • • DataSolution Science • チームごとにサービスを担当 • サイエンスに関わるシステムの開発/運⽤ DataSolution Platform • • DC,Network,OpenStask,CaaS,PaaS,Athenz,Screwdriver,Git,MYSQL,Cassandra,Storage,社内システムなど様々な全社を開発/運⽤ Hadoop,Presto,UserStore,AIPFなどデータを管理するためのシステムの開発/運⽤ DataPlatform Application • Analytics,ABテストツール,FeatureStoreなどデータを扱いやすくるするためのシステムの開発/運⽤サイエンス部⾨ではモデルの作成だけでなくシステムの開発/運⽤も⾏なっているサイエンス部⾨の⼈数は(他社と⽐べると)多いため⼀つの仕組みではなくそれぞれで⼀からシステムを作ることが多い ©2021 Yahoo Japan Corporation All rights reserved. 8

Intro 従来の社内GPU利⽤事情各サービス担当者がGPUサーバーを調達して運⽤もしくは、OpenStack Ironicで払い出されたGPUインスタンスを⾃分で運⽤ ※OpenStack Ironic : 物理マシン(ベアメタル)のプロビジョニングサービス • 限られたGPUリソースしかなく、必要な時に計算資源を利⽤できない • 柔軟に複数GPUや複数ノードでのJob実⾏が難しい • 利⽤者ごとにGPUサーバーを確保されてしまうため、GPUが有効活⽤されない ©2021 Yahoo Japan Corporation All rights reserved. 9

10.

11.

12.

13.

14.

AIPF Overview AIPFとは • ACP (AI Cloud Platform) • 機械学習/ディープラーニング向けのマルチテナントK8S環境 • より簡単に使えるように、また、より多くのサービスをより早く提供できるように多くのアプリケーションをサポート • Jupyter, MLFlow, Airﬂow, Argo-Workﬂow, Argo-cd, CopperArgos, etc… • Laketahoe Acloud / AI Pla/orm Training API • • ユーザはCLI/APIから簡単に機械学習が可能 ©2021 Yahoo Japan Corporation All rights reserved. 14

15.

AIPF Overview AIPFとは • ACP Kubernetes • Security • • CuttySark • Laketahoe • ACLOS • Falco Acloud • • Athenz • AI Pla+orm Training API • Support ML Image Monitor • • Prometheus • Grafana • Thanos PersistentVolume • • Netapp • Quobyte • • Tensorﬂow XGBoost • Scikit-learn • Pytorch • LightGBM Support ApplicaBon • HadoopClient • Jupyter • • Sparkmagic • Pyhive • Presto • Code-server • Airﬂow • MLFlow Tracking • Argo-Workﬂow • Argo-CD ※⾚部分が社内独⾃ ©2021 Yahoo Japan Corporation All rights reserved. 15

16.

17.

18.

19.

AIPF Infrastructure Network IP Clos Fabric NWの利⽤ • データ分析基盤のようなサーバ間の通信が多い環境に向けた「East-West」なトラフィックにも強い構成 • 従来のNW構成よりも⾼帯域で耐障害性がある参考：データドリブンなサービスを支えるネットワークの作り方〜ヤフーのデータセンターネットワーク紹介 https://techblog.yahoo.co.jp/entry/20200323819517/ ©2021 Yahoo Japan Corporation All rights reserved. 19

https://techblog.yahoo.co.jp/entry/20200323819517/

20.

AIPF Infrastructure NW Security IP Clos Fabric NWにおけるACL管理 (ACLOS) • AIPFが稼働しているNWでは、コアスイッチではなくサーバ(HV)でACLを管理 • • HV側でアクセスポリシーのFlowが制御されるこのACL管理システムのメリット • 利⽤者のポート開放・閉鎖の利便性の向上 • 柔軟に必要最低限なACL設定の投⼊が可能 • コアスイッチの膨⼤なACL設定からの脱却 ©2021 Yahoo Japan Corporation All rights reserved. 20

21.

AIPF Infrastructure IaaS OpenStack + KVMを⽤いたIaaS基盤にて、AIPFを構成するVMを提供 • HV/NWなどはインフラチームが担当することで、AIPFチームの運⽤負担を減らす • ACL管理をHVのレイヤで⾏うことでデータの管理者(AIPF運⽤者)とACLの管理者 (IaaS運⽤者)を分離 • GPUノードもVMで提供 • APIを介したインフラ管理をGPU環境でも実現 ©2021 Yahoo Japan Corporation All rights reserved. 21

22.

AIPF Infrastructure GPU • AIPFのGPUサーバ構成 • Tesla V100 32G SXM2 * 4枚 • Tesla V100 32G SXM2 * 8枚 • Tesla V100 32G SXM2 + vGPU • 合計100台近くのGPUサーバ • 多くはVMにGPUをパススルーで提供している • ⼀部は開発⽤途で利⽤してもらう想定で、vGPUを利⽤して提供 • • なお、OpenStackではQueens以降でvGPUがサポートされている A100は導⼊検討中(後述) ©2021 Yahoo Japan Corporation All rights reserved. 22

23.

AIPF Infrastructure SmartNIC Data CenterでGPUを⼤規模に活⽤するには⾼速なネットワークが不可⽋ • Mellanox ConnectX-5 100Gb/sの採⽤ • 分散学習などのGPUノード間や、ストレージとGPUノード間の帯域も考慮したHWとNW設計 VMでGPUノードを提供する場合、SmartNICに接続する仮想スイッチがLinux BridgeやOpen vSwitch with DPDKでは性能⾯に課題があった • OVS-TC (Open vSwitch with TC ﬂower)の利⽤ • パケット処理をHWにオフロードすることで⾼速な通信を実現 • VM環境から100Gb/s近くのパフォーマンスを実測 Mellanox ConnectX-5（100G x2ポート）出典: https://www.servants.co.jp/product/adaptor/ethernet-adaptor/127/ ©2021 Yahoo Japan Corporation All rights reserved. 23

https://www.servants.co.jp/product/adaptor/ethernet-adaptor/127/

24.

AIPF Infrastructure Storage ⽤途に応じた2種類のストレージを提供どちらもCSIがサポートされており、Kubernetesとも相性が良い • NetApp ランダムなRead/Writeで⾼スループットを実現 • • • DB(MySQL, NoSQL)、データキャッシュなど Quobyte • File Storage, S3 など複数のプロトコルでアクセスできるUnified Storage • 安価なコモディティハードウェア上で動作しサーバを追加することで容量と性能がスケールする • モデルデータ、メトリクス、ログなど ©2021 Yahoo Japan Corporation All rights reserved. 24

25.

AIPF Infrastructure HDFSとAIPFのStorage • • HDFS • 全社でWeblogなどすべてのデータを集約 • Hive,Spark,Prestoなどで操作可能 • 認証基盤/データの⼀元管理 AIPF Storage • • NetApp • NFS及びISCSIをサポート • ISCSIを利⽤しK8SでMYSQLなどを利⽤可能にする Quobyte • NFS及びS3をサポート • HDFSに不向きな細かいファイルやContainerに乗らないデータを取り扱う際に利⽤ • S3のサポートによってHDFSでは利⽤できないアプリケーションの拡充ユーザのニーズや用途に応じた永続化ストレージを提供全ての用途を単一のストレージで賄うことは不可能 ©2021 Yahoo Japan Corporation All rights reserved. 25

26.

AIPF Infrastructure Kubernetes • Kubernetesを利⽤している理由 • コンピュートリソースやストレージをオーケストレーション • GPUももちろん割当可能 • マルチテナント環境の実現 • Kubernetes エコシステムの利⽤(Prometheus、Helm、…) • コンテナイメージの使い回し • スケールアウト・スケールアップの楽さ、オートヒーリング • Kubernetesをサポートした強⼒なOSSがたくさんある ©2021 Yahoo Japan Corporation All rights reserved. 26

27.

AIPF Infrastructure AIPF Infrastructure • Network • NW Security • IaaS • GPU • SmartNIC • Storage • Kubernetes 社内のAI/ML活用を最大限に加速させることを目指したInfrastructure ©2021 Yahoo Japan Corporation All rights reserved. 27

28.

29.

30.

31.

AIPF Support Applications MLFlow Tracking • 実⾏時のパラメータ、結果の保管 • 再現するための情報を登録することで誰でも同じことができる • Metricsの⽐較が簡単にできるプログラム、引数、実⾏結果を保管/可視化を⾏うことで、誰でも再現ができるインターフェースが揃ったツールで結果の⽐較を⾏えることで後続のアプリケーションに動的に切り替えが可能 ©2021 Yahoo Japan Corporation All rights reserved. 31

32.

AIPF Support Applications Airﬂow • 実⾏状況のシンプルな可視化 • 動的なDAG操作 • UIからの再実⾏ • Backﬁllによる再集計 • Pluginを作成することで簡単に実⾏実システムの運⽤を考えられた Programmatically Workﬂow Pluginを提供することでユーザは簡単に各アプリケーションを実⾏できる ©2021 Yahoo Japan Corporation All rights reserved. 32

33.

AIPF Support Applications Argo-Workﬂow • K8S native workﬂow • Templateを使ったStaticなApplication実⾏環境の提供 K8Sを使った複雑なアプリケーションの実⾏が可能インターフェースが決められたTemplateを作成することで再利⽤/システム拡張が可能 ©2021 Yahoo Japan Corporation All rights reserved. 33

34.

AIPF Support Applications Argo-cd • K8S native cd • Daemon系のサービスのdeploy • Gitの更新があったら即反映も可能簡単にDaemon系のサービスのDeployが可能 HelmやKustomizeを準備することでユーザは必要箇所の修正だけすれば⾃分のアプリケーションを作成できる ©2021 Yahoo Japan Corporation All rights reserved. 34

35.

AIPF Support Applications CopperArgos • CopperArgos • K8Sのserviceaccountごとにx509証明書の発⾏が可能 • x509証明書を使い、passwordなどを管理しているapiなどと通信を⾏うことができる • ユーザにはどのserviceaccountからpasswordを⾒て良いか管理のみする ※参考⽂献 https://github.com/AthenZ/athenz/blob/master/docs/copper_argos.md CopperArgosを利⽤することユーザの鍵管理が汎⽤化でき、サービスの実装が簡単にできるようになります ©2021 Yahoo Japan Corporation All rights reserved. 35

36.

AIPF Support Applications Laketahoe • Acloud • ユーザはコマンドから簡単に機械学習が可能 • AI Platform Training API • Input情報、学習スクリプトを登録することで簡単に学習を⾏うことができる • 分散学習やAutoMLなどもサポートサイエンティストが簡単に実験や、本番導⼊ができる仕組みを提供 ©2021 Yahoo Japan Corporation All rights reserved. 36

37.

AIPF Support Applications CuttySark • Multi-tenant Inference環境 • TensorFlow Serving • ONNX server • Triton Inference Server(Tes7ng..) • Support Hardware • CPU only • 処理速度が必要になるものがでてきたらGPUもsupportしていく ACPだけでなく、実運⽤に耐えられるServingの構築 ©2021 Yahoo Japan Corporation All rights reserved. 37

38.

39.

AIPF Security 機械学習を⾏う上でセキュリティ • 対策 • 必要最⼩限のポート解放 • 認証を⾏う • 不正なイメージが使われないようにする • ユーザIDなど個⼈情報が特定される情報は置かない • 予防 • 不正なコマンドを検知 • 経路を追えるように通信のAuditを残す • ⼤量のコネクションや通信の検知気軽に使うにはセキュリティは最も重要 ©2021 Yahoo Japan Corporation All rights reserved. 39

40.

AIPF Security 機械学習を⾏う上でセキュリティ(対策) • 必要最⼩限のポート解放 • ACLOS(L4ACL)によるポート管理 • K8Sの管理者も承認なしではポートを開けれない • 認証を⾏う • K8Sの認証はDex+Garmを利⽤ • ユーザアプリケーションの認証はDex+Oauth2を利⽤ • 不正なイメージが使われないようにする • Falcoによる利⽤者ごとに利⽤イメージの認証 ACLOS/Dex/Falcoを使うことで外部との通信をコントロール ©2021 Yahoo Japan Corporation All rights reserved. 40

41.

AIPF Security 機械学習を⾏う上でセキュリティ(予防) • 不正なコマンド/通信を検知 • Falcoによる不正コマンド検知 • Falcoによる不正な通信の検知 • 経路を追えるように通信のAuditを残す • K8Sのworkerと L4/L7 で直接通信できるのものは社内で認証やセキュリティ対応ができたもの • Auditが不⼗分なものや、より証跡を残したいものはIngressを通して通信を⾏う • ⼤量のコネクションや通信の検知 • FalcoやIngressのログを集めて、異常があれば検知 Falco/Ingressに全てをよせることで統⼀的な通信のauditと監視 ©2021 Yahoo Japan Corporation All rights reserved. 41

42.

43.

運⽤の中での学び BareMetal vs K8S Pods • CPU/MEMORYをHVに取られるので95%程度のパフォーマンス • • • パフォーマンス重視で全てPassThroughなのでそこまで劣化はない GPUのぶら下がっているCPUがわからない • 共有で使っているためtasksetなどが使いにくい • 1pod 1vmの設定をしている⼈は可能 • 複数Podの共有なのでBeDerな使い⽅をしてもらう Coreが全てあるように⾒える • ⾒えてるCPU Coreを全⼒で使おうとするのでENVに明⽰的に指定 VM構成による全体的なパフォーマンス劣化は少ないただし、利⽤者にContainer環境の特性を理解し利⽤してもらうことが必要 ©2021 Yahoo Japan Corporation All rights reserved. 43

44.

運⽤の中での学び BareMetal vs K8S Pods • • • 構成管理が楽 • はじめはImage作りがめんどいと⾔っていた⼈も快適と⾔っている • Driver Updateからの解放リソースの管理が容易 • 好きな時に好きな量を流せる • GPUを使っていない時も他の⼈が使ってくれる K8Sの運⽤ • VersionUpが3ヶ⽉に⼀回必要 • RollingUpdateが⾏われるが⻑期間のJobはCheckPointを実装するなどの対応が必要 K8Sの運⽤以外はいいところしかない ©2021 Yahoo Japan Corporation All rights reserved. 44

45.

運⽤の中での学び失敗したこと • SERVER • MEMORYが少ない • MEMORYは384GBだが、LightGBMなどの利⽤する場合、1Podで100GB以上使うものがある • 早い実験のためには1TB MEMORYくらい必要 • DISKが少ない • Localを1.6TB NVMe SSDにしていたが、複数Podが⽴ちがるときつい • vGPUはさらに分割してるのでDocker Imageだけでお腹いっぱい(⼤きいもので20GBくらいのものがある) プラットフォームは構成を合わせたくなるが特殊な環境も必要 ©2021 Yahoo Japan Corporation All rights reserved. 45

46.

運⽤の中での学び失敗したこと • Kubeﬂow • Kubeﬂow-1.0.0を調査したが使えていない • Argo-workﬂowがRBACに対応してなかった • 現在は対応済み • FeastがGCP縛りになっている • 現在はSparkなどのサポート • Is7oはパフォーマンス/運⽤との兼ね合いがあるがセキュリティ的には強い • 運⽤を考えるとIs7oあり/なしのクラスタを作り、クラスタ間でリソース調整ができる仕組みが必要利⽤できなかったが、Kubeflowの⼀元管理して簡単に使える仕組みは素晴らしい Kubeflowのパーツを利⽤しつつ、検証を進める ©2021 Yahoo Japan Corporation All rights reserved. 46

47.

48.

運⽤の中での学び GPU利⽤状況監視 • Prometheus + Grafanaを利⽤して、GPU Podの利⽤状況を可視化・監視 • Alertmanagerを利⽤して、⻑時間利⽤されていないGPU Podを通知 • 計算リソースの適切な利⽤を促進 • ただし、今のところは地道な啓蒙活動プライベートクラウドと⾔えどリソースは有効に使ってもらうように促す必要がある ©2021 Yahoo Japan Corporation All rights reserved. 48

49.

運⽤の中での学び仮想化によるGPU利⽤効率化 • 1GPUをフルで使わない⽤途も考慮して、vGPUを利⽤して分割提供 • • 開発・検証⽤途での利⽤想定ただし、vGPUによるリソース効率化を狙ったもののvGPU利⽤率は低い • 利⽤者としては使えるのであればGPU丸々使いたい • Memoryが⾜りない出典 https://www.nvidia.com/ja-jp/data-center/virtual-compute-server/ 利⽤者が適切なスペックを選択するように利⽤を促す必要がある更なるリソース効率化のための課題 ©2021 Yahoo Japan Corporation All rights reserved. 49

https://www.nvidia.com/ja-jp/data-center/virtual-compute-server/

50.

51.

利⽤事例 AIPFユーザ事例 • • Object Storage 利⽤NameSpace • ProjectNamespace 40 • PersonalNamepace 160 Object Storage GIT 利⽤事例 • 広告/ショッピング/レコメンドなど様々な環境で ProducTon化されている • 環境作成時間やセキュリティアップデートからの解放によって開発構築/運⽤効率共に格段にアップ • データの移動がなくなり、スケールが容易にできる環境 GIT を提供したことでモデリング業務も⼤幅な改善 GIT 業務効率は従来のBareMetalで作業しているときと⽐べ格段に上がっている ©2021 Yahoo Japan Corporation All rights reserved. 51

52.

53.

今後の展望 A100導⼊検討 AIPFへのA100導⼊に向けて検証・検討を実施中 • • ⽇々、爆増するデータと複雑化するモデルへの適⽤と更なるAI活⽤の加速 • A100 80GやHBM2eへの期待 • TF32の利⽤ MIG利⽤によるリソース効率性の向上 • • 今後はMIGの可能性を模索 V100からの移⾏やA100を最⼤限⽣かすための検討は必須 • TensorFlowやPyTorchのTF32 support versionへの移⾏推進 ©2021 Yahoo Japan Corporation All rights reserved. 53

54.

今後の展望 MIG vs vGPU for Computing • MIGは物理的に完全に分割されるので、vGPUに⽐べて他の利⽤者の影響を受けにくいただし、MIGは分割数の都合上、SMやMemoryが若⼲無駄になる • • vGPUはその制約がない • MIGはKubernetesからも利⽤可能 • NVIDIA device pluginでサポート • vGPUの場合、1VMにつき1vGPUが原則のため注意が必要 • ただし、K8Sにおける動的なMIG分割が課題になりそう ©2021 Yahoo Japan Corporation All rights reserved. 54

55.

56.

Conclusion Conclusion • • 社内向けにAI Platformを構築して提供 • Kubernetes/GPUを活⽤して、より柔軟で⾼速かつ効率的な機械学習環境を実現 • 利⽤者の開発/運⽤効率共に格段にアップし、モデリング業務も⼤幅な改善に繋がった運⽤からの学び • マルチテナント環境においては利⽤者に最適な利⽤を促す必要がある利⽤者と⼀丸になって最⾼なプラットフォームを作り上げていくことが⼤切 ©2021 Yahoo Japan Corporation All rights reserved. 56

57.

58.