大規模HDFS & ErasureCoding#yjdsw3

>100 Views

December 16, 15

#yjdsw3 #Hadoop #HDFS #Erasure Coding #大規模データ処理 #分散コンピューティング

スライド概要

http://yahoo-ds-event.connpass.com/event/22017/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 191.2K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 81.4K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 64.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 42.7K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.1K

各ページのテキスト

社外秘大規模HDFS & ErasureCoding 分散コンピューティング黒帯鄭輝 15/12/02

自己紹介 • 2004年来日 • 2008年ヤフージャパンに入社 – 2013年大規模Hadoopクラスタを構築、運用 – 2015年 OSS(Hadoopエコシステム)開発（※今ここ） • 2015年10月分散コンピューティング黒帯 P2

Agenda • ヤフージャンパンのHadoopが取り巻く環境 • 大規模HDFSクラスタで直面する課題 P3

Agenda • ヤフージャンパンのHadoopが取り巻く環境 • 大規模HDFSクラスタで直面する課題 P4

Agenda • ヤフージャンパンのHadoopが取り巻く環境 • 大規模HDFSクラスタで直面する課題 P8

普通のHDFS P9 NameNode create,rm… ※active / client ls, cr eate, mv… editlog edit log fsimage JournalNode Block DataNode client Repo rt k k k k k block block block editlog NameNode ※standby fsimage k block block block

10.

大規模のHDFS P10 two NameNode 1.6億ブロック ※active client 遅い / create,rm… 3000 connection BlockReport DataNode 3000台 fsimage JournalNode k ガベージコレクション遅い k client k client k client k client k k k k ※standby k k 有効データ:1/3 k k k 60PB->20PB 3000 connection block BlockReport fsimage 1.3億 k block block block block block block block block block block block block block block block block NameNode ※2015年11月ファイル数: k 遅い ﬁles and directories, 1.6億 blocks block

11.

Agenda • ヤフージャンパンのHadoopが取り巻く環境 • 大規模HDFSクラスタで直面する課題 – BlockReportが遅い(解決済み) – Storageコスト（開発中） P11

12.

BlockReportの遅い影響 P12 • NameNodeの起動が遅い（数時間） NameNode DataNode BlocksMap blockId dn1,dn2 ,dn3 fsimage rt BlockRepo k k k k k … k k k blockId dn4,dn5 ,dn6 blockId dn7,dn8 ,dn9 k k k k k k k block block block block block block block block block block block block block block block block BlockReport … block blockと存在するdn の情報を揃わないとデータをアクセスできない k block

13.

BlockReportなぜ遅いか P13 HDFS-7980の影響機能してない BlockReport 重い処理追加、削除、失効のdiffを取る更新/追加/削除/失効処理 under/over Replicationの処理 pendingReplicationsの処理 corruptReplicasの処理 firstBlockReport 軽い処理 blockと所在するDNの情報を集めるのみ

14.

firstBlockReport機能しない原因 • BlockReport – fullBlockReport(1.6億) NameNode DataNode 再起動 ①full • 頻度：24時間に１回 – incrementBlockReport（差分のみ） P14 軽い処理 ②increment • 頻度：数分間に1回 NameNode DataNode 再起動 ②full 軽い処理 ①increment 稼働中 busy

15.

BlockReportが遅い対策① • 暫定対策 – 運用手順(incrementBlockReportをなくす) • 全DataNode stop • NameNode起動/再起動 • 全DataNode start – 10分内確実完了 P15

16.

BlockReportが遅い対策② P16 • 根本対策 – コンミュニティと連携(HDFS-7980) • 一つ目のfullBlockReportに軽い処理を適用する • Hadoop2.6.1から NameNode DataNode 再起動 ②full 軽い処理 ①increment 稼働中 busy

17.

Agenda • ヤフージャンパンのHadoopが取り巻く環境 • 大規模HDFSクラスタで直面する課題 – BlockReportが遅い(解決済み) – Storageコスト（開発中） P17

18.

HDFSのOverhead-200% P18 Replication(3) dn1 dn2 dn3 rep2 rep3 File Block1 Block1 Block2 Block3 Block1 rep1 Durabality=2 Overhead=200%

19.

ErasureCodingで改善 ReedSolomon(6,3) HDFS-‐7285 dn1 File P19 dn2 dn6 dn7 dn8 dn9 Block1 stripe1 s1 s1 s2 s2 s6 s6 p1 p1 p2 p2 p3 p3 stripe2 s7 s8 s12 p4 s5 s6 Block1 Block2 StripeN DataBlock BlockN Durabality=3 Overhead=50% ParityBlock データ復元用

20.

コミュニティーと一緒に開発ヤフージャパンRESOLVED: 56 P20

21.

Replication vs ErasureCoding Ac<on Read Wr<e Keep Reconstruc<on P21 Resource Replica<on ErasureCoding Network Traﬃc ◯ ✖ CPU ◯ ◯ Disk ーー Network Traﬃc △※量3倍、locality △※量1.5、localityなし CPU ◯ ✖ Disk ーー Network Traﬃc ーー CPU ーー Disk ✖ ◯ Network Traﬃc ◯ ✖ CPU ◯ ✖ Disk ーー • EC最大のメリット：Disk容量が少ない • ECのデメリット：network traffic、CPU使用用が多く発生

22.

パフォーマンステスト • HDFS-8425で報告 • テストケース：TestDFSIO • クラスタ情報 P22 2015年１０月バージョン、まだ改善中 DataNode数 20 CPU Xeon E5-‐2630L 2.00GHz/2CPU RAM 64G Disk SATA 3TB x4発 Network 1G

23.

パフォーマンステスト-Readスループット • TestDFSIO -nrFiles (10,20,30,40,50,60,70,80,90,100) -size 384MB P23

24.

パフォーマンステスト-Writeスループット • TestDFSIO -nrFiles (10,20,30,40,50,60,70,80,90,100) -size 384MB ErasureCodingが勝つ P24

25.

パフォーマンステスト-CPU使用率 • P25 110~200 filesをwriteする時のDataNode CPU使用率平均値を計算すると5.5%上がる replicaPon ErasureCoding

26.

ErasureCodingに関する結論 • Network、CPUのデメリットが許容できる • Storageコストのメリット（半減）が大きい • クラスターのリソース状況にあわせて使う P26

27.

今後の導入計画 P27 • HDFS-6584 – Storage Policyの概念が紹介された Storage Policy Dataのアクセス頻度 HOT 毎日、毎週 WARM 毎月 COLD 殆どアクセスしない対象とする:メリットを享受、デメリット回避例えば：一年前のlogデータ

28.

ご清聴ありがとうございました！