リペア時間短縮にむけた取り組み@Yahoo! JAPAN #casstudy

5.5K Views

June 12, 17

#casstudy #Cassandra #リペア時間短縮 #nodetool repair #Subrange Repair #パフォーマンス最適化

スライド概要

第37回Cassandra勉強会 https://casstudy.connpass.com/event/57701/ で発表した資料です。

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 192.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 81.9K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 42.9K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.4K

各ページのテキスト

リペア時間短縮にむけた取り組み @Yahoo! JAPAN ヤフー株式会社データ＆サイエンスソリューション統括本部データプラットフォーム本部小島夏海 1

お前誰？ • • • • 2 小島夏海 Cassandra 歴 9ヶ月社内向けプラットフォームの開発・運用学生時代の専門はHCI(主にVR)

発表について • 何か素晴らしいことをしてリペアがめっちゃ速くなった！という内容の発表ではないです • とりあえずなんとかなったけど、もっといい方法がないか知りたいのでみなさんのご意見を聞きたいと思ってます 3

アジェンダ • モチベーション • 何をして速くしたか • リペアのオプション • Subrange Repair 4

参考資料 • Real World Repairs • https://www.slideshare.net/DataStax/realworld-repairs-vinay-chella-netflixcassandra-summit-2016 • nodetool repair • http://docs.datastax.com/en/cassandra/3. 0/cassandra/tools/toolsRepair.html 5

モチベーション 6

SLAが満たせない… • 2DC 全36台のクラスタでリペアが7時間ほど • 1台約12分 (420 36 12) • 深夜の内に終わらせたいので7時間は長すぎる素早くリペアを回したい 7

環境 • • • • 8 CPU : 2CPU 1.80GHz メモリ : 128GB DISK : SSD 400GB x2発 RAID0*1vol Cassandra 3.0.9 • 2DC 3RF • LeveledCompaction • データのディスク専有率 : 約30%

どうやって速くしていったか 9

10.

どうやって速くするか • streaming 周りの設定 • compaction 周りの設定 • nodetool repairのオプション 10

11.

どうやって速くするか • streaming 周りの設定 • 速度を出しすぎると他サービスに影響があるので 400MB/s に設定 • compaction 周りの設定 • 大きな値にした状態ではピーク時のリクエストが処理仕切れない • nodetool repairのオプション 11

12.

どうやって速くするか • streaming 周りの設定 • compaction 周りの設定 • nodetool repairのオプション 12

13.

リペアで設定できるもの • • • • • • リペアのアルゴリズム : インクリメンタルシーケンシャル or パラレル : パラレルプライマリレンジかどうか : false ジョブスレッド数 : 1 リペアするDCの範囲 : 全体データセンタを並列でリペアするか : false ref : http://docs.datastax.com/en/cassandra/3.0/cassandra/tools/toolsRepair.html 11

14.

2.1系までのリペア • 2.1系までのリペアはフル・リペアでシーケンシャルがデフォルト • 弊社ではこれにプライマリオプションをつけて運用 DC1 12 DC2

15.

3.0系の設定 • インクリメンタル、パラレルがデフォルト • 今回のクラスタも3.0系なので、この設定 DC1 15 DC2

16.

なぜprオプションを外したかインクリメンタルリペアにプライマリオプションをつけて実行 : ノード incremental primary ○ DC1 16 ○ 3系ではプライマリオプションをつけて並列でリペアを実行すると失敗する

17.

リペア動作確認 : 条件1 マルチDC環境にて1DCの 1台のみ nodetool repair -full このrackだけ nodetool repair 実行 { name : nkojima age : 26} DC1 17 : ノード incremental parallels ✕ ○ primary ✕ RF : 3 DC2 { name : nkojima age : 25}

18.

リペア動作確認 : 条件1 結果 : nodetool repair -full を実行していない : ノード incremental parallels primary ノードのデータも修正された ✕ ○ ✕ RF : 3 { name : nkojima age : 26} DC1 18 DC2 { name : nkojima age : 26}

19.

リペア動作確認 : 条件2 マルチDC環境にて1DCでのみ nodetool repair -full -pr : ノード incremental parallels こちらのDCだけ nodetool repair実行 DC1 19 { name : nkojima age : 26} ✕ DC2 ○ primary ○ RF : 3 { name : nkojima age : 25}

20.

リペア動作確認 : 条件2 結果 : リペアを実行していないノードのデータは修正されず incremental ✕ : ノード parallels primary ○ ○ RF : 3 DC1 20 { name : nkojima age : 26} DC2 { name : nkojima age : 25}

21.

ここまでのまとめ • pr オプションをつけておらず、RF3で3rackの場合は1rackでだけnodetool repairすればいい • 弊社の場合 • 2.1系までは pr オプションで運用していたので、全体でリペアをしていく必要があった • 3系では pr オプションをやめたので、全台で nodetool repair コマンドを実行する必要はなかった 21

22.

リペアを実行するノード数の変化 before : nodetool repair after : nodetool repair rack2 rack2 rack1 rack3 DC1 DC1 rack1 rack2 rack3 rack1 rack3 rack1 rack2 無駄に実行していたリペアを削減 rack2 rack1 rack3 rack1 rack2 22 rack3 DC2 DC2 rack1 rack2 rack3 rack3 rack1 rack2 rack3

23.

Subrange Repair 23

24.

Subrange Repair • 通常のリペアと同じようにリペアをする • リペアする範囲を実行時に指定する 24

25.

Subrange Repair • 通常のリペアと同じようにリペアをする • リペアする範囲を実行時に指定する 25 トークンレンジ図例 : 赤い箇所をnode1が担当している場合 • 通常のリペアの場合 : 赤い箇所すべてが一つの nodetool repair の対象になり、順番にリペアが実行される • Subrange Repairの場合 : nodetool repair を実行する時に、リペアする箇所の範囲を指定することで一つづつリペアを実行する

26.

リペアの並列実行 • 通常のリペアでは最大で job threads は最大で４ • Subrange Repair を並列で実行すれば job threads は 1 range に対して最大で４ Normal Repair All Range job threads : 4 26 Subrange Repair Range1 job threads : 4 Range3 job threads : 4 Range2 job threads : 4 Range4 job threads : 4

27.

どうやっているか • nodetool repairコマンドを実行しているノードの概要トークンレンジ取得 Subrange Repair プロセス Subrange Repair プロセス Repair 管理プロセス Subrange Repair プロセス Subrange Repair プロセス 27

28.

実行結果 • 取り組み前 → 7時間 • 取り組み後 → 2時間35分 28

29.

実施したことまとめ • 無駄に実行していたリペアを削除 • nodetool repairを実行する台数が36 → 6 • リペアの並列数を上げることで処理時間を短縮 • Subrange Repair を４並列で実行 29

30.

現状の問題点 • Subrange Repair の管理をしているノードの負荷が高い 31

31.

どうして負荷が高くなっているのか • スレッド管理で負荷がかかっているトークンレンジ取得 Subrange Repair プロセス Subrange Repair プロセス Repair 管理プロセス Subrange Repair プロセス Subrange Repair プロセス 32

32.

複数台でリペアを動かして負荷を分散させる node1 トークンレンジ取得 Subrange Repair プロセス Subrange Repair プロセス Repair 管理プロセス node2 Subrange Repair プロセス Subrange Repair プロセストークンレンジ取得 32

33.

まとめ • リペア時間の短縮を実施 • 7時間 → 2時間半 • 無駄に実行していたリペアを削除 • リペアの並列数を上げることで処理時間を短縮 33