ヤフーの次世代パイプラインについて#yjdsw3

>100 Views

December 16, 15

スライド概要

http://yahoo-ds-event.connpass.com/event/22017/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

ヤフーの次世代パイプラインについて ヤフー(株) D&S統括本部 データインフラ本部  浅野  遼平 2015年年11⽉月23⽇日 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

2.

発表者紹介 発表者 浅野  遼平 所属 パイプラインチーム 兼務データセンターネットワークチーム 経歴 2013年年新卒⼊入社 パイプライン歴:2年年 ネットワーク歴:1年年 データセンターで僕の年年収 より⾼高い機器にさわって 緊張していた時の写真 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

3.

アジェンダ 1.パイプラインの重要性 2.旧システムの課題 3.次世代のシステムの紹介

4.

データインフラ基盤では パイプラインも重要です Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 画像:アフロ

5.

データパイプラインとは? 分散したデータを効率率率良良く解析基盤にあつめるためのシステム 分散したサーバと そのデータ PIPELINE Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

6.

パイプラインは データソリューションの好循環を⽣生みだす データを 解析する データを転送・蓄積 サービスにフィードバック 好循環のどこが⽋欠けてもサイクルは回りません データを 取得 課題解決 する データが増える Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

7.

Yahoo!  JAPAN  のパイプライン DataHighway Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 の実⼒力力

8.

データ量量と安定性が抜群 データ量量 約125TB/⽇日 累累積停⽌止時間   約3時間/年年  (2014年年実績値) クライアント側 ログ送信プログラム 7年年ほぼ致命的なバグなし このSLA・低事故率率率で、YJのログ転送を7年年間⽀支える Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

9.

パイプラインをさらに進化させるための課題 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 画像:アフロ

10.

ヤフーのパイプラインが抱える課題 課題1:  データ量量と種類は指数関数的に増える 課題2:  クローズなシステムの限界 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

11.

課題1  :  データ量量と種類は指数関数的に増える   001 4 3 9 5 31 0 ( 0 212:, 2 0 0 :   0   0 0   4 3 9 85746 ,2 ヤフー社内でも爆増 5 ) 0 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止  

12.

課題1  :  売上はデータ量量の爆増的に増えない   データ量量は指数関数で増えても・・・ 9 85746 ,2 31 0 ( 0 212:, 2 0 0 :   0   0 0 売上は指数関数的に増えない ) 0 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

13.

課題1  :  データ量量と種類は指数関数的に増える   001 4 3 9 5 31 0 ( 0 212:, 2 0 0 :   0   0 0   4 3 9 85746 ,2 ヤフー社内でも爆増 5   ) 0 受けられるトラフィックは線形の成⻑⾧長ではなく…              指数関数に成長させたい! Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

14.

課題2  :  クローズなシステムの限界 • 試⾏行行回数が少ない • システムそのものの開発スピードが遅い • インターフェースがオープンではないため、 ガラパゴス化する Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

15.

難しい課題を解決するためにやっていること Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 画像:アフロ

16.

爆増対策  :  売上はデータ量量の爆増的に増えない   データ量量は指数関数で増えても・・・ 9 85746 ,2 31 0 ( 0 212:, 2 0 0 :   0   0 0 売上は指数関数的に増えない ) 0 技術⼒力力でカバーする Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

17.

爆増対策:掛け算で考える サーバを増やすだけでなく、様々なレイヤで技術的に向上させる い ま ま で : サ ー バ を ⾜足 す x2 アプリケーション     .   .   .   .   .   .   400  台 こ れ か ら : 各 レ イ ヤ を 技 術 で 効 率率率 化 x2 プラットフォーム     + +40  台 OS x2 ハードウェア     x2 ネットワーク x2 データセンター x2 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 64  倍

18.

オープンな技術を使う クローズ オープン 試⾏行行回数 少ない 多い 開発スピード 遅い 速い インタフェース ガラパゴス 豊富 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

19.

次世代パイプライン Soft              :  Kafka  ,  MirrorMaker Hard            :  OCP  ,  sw Network  :  Fabric  network Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

20.

次世代パイプライン Kafkaとは メッセージングブローカーで、データを分散・分割・レプリケーションを⾏行行い、 管理理することができるサービス。 クライアントとサーバの通信は、⾔言語にとらわれず   TCP  protocol  によってシンプルに⾏行行われる。 • 低遅延で⾼高スループット • インターフェースが豊富 • 耐障害性が⾼高い • スケールアウトが容易易・低コスト • トピックやパーティションの概念念 • 開発コミュニティが活発である Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

21.

次世代パイプライン Kafkaのコンポーネント producer producer producer producer:メッセージを書き込む broker  :メッセージをストアする broker consumer  :メッセージを読み込む cluster  :  複数のbroker  で形成する consumer consumer consumer Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

22.

次世代パイプライン MirrorMaker kafka  cluster • あるKafkaクラスタから、 他のKafkaクラスタに対して、 対象のログを転送しミラーする • Scala製 • ConsumerとProducerが 組み合わさった構造   Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 Mirror  Maker kafka  cluster

23.

次世代パイプライン Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

24.

次世代パイプライン n Local cluster • Daily Traffic : 44.5 TB(圧縮済み) • サーバ台数:35台 • レプリケーションファクター:3 n Aggregate cluster • Daily Traffic : 135 TB(圧縮済み) • サーバ台数:83台 • レプリケーションファクター:3 Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

25.

まとめ 課題と解決策 • データの爆増 →  各レイヤで技術的に解決する • クローズなシステム →  オープンなシステムに 次世代パイプラインの特徴 • ユーザレスポンスを意識識した構成に Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止

26.

最後に このパイプラインで得られた知⾒見見や課題を Kafka  に  FB  やコントリビュートし、 データパイプラインの発展に 貢献していきます Copyright  (C)  2015  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止