いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016

>100 Views

February 15, 16

スライド概要

Hadoop/Spark Conference Japan 2016のLT(ランチタイム: A会場)で話した資料になります。
http://hadoop.apache.jp/hcj2016-program/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

いろいろなストリーム処理理プロダクトを ベンチマークしてみた ヤフー株式会社 データ&サイエンスソリューション統括本部 データインフラ本部 開発2部 アナリティクス基盤 三⽊木 健司 2016年年2⽉月8⽇日 http://www.yahoo.co.jp /

2.

⾃自⼰己紹介 名前 三⽊木 健司(みつぎ けんじ) エコシステム歴 MR,  Hive, storm,  Kafka... 仕事 アクセス解析 -‐‑‒>  ETL処理理 -‐‑‒>  インフラ構築 Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 2

3.

動機 どのストリーム処理理が良良いか知りたい YARNで動かしたい Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 3

4.

ストリーム処理理プロダクト紹介 Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 4

5.

Storm紹介 初期リリース: 2011 主開発: Yahoo!(⽶米),  Hortonworks 特徴 ⽅方式:  stream,  micro-‐‑‒batch 保証: at  least  once,  exactly  once YARN対応:  ◯(Sliderを使えば) Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 5

6.

Spark  Streaming紹介 初期リリース: 2013 (Spark  0.7.0より) 主開発: Databricks 特徴 ⽅方式: micro-‐‑‒batch 保証: at  least  once,  exactly  once YARN対応:  ◯ Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 6

7.

Samza紹介 初期リリース: 2013 主開発: LinkedIn 特徴 ⽅方式: stream 保証:  at  least  once YARN対応:  ◯ Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 7

8.

Flink streaming紹介 初期リリース: 2014(Flink 0.7.0より) 主開発: Data  Artisans 特徴 ⽅方式:  stream 保証:  at  least  once,  exactly  once YARN対応:  ◯ Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 8

9.

ベンチマーク Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 9

10.

ベンチマークする前に チューニングほぼなしで試してみた →  今回はこちら チューニング⾏行行い実環境に近い →  次回あれば Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 10

11.

ベンチマーク⽅方法 項⽬目 内容 CPU Xeon  E5-‐‑‒2630L   v2  2.40GHz  12Core メモリ 64GB HDD 500GB ネットワーク 1G 台数 32台(実質動作は3台、他は管理理やKafka) 構築 Ambari 2.2  (HDP  2.3.4) データ Apache  License  v2を永遠ループ(平均67byte) 処理理 word  count Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 11

12.

ベンチマーク⽅方法 Hadoop(YARN) HDFSへ投⼊入 3台 データ投⼊入 4台 20台 Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 12

13.

ベンチマーク結果 CPU使⽤用割合 平均 15 10 5 0 Storm Spark Samza Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 Flink 13