ヤフーの広告レポートとSQL on Hadoopの選択#yjdsw3

>100 Views

December 16, 15

スライド概要

http://yahoo-ds-event.connpass.com/event/22017/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

ヤフーの広告レポートと SQL on Hadoop  の選択 ヤフー  データ&サイエンスソリューション統括本部 データインフラ本部 杉⼭山  朋広 1

2.

⾃自⼰己紹介 杉⼭山  朋広 (すぎやま  ともひろ) 2002年年   ヤフー株式会社中途⼊入社 2002年年ー2011年年   Yahoo!ウォレットの開発・運⽤用   Yahoo!  JAPAN  IDのログイン・登録・DBの運⽤用 2012年年ー現在   Hadoopクラスタの構築・運⽤用   広告集計システムの開発   広告システム向けのデータプラットフォームの構築 2

3.

メッセージ 成⻑⾧長する広告事業と業界を技術で加速

4.

Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 4

5.

Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 5

6.

1.広告レポートの使命:求められるもの スループット・スケーラビリティ

7.

1.広告レポートの使命:⽬目指すもの 機能・体感・使い勝⼿手 YDNの運⽤用コスト (対GDN⽐比較) 調査考察 約4倍 運⽤用 約3倍

8.

Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 8

9.

2.これまでの取り組み:レガシーシステム 内部仕様に依存した機能制限 データ量量とユーザ数に⽐比例例しサービスレベルが低下 約10億⾏行行/Day(当時) : : ・・・ 2015-11-24 ・・・ 2015-11-23 : : ・・・ アカウント グループA アカウント グループB アカウント グループC : 2014-10-01 アカウント グループn 13ヶ⽉月

10.

2.これまでの取り組み:SQL on Hadoopの導⼊入 機能制限が解消しサービスレベルが向上 スケーラビリティの問題をTezで解消 Impala Hive on Tez レイテンシのイメージ 1秒前後 10〜~20秒 1時間あたりクエリ(25ノード) 2,500 7,500 2,500 15,000 性能要件を満たすノード数 約200ノード(6クラスタ) 50ノード(1クラスタ) サービス開始 2015年年7⽉月 2016年年1⽉月(予定) ※当社環境 1時間あたりクエリ(50ノード) ※当社環境 ※当社環境

11.

Agenda 1. 広告レポートの使命 2. これまでの取り組み 3. 挑戦と貢献 11

12.

3.挑戦と貢献:Sub-secondクエリを⽬目指す 更更なる⾼高みへ Hive on Tez + llap Phoenix 開発元 Hortonworks SalesForce 概要 Live Long and Process SQL on HBase ⽅方式 キャッシュ KVS + クラスタ側集約 ストレージ HDFS/ORCFile HBase レイテンシ 1〜~3秒 1秒前後 備考 HIVE-12049 HIVE-11525 PHOENIX-2126 ※当社環境でのイメージ

13.

EOP