Hadoop~Yahoo! JAPANの活用について~

-- Views

January 18, 11

スライド概要

profile-image

エンジニア・デザイナー向けのヤフー公式アカウント。イベント/登壇情報/ブログ記事など、ヤフーの技術・デザインに関わる情報を発信します。

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Hadoop p ~Yahoo! JAPANの活用について~ 2011/01/15 ヤ ヤフー株式会社 株式会社 R&D統括本部 統括本部 角田直行、吉田一星

2.

自 紹介 自己紹介 角田 直行(かくだ なおゆき) R&D統括本部 プラットフォ プラットフォーム開発本部検索開発部 ム開発本部検索開発部 開発3 – 2005年 ヤフー株式会社入社 – ヤフー地図 ヤフ 地図 – ヤフー路線 – ヤフー検索 … – 2010年現在、検索プラットフォームを開発中 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

3.

自 紹介 自己紹介 吉田一星 (よしだ いっせい) R&D統括本部プラ トフォ ム開発本部検索開発部開発3 R&D統括本部プラットフォーム開発本部検索開発部開発3 – 2008年にYahoo! JAPANに入社 – 検索プラットフォームで、Hadoopに関する開発 検索プラットフォ ムで、Hadoopに関する開発 – 画像処理、iPhone向け技術開発にもかかわる

4.

Agenda g –Introduction Introduction –Hadoopとは Hadoopとは –事例紹介 –Hadoopのメリット・デメリット –まとめ 3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

5.

Introduction 4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

6.

有名なネットサ 有名なネットサービス 月間 1日 496億7100万PV 5000万 のつぶやき 商品数 6800万 月間ユーザ数 5億人 各サービスとも日々成長を続けています 5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

7.

莫大なデ タ量との闘 莫大なデータ量との闘い –成長を続けていくにはアクセスログ解析やデータマイニングなど 成長を続けていくにはアクセスログ解析やデ タマイニングなど が必須 –億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない 6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

8.

Yahoo! JAPANが扱うデータ が扱うデ タ –ログは1日分だけでもかなりのサイズになる ログは1日分だけでもかなりのサイズになる –行数を数えるだけでも数日かかる 行数を数えるだけでも数日かかる 7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

9.

解決策としての 解決策としてのHadoop p –大規模な処理、大容量のデータを扱うには 大規模な処理 大容量のデ タを扱うには 1台のサーバでは不可能 –マルチコアによる並行処理アプローチは複雑すぎる –数十~数千台規模で簡単にスケールする環境が不可欠 この発表では この発表では、 Yahoo! JAPANがHadoopをどう活用しているか について事例を交えて解説します 8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

10.

Hadoopとは 9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

11.

Hadoopとは pとは –大規模分散処理システム 大規模分散処理システム –Google Google MapReduce/GFSを論文を元に実装 –処理時間が数時間以上かかるようなバッチ処理に向いている → Webのように、即座に結果が返るような リアルタイム処理には不向き –Javaで書かれ Javaで書かれ、オ オープンソースとして公開 プンソ スとして公開 10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

12.

Hadoopとは pとは –Doug D C Cutting氏が生みの親 tti 氏が生みの親 –全文検索ライブラリLuceneなどの 全文検索ライブラリ uce eなどの 他有名OSSも開発 –Yahoo! Inc. 在籍時はフルタイムで開発 –現在はClouderaに在籍 (出典元:Wikipedia) 11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

13.

Hadoopとは pとは 大きくMapReduceとHDFS (分散ファイルシステム)に分かれる 12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

14.

Hadoop p MapReduce p 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・ 13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

15.

Hadoop p HDFS ・巨大なファイルを複数台に分割 ・複数サ バの各HDDを1つのHDDのように扱える ・複数サーバの各HDDを1つのHDDのように扱える 14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

16.

Hadoop関連プロダクト p関連 ダクト 大規模データ処理用スクリプト言語 Pigg A = load 'passwd' using PigStorage(':'); B = foreach A generate $0 as id; dump B; Facebookが開発 扱いが一般データベースに似ている 扱いが 般デ タ スに似ている Hive 15 CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo a foo FROM pokes a; Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

17.

Hadoop関連プロダクト p関連 ダクト O i Oozie 複数のMapReduceジョブなどを 実行制御するワークフロー 実行制御するワ クフロ Hadoop上に構築された列指向データベース G l BigTableのクローン Google Bi T bl のクロ ン HBase Mahout 16 機械学習ライブラリ Hadoopでスケール可 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

18.

Hadoopの事例紹介 事 17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

19.

Hadoopを活用している会社 pを活用して る会社 など・・・ 増 続 増え続けています! ます 18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

20.

Yahoo! Inc.での事例紹介 事 19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

21.

Hadoop p at Yahoo! Inc –Hadoopユーザ、テスター、コミッターの数が最も多い Hadoopユ ザ テスタ コミッタ の数が最も多い –Haoopのクラスタ、台数が最も多い Haoopのクラスタ、台数が最も多い – 多数のクラスタがあり、合計25000台以上 – 1クラスタにつき最大4000台 20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

22.

Yahoo! Inc トップページ トッ ジ 21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

23.

Yahoo! Inc トップページ トッ ジ 検索インデッ クス 広告最適化 22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

24.

Yahoo! Inc トップページ トッ ジ 23 コンテンツ最 適化 検索インデッ クス スパムフィルター 広告最適化 コンテンツ管 管 理 コンテンツ最 最 適化 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

25.

サ チアシ ト サーチアシスト – 入力した検索ワードに関連のありそうな単語を自動で補完 – データベースの構築にHadoopを使用 – 3年分のデ 3年分のデータと タと、20ステップのMapReduce 20ステップのMapReduce 24 Hadoop使用前 Hadoop 時間 26日 20分 言語 C++ Python 開発期間 2 3週間 2~3週間 2 3日 2~3日 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

26.

Yahoo! JAPANでの事例 事 25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

27.

検索 グ ラット ォ 検索ログプラットフォーム –社内の検索サービスのログ解析全般 社内の検索サ ビスのログ解析全般 –Hiveを独自に拡張して使用している Hiveを独自に拡張して使用している –様々なYahoo! JAPANのサービスにデータを提供 26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

28.

Yahoo!検索 検索 –関連検索ワード 関連検索ワ ド –キーワード入力補助 キ ワ ド入力補助 –ショートカットの表示制御 –検索ログプラットフォームのデータが元になっている 27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

29.

Yahoo!検索ランキング 検索ランキング –検索ランキング、急上昇ワードランキングなど 検索ランキング 急上昇ワ ドランキングなど –都道府県別、性年代別のランキング(Yahoo!ラボ) 都道府県別、性年代別のランキング(Yahoo!ラボ) –検索ログプラットフォームが提供したデータをさらに加工している 28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

30.

レコメンデーションプラットフォーム ンデ ション ラット ォ – レコメンデ レコメンデーションサービスの計算処理に利用 ションサ ビスの計算処理に利用 – Yahoo!オークションなどに導入 29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

31.

検索 ラット ォ 検索プラットフォーム(ABYSS) ( ) – 社内の検索サービスをホスティングするプラットフォーム – 様々なサービスに導入されている – 検索データのストレージとして使用 – 検索インデックス生成、検索データの解析処理 30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

32.

地図検索 –地図検索インデックス生成 地図検索インデックス生成 –クリックログ集計・検索ランキング反映 クリック グ集計 検索ランキング反映 –店舗やビルの一意性処理 –開いているお店検索 – クロール – 定休日・営業時間抽出 定休日 営業時間抽出 – 検索インデックス生成 31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

33.

その他の事例 –モバイル検索 モバイル検索 –広告プラットフォーム 広告プラットフォ ム –地域APIプラットフォーム(YOLP) –Yahoo! JAPAN研究所 –Etc… 32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

34.

事例まとめ –データ解析、データマイニング デ タ解析 デ タマイニング – ログ解析、レコメンデーション、テキストマイニングなど グ解析、レ メンデ ション、テキストマイ ングなど –検索関係 – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計算が必 大量のデ タを読み込んで解析をする処理 大量の計算が必 要な 要な「バッチ処理」がほとんど ッチ処理」がほとんど 33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

35.

Hadoopのメリット・デメリット デ 34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

36.

Hadoopのメリット・デメリット pの リット デ リット –○ ○ MapReduceを使って、バッチ処理を簡単に分散できる MapReduceを使って バッチ処理を簡単に分散できる –× リアルタイム処理には向かない –HDFSもMapReduceを使ったバッチ処理に最適化されている 35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

37.

HDFSの特性 の特性 –ストレージとして使うには特性を理解する必要がある ストレ ジとして使うには特性を理解する必要がある – × RDBMSの代用 – × ユーザから多くのアクセスがあるストレージ – △ 小さいデータを多く格納するストレージ – ○ アクセスログデータのストレージ – ○ 過去の取引履歴データのストレージ 過去の取引履歴デ タのストレ ジ 36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

38.

HDFSの特性 の特性 – 何GBというような大きなデ 何GBというような大きなデータを一気に書き込んだり タを 気に書き込んだり、読み出したりする用途 読み出したりする用途 に最適化 – シーケーシャルアクセス。SSDはあまり意味ない – データの書き換えは想定されていない デ タの書き換えは想定されていない – ランダム書き込みができない – ファイルロック(排他制御)がない – 秒間何十回といった大量の読み書き処理には向かない – ファイルキャッシュがない – もちろんRDBMSのようにインデックスがない 37 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

39.

リアルタイ 処理 は リアルタイム処理には? –リアルタイム処理の選択肢はたくさんある リアルタイム処理の選択肢はたくさんある 使い分けが重要! 38 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

40.

使い分けの例 使 分けの例 – 検索プラットフォ 検索プラットフォーム、ABYSSの例 、 の例 検索インデックスのバッチ更新 数分~数時間かかる 検索インデックス 検索インデックスの元データ 39 Hadoop Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

41.

使い分けの例 使 分けの例 – ユーザからのアクセス、リアルタイム更新はHadoop以外で ザからのアク 、リアルタイ 更新は p以外で バッチ更新 リアルタイム更新 Hadoop クローラなど ユ ザ ユーザ トランザクション 検索インデックス 40 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

42.

まとめ 41 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

43.

まとめ –Hadoopは大規模なデータを複数のマシンに分散して Hadoopは大規模なデータを複数のマシンに分散して 処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に なり なりつつある ある –Hadoopは、大規模データを扱う処理や、大量の計算が必要な Hadoopは、大規模デ タを扱う処理や、大量の計算が必要な バッチ処理に向いている –Yahoo!JAPANはこれからもHadoopを活用していきます 42 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

44.

TechBlog og htt //t hbl http://techblog.yahoo.co.jp/ h j / 43 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

45.

Hadoop adoop Hack a Night g 2010年3月 8月に開催 2010年3月、8月に開催 44 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

46.

ご静聴 ご静聴ありがとうございました! が ござ 45 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止