Hadoop~Yahoo! JAPANの活用について~

>100 Views

July 01, 11

スライド概要

IDCフロンティアで行われたNOAHユーザー会での発表資料になります。

profile-image

エンジニア・デザイナー向けのヤフー公式アカウント。イベント/登壇情報/ブログ記事など、ヤフーの技術・デザインに関わる情報を発信します。

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Hadoop ~Yahoo! JAPANの活用について~ 2011/06/30 ヤフー株式会社 R&D統括本部 角田直行

2.

自己紹介 角田 直行(かくだ なおゆき) R&D統括本部 プラットフォーム開発本部検索開発部 開発3 – 2005年 ヤフー株式会社入社 – Yahoo!地図 – Yahoo!路線 – Yahoo!検索 … – 2011年現在、検索プラットフォームを開発中 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

3.

Agenda –Introduction –Hadoopとは –事例紹介 –まとめ 2 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

4.

Introduction 3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

5.

有名なネットサービス 月間 546億PV 2011年3月 月次報告より 1億4千万 のつぶやき Twitter 1日 楽天 商品数 facebook 月間ユーザ数 2011年2月の平均Tweet数 7750万 2011年6月29日 7億5千万人 2011年6月 各サービスとも日々成長を続けています 4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

6.

莫大なデータ量との闘い –成長を続けていくにはアクセスログ解析やデータマイニングなど が必須 –億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない 5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

7.

Yahoo! JAPANが扱うデータ –ログは1日分だけでもかなりのサイズになる –行数を数えるだけでも数日かかる 6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

8.

解決策としてのHadoop –大規模な処理、大容量のデータを扱うには 1台のサーバでは不可能 –マルチコアによる並行処理アプローチは複雑すぎる –数十~数千台規模で簡単にスケールする環境が不可欠 この発表では、 Yahoo! JAPANがHadoopをどう活用しているか について事例を交えて解説します 7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

9.

Hadoopとは? 8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

10.

Hadoopとは –大規模分散処理システム –Google MapReduce/GFSを論文を元に実装 –処理時間が数時間以上かかるようなバッチ処理に向いている → Webのように、即座に結果が返るような リアルタイム処理には不向き –Javaで書かれ、オープンソースとして公開 9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

11.

Hadoopとは 大きくMapReduceとHDFS (分散ファイルシステム)に分かれる 10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

12.

Hadoop MapReduce 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・ 11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

13.

Hadoop HDFS ・巨大なファイルを複数台に分割 ・複数サーバの各HDDを1つのHDDのように扱える 12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

14.

Hadoopの事例紹介 13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

15.

Hadoopを活用している会社 など・・・ 増え続けています! 14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

16.

Yahoo! Inc.での事例紹介 15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

17.

Hadoop at Yahoo! Inc –Hadoopユーザ、テスター、コミッターの数が最も多い –Hadoopのコードのおよそ70%がYahoo!からのもの –Hadoopのクラスタ、台数が最も多い – 多数のクラスタがあり、合計42000台以上 – 1クラスタにつき最大4000台 – コアコミッターを中心に、Horton Worksという会社を立ちあげ – Yahoo!独自に進化させるのではなく、オープンソースとして のHadoopにより貢献するため 16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

18.

Yahoo! Inc トップページ 17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

19.

Yahoo! Inc トップページ 検索インデッ クス 広告最適化 18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

20.

Yahoo! Inc トップページ 19 コンテンツ最 適化 検索インデッ クス スパムフィルター 広告最適化 コンテンツ管 理 コンテンツ最 適化 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

21.

Yahoo! JAPANでの事例 20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

22.

Hadoop at Yahoo! JAPAN 検索プラットフォーム アクセスログデータ プラットフォーム 広告プラットフォーム レコメンデーションプ ラットフォーム 地域APIプラットフォーム 様々なYahoo! JAPANのサービスを支えるプラットフォームで、 Hadoopが使われています 21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

23.

Yahoo! JAPANの検索サービス –例えば、Yahoo! JAPANの検索サービスでは・・・ 検索のログをHadoop で分析してデータ提供 検索ログプラット フォーム 22 サービスに検索機能を提供 検索プラットフォーム (ABYSS) Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

24.

Yahoo!検索 –検索ログプラットフォームのデータを元に様々な機能を提供 キーワード入力補助→ 関連検索ワード→ ショートカットの 表示制御→ 23 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

25.

Yahoo!検索 リアルタイム検索 –検索プラットフォーム(ABYSS)が検索機能を提供 –Twitter社が提供した、リアルタイムのツイートデータを、ABYSS 側に送ってインデクシング 24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

26.

ABYSSでのHadoopの役割 – 検索データのストレージ – 検索インデックスを生成 – 検索データを加工して提供(マージ処理) フロントエンド サービス担当 Gateway Crawler Ops/Direct API Admin UI Workflow Hadoop UserDB Index 25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

27.

検索インデックス生成 サービス担当者 ユーザ ABYSS サービス側フロ ントエンドサーバ Hadoop Server Index Server 26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

28.

検索インデックス生成 1. 検索インデックス の元になるデータ をアップロード ユーザ ABYSS サービス側フロ ントエンドサーバ Hadoop Server Index Server 27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 サービス担当者

29.

検索インデックス生成 1. 検索インデックス の元になるデータ をアップロード ユーザ ABYSS サービス側フロ ントエンドサーバ 2. Hadoopで検索イ ンデックス生成 Hadoop Server Index Server 28 サービス担当者 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

30.

検索インデックス生成 1. 検索インデックス の元になるデータ をアップロード ユーザ ABYSS サービス側フロ ントエンドサーバ 2. Hadoopで検索イ ンデックス生成 Hadoop Server 3. 検索インデックス をインデックスサー バに転送 Index Server 29 サービス担当者 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

31.

検索インデックス生成 ユーザ 1. 検索インデックス の元になるデータ をアップロード 4. サービス側のサ ーバを通じてユー ザが検索可能に ABYSS サービス側フロ ントエンドサーバ 2. Hadoopで検索イ ンデックス生成 Hadoop Server 3. 検索インデックス をインデックスサー バに転送 Index Server 30 サービス担当者 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

32.

Hadoop at ABYSS – Hadoop クライアントとサーバに分けて運用を行っている – サーバは開発用クラスタと、検証用クラスタ、本番用クラスタがある – 本番用クラスタは、DRBD+Heartbeatで冗長化 – 別サーバからHadoop ClientでJobの実行や、ファイルの転送を行ってい る 開発用クラスタ Hadoop Client 31 検証用クラスタ 本番用クラスタ Hadoop Client Hadoop Client Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

33.

Hadoopの事例まとめ –データ解析、データマイニング – ログ解析、レコメンデーション、テキストマイニングなど –検索関係 – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計算が必 要な「バッチ処理」に向いている 32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

34.

まとめ 33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

35.

まとめ –Hadoopは大規模なデータを複数のマシンに分散して 処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に なりつつある –Hadoopは、大規模データを扱う処理や、大量の計算が必要な バッチ処理に向いている –Yahoo! JAPANはこれからもHadoopを活用していきます 34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

36.

Hadoopの連載記事 –いまさら聞けないHadoopとテキストマイニング入門 –Hadoopの基礎や、セットアップ方法を載せています http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html 35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

37.

ご静聴ありがとうございました! 36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止