データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

327 Views

November 26, 15

スライド概要

本年のWebDBフォーラム2015 http://db-event.jpn.org/webdbf2015/ 
技術報告セッションにおけるYahoo! JAPAN発表資料を公開します。

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

データサイエンスを支える基盤と そのテクノロジー ヤフー株式会社 データ&サイエンスソリューション統括本部 データインフラ本部 開発1部 部長 小林 直哉

2.

自己紹介 小林 直哉 (こばやし なおや) 2003年にヤフーに中途入社。 エンジニアとしてMy Yahoo!のフロントエンド、 プラットフォームシステム担当を経て、2012年 10月より現職。 データソリューション本部のインフラ基盤構築領 域を部門長として統括。

3.

アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤

4.

アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤

8.

データ で

9.

Yahoo! JAPAN利用率79% 79% インターネット利用者総数5200万人のうち、 79%の皆様がヤフーを利用 ニールセン2014年 日本のインターネットサービス利用者数ランキングを発表~ Nielsen NetView 家庭および職場のPCからの利用

10.

アプリ累計ダウンロード数 2億7000万以上 “Yahoo! JAPAN”、“天気”、“防災速報”,”乗換案内”、 “カーナビ”など、ランキング1位獲得アプリも多数

11.

事業領域 その他 323億円 マーケティング ソリューション事業 3,042億円 7.4% コンシューマ事業 1,020億円 23.2% 2014年度通期および第4四半期決算より % 69.4%

12.

18期連続増収増益 18 17 16 15 サービス開始以来、18期連続で増収増益を達成 2014年度の売上高は4284億円、営業利益は1972億円 2014年度通期および第4四半期決算より

13.

アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤

14.

ヤフーのビッグデータ?

15.

サービス数 100以上 メディア、コマース、エンターテインメント、コミュニケー ション、金融・決済など、幅広い分野でサービスを展開

16.

100以上のデータバラエティ 100以上 検索キーワード、ビュー/クリック、コンテンツ、購買情報、 ツイートなど、多様なデータを活用可能

17.

膨大なデータボリューム 649億PV 月間649億ページビュー 1日8,300万ユニークブラウザ

18.

50,000 約 アクセス in 1sec

19.

Variety Volume Velocity

20.

Variety Volume Velocity ヤフーはビッグデータカンパニー

21.

Yahoo! JAPANはインターネット複合企業 Media Search Answer ニュース 検索 知恵袋 US JP C2C EC B2C EC

22.

日本市場No.1のサービスを保有している Media Search Answer ニュース 検索 知恵袋 US JP C2C EC B2C EC

23.

Yahoo! JAPAN IDで連結されている Media Search Answer ニュース 検索 知恵袋 C2C EC B2C EC US JP 100以上のサービス・ビジネスデータと連結

24.

ヤフーは多数のビッグデータを抱えた マルチビッグデータカンパニー

25.

アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤

26.

あなたへのおすすめ

27.

検索キーワード入力補助 言葉の一部を入力すると、 残りのワードをサジェストする

28.

おすすめ商品をレコメンド

29.

検索結果の最適化

30.

広告表示の最適化

31.

適用前 自動画像クロッピング 画像処理で人物の顔を 自動的にクロッピングする 適用後

32.

アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤

33.

データ分析基盤とそのテクノロジー ① データパイプライン環境 ② データ処理環境

34.

基盤:データパイプライン環境 収集データサイズ 独自パイプライン システム 125TB/日 約 多種多様な大量のデータを収集できる

35.

基盤:データ処理環境 独自パイプライン システム 6,000台の処理環境 (最大クラスタは3,000台) 多種多様な大量のデータを格納し処理できる

36.

基盤:データ分析基盤の活用 アドホック 独自パイプライン システム 広告配信 ターゲティング 予測モデル 多種多様な大量のデータを活用できる

37.

データ分析基盤とそのテクノロジー  多種多様な大量のデータを収集できる データパイプライン環境がある  多種多様な大量のデータを格納し処理できる データ分析環境がある

38.

アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤

39.

広告最適化における分析基盤利用の実例 ① デモグラフィック推定 ② クリック予測モデル作成

40.

広告最適化における分析基盤利用の実例 ① デモグラフィック推定 ② クリック予測モデル作成

41.

広告最適化:デモグラフィック推定概要 男性には男性向けの広告 女性には女性向けの広告 ログインのみ ログイン+推定 デモグラフィック推定で対象を増やす

42.

広告最適化:デモグラフィック推定概要 乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) 行動履歴から性別を推定する

43.

広告最適化:デモグラフィック推定概要 乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) 推定 女性向け広告を配信 推定結果から広告を配信する

44.

広告最適化:デモグラフィック推定概要 広告配信サーバ 検索ログ アクセスログ (URL・ドメイン) 等 推定結果 機械学習 収集データを分析基盤で学習し推定する

45.

広告最適化における分析基盤利用の実例 ① デモグラフィック推定 ② クリック予測モデル作成

46.

広告最適化:クリック予測概要 乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ) 女性向けカメラの広告 女性向けゲームの広告 女性向け旅行の広告 データを収集する 広告 入稿

47.

広告最適化:クリック予測概要 乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ) 女性向け カメラの広告を配信 クリック 予測 女性向けカメラの広告 女性向けゲームの広告 女性向け旅行の広告 クリック予測結果から最適な広告を配信する 広告 入稿

48.

広告最適化:クリック予測概要 広告配信ログ 広告クリックログ 配信広告タイトル 広告配信ページクロールデータ 広告配信サーバ 乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ) モデル クリックした (100%) 機械学習 クリックされない (サンプリング) データ結合&整形 数百GBのメモリを積んだ モンスターマシンで学習 分析基盤で学習したクリック予測結果に基づき配信する

49.

アジェンダ 1. Yahoo! JAPAN のご紹介 2. マルチビッグデータ 3. データサイエンスのビジネス活用事例 4. データ分析基盤とそのテクノロジー 5. 広告最適化における分析基盤利用の実例 6. 進化するデータ分析基盤

50.

進化:データ分析環境で大事なこと  大量のデータを扱える スマホアプリ・位置情報・IoT・オフラインデータ  高速に処理できる 長期間・組み合わせ・DeepLearning(画像・音声解析)  高効率である サーバ・ネットワーク・場所・電力・運用  新しい取り組みをすぐに試せる 新しいデータ・新しいOSS・新しいアルゴリズム

51.

進化:課題は進化のスピード  データと処理量は指数関数的に増加 CPU・メモリ・HDD・ネットワークの進化では間に合わない  新しいデータ分析技術の開発が活発化 独自技術の開発では間に合わない 進化を加速させる必要がある

52.

進化:基盤の進化を加速させる クローズドからオープンへ 試行錯誤を高速に繰り返す

53.

進化:基盤の進化を加速させる と 技術提携 OSS共同研究開発への投資

54.

進化:大量のデータを扱える技術の開発  多種多様なデータを収集する技術(構築) クローズドな独自パイプラインからオープンなKafkaへ • OSS開発サイクルによる早い機能追加 • オープンなインタフェースによる高い接続性と拡張性  データ保存効率を向上させる技術(開発) 誤り訂正符号による高い冗長性と保存効率の向上 • 信頼性が向上(2-冗長 → 3-冗長) • 保存効率が向上(元データの3倍 → 1.5倍) HDFS Erasure Code Storage

55.

進化:高速に処理できる技術の開発  多様なデータを高速に処理する技術(検証) GPUクラスタによりさらに高速にデータを処理 シングルGPU(既利用)からマルチGPU・マルチGPUサーバへ • 画像・音声データ等の高コストデータの処理 • 機械学習 • Deep Learning  データ処理効率を向上させる技術(開発) HiveクエリをFragmentに分けて常駐プロセスで処理 • 起動時間の短縮 • データのキャッシュ • 最適化効果の向上 LLAP - long-lived execution in Hive

56.

進化:高効率な技術の導入  効率を追求したハードウェア技術(導入) オープンなハードウェアによる高効率な処理環境 OCP(Open Compute Project) • • • • • サーバ費用の削減 消費電力の削減 設置スペースの削減 現地作業時間の削減 データ移行コストの削減

57.

進化:新しい取り組みを試せる環境の提供  リサーチ環境(設計) 本番のデータで新しい取り組みをすぐに試せる環境 本番環 境 最新のバージョンテスト 新しい改善の投入 新しい取り組みの投入 効果をすぐに確認できる 問題を事前に把握できる 新しいデータ 最新のバージョン 新しいOSS 新しいアルゴリズム 等の導入が早まる(はず) 本番環境は安定運用が最優 先 リサーチ環境 10% クラスタ規模 10% データ送信 100% ジョブ投入

58.

まとめ  マルチビッグデータがある  ビジネスにデータサイエンスを活用している  データサイエンスを支えるデータ分析基盤がある  データ分析基盤は進化している チャレンジできる環境がある

59.

データ で

60.

ご清聴ありがとうございました