データ利活用を促進するメタデータ

569 Views

February 17, 17

スライド概要

ヤフーのメタデータ可視化の取り組みについて紹介します。メタデータを3つのlayerに分類してそれぞれの課題と対応について説明します

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

データ利活用を促進するメ タデータ 2017年2月10日 ヤフー株式会社 データ&サイエンスソリューション統括本部 エリア関西 尾崎 弘宗

2.

自己紹介 尾崎 弘宗 ヤフー株式会社 データ&サイエンスソリューション統括本部 D&Sエリア関西 経歴 〜2005年 某SIer会社(官公庁、金融系のデータベース設計、開発) 2005年〜 ヤフー株式会社入社(データベースプラットフォーム設計〜運用) 2014年〜 データ&サイエンスソリューション統括本部 (DMP、データマネージメント) 2016年〜 大阪オフィス勤務 2

3.

アジェンダ ・ヤフーのビッグデータ ・メタデータ可視化の取り組み ・メタデータ分類 ・メタデータ収集 ・今後の課題 ・まとめ 3

4.

ヤフーのビッグデータ

5.

100種を超えるYahoo!サービス

6.

100以上のデータバラエティ

7.

膨大なデータボリューム 670 億 PV 670億ページビュー/月 8,900万/日ユニークブラウザ

8.

125 約 TB 1 at day

9.

50,000 約 アクセス 1 in sec

10.

Variety Volume Velocity

11.

メタデータ可視化の 取り組み

12.

取り組み メタデータを集約して 横断的にデータを探せる 「データカタログ」を作成中 12

13.

背景 どこにどんなデータがあるか 分からない データ利活用の妨げに ・他サービス、他部門がどんなデータを持っているか知らない ・データを探すのに時間がかかる 13

14.

目的 どこにどんなデータがあるか 分からない 分かる データ利活用を促進 ・他サービス、他部門がどんなデータを持っているか分かる ・データをすぐに探せる 14

15.

実現方法 バナナ バナナ 価格:98円 賞味期限:2017/3/10 生産者:矢風農場 販売店:スーパー矢風 15

16.

実現方法 データの意味や価値、所在地などの メタデータを可視化する バナナ バナナ 安心 価格:98円 賞味期限:2017/3/10 生産者:矢風農場 販売店:スーパー矢風 16

17.

データカタログ利用イメージ サービス メディア系 コマース系 データ利活用者:数千人 (企画・エンジニアetc.) ファイナンス系 データ利活用アイデア ユーザーデータ 生データ RDB KVS Hadoop ①メタデータ参照 ・データの種類・意味の検索 共通データ 共通API DWH 可視化 デ ・利活用のナレッジ共有 ー ・データ利用までナビゲーション タ カ タ ロ ②メタデータ登録 グ ・データ構造・意味管理 ・データ利用者、連絡先管理 17 データ提供者:数十人 (エンジニア)

18.

メタデータ分類

19.

データ基盤と規模 RDB 1,000dbs Object Storage 1,500nodes Hadoop 6,000nodes 19 KVS 2,000nodes DWH 1.7PB

20.

データ構造 構造化データ RDB 1,000dbs KVS 2,000nodes Object Storage 1,500nodes 非構造化データ Hadoop 6,000nodes 20 DWH 1.7PB 構造化+非構造化+半構造化データ

21.

メタデータ数 推定 テーブル数:約23,000 カラム数:約320,000 RDB 1,000dbs Object Storage 1,500nodes Hadoop 6,000nodes 21 KVS 2,000nodes DWH 1.7PB

22.

メタデータ分類 Layer3 Layer2 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 22

23.

メタデータ分類 Layer3 Layer2 ビジネスメタデータ データの意味を理解するために必要な情報 ・データ内容説明 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 23

24.

メタデータ分類 Layer3 マルチユースメタデータ データ取得目的とは別の用途、他部門で利用するために必要な情報 ※データの「価値」を可視化する必要がある ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 ・データの組み合わせによるセキュリティルール Layer2 ビジネスメタデータ データの意味を理解するために必要な情報 ・データ内容説明 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 24

25.

メタデータの課題 Layer3 マルチユースメタデータ データ取得目的とは別の用途、他部門で利用するために必要な情報 ※データの「価値」を可視化する必要がある ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 ・データの組み合わせによるセキュリティルール Layer2 ビジネスメタデータ データの意味を理解するために必要な情報 ・データ内容説明 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 25 課題 ・どんな情報を収集すべきか(What) ・どうやって情報を収集すべきか(How) ※出来るだけ機械的に収集したい。 ・どうやって見せるか(How) 課題 ・社内に点在しているドキュメントを どうやって収集すべきか(How) ・収集した情報をどうやって最新に保つのか(How) 課題 ・システム毎に点在している情報を どうやって収集すべきか(How) ・収集した情報をどうやって最新に保つのか(How)

26.

メタデータ収集

27.

テクニカルメタデータ収集方法 種類 説明 項目 保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動) 27

28.

ビジネスメタデータ収集方法 種類 説明 項目 保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動) 28

29.

マルチユースメタデータ収集方法 種類 説明 項目 保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動) 29

30.

メタデータ登録コスト 種類 説明 項目 保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動) 大 コスト 小 30

31.

データ利活用までのコスト 種類 説明 項目 保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発 ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア 小 コスト 大 31

32.

メタデータ登録コストパフォーマンス マルチユース可能なデータ マルチユースが難しいデータ 全てのデータに対して 詳細なメタデータを登録するのは コストに見合わない 32

33.

メタデータ収集粒度 種類 項目 保存先(現状) 収集方法 Layer3: マルチユース メタデータ ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発 ※データ量など Layer2: ビジネス メタデータ ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカル メタデータ ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/デー タストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメントソフトウェア (Informatica,Alation) 33 対象データ 大 小 マ ル チ ユ ー ス 可 能 な デ ー タ 小 大 登 録 コ ス ト 活 用 ま で の コ ス ト 分 析 用 共 通 デ ー タ サ ー ビ ス 固 有 デ ー タ 高 低 プライオリティー

34.

メタデータ収集全体図 データの状態情報 メタデータ検索、参照 <キーワード検索、タグ検索、各種情報参照etc> <ファイルサイズ/レコード数etc> Hadoop データカタログ 参照UI DWH API RDB KVS RDB KVS <品質情報> データ説明、構造情報 <データ名、データ内容説明、値説明etc> Hadoop UI 社内 Wiki DWH IF / ETLツールなど UI データ利活用情報 メタデータ リポジトリDB <データ構造> UI Hadoop DWH RDB / UI / KVS UI 社内 Wiki <インテリジェエンス機能> (クラスタリング、自動タグ付け) ETLツールなど ETLツールなど 34 <利用サービス、Knowledge、タグetc> 機械学習 Hadoop DWH RDB KVS =検討中

35.

今後の課題

36.

課題1 魅力的なコンテンツ (活用できるデータ)を揃える 36

37.

課題2 メタデータ登録のモチベーション 37

38.

まとめ

39.

本日のまとめ ・メタデータ可視化の目的を定める ・目的を達成するのに必要なメタデータを定める ・データ毎に適切な粒度でメタデータを登録する 39

40.

END 40