Apache Atlasの現状とデータガバナンス事例 #hadoopreading

456 Views

August 22, 16

スライド概要

Hadoopソースコードリーディング 第21回のスライドです。
https://www.eventbrite.com/e/hadoop-21-tickets-26913657474

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Apache Atlasの現状と データガバナンス事例 Hadoop Summit 2016 San Joseの報告会 ヤフー株式会社 曾臻 2016年08月18日 http://www.yahoo.co.jp/

2.

自己紹介 曾 臻(そ しん) ヤフー株式会社 D&S データプラットフォーム本部 開発3部所属 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2

3.

アジェンダ • • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3

4.

• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 4

5.

イベント概要 サンノゼ 2016年6月28日〜30日 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5

6.

• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 6

7.

全体的な所感(1) • Hadoop技術は成熟期に入っている • • プロダクトの選択肢は増えている 例:SQL-On-Hadoop:Hive/HAWQ/Drill/Presto • Hadoopクラスター構築と管理のハードルは下がっ た、より簡単になっている • • Ambariのクラスター管理機能は更に進化。SQL文実行 もできるようになる Cloudbreakを使えば、あらゆるクラウドのHadoop向け の自動プロビジョニングが簡単にできる Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7

8.

全体的な所感(2) • ビジネス関連のセッションが増えている • Hadoopをどう使えば利益になるか、関心度が上がって いる。 • データガバナンスの重要度が上がっている • データサイズと種類が増えているので、管理が難しくな る • 同大会に参加した他のエンジニアと話が出来て良 かった • アメリカンフードは一日で十分。和食と中華が良い w Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8

9.

• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 9

10.

Apache Atlasとは? • 一言:データガバナンスのための基盤です • Atlas helps customers discover information about data objects, their meaning, location, characteristics, and usage. • Designed to exchange metadata with other tools and processes within and outside of the Hadoop stack, thereby enabling platformagnostic governance controls that effectively address compliance requirements ソース:https://jp.hortonworks.com/apache/atlas/ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10

11.

Apache Atlasアーキテクチャ 4つのキーポイント: • Data Lineage • Agile Data Modeling • REST API • Exchange ソース: http://www.slideshare.net/HadoopSummit/top-three-big-data-governance-issues-and-how-apache-atlas-resolves-it-for-the-enterprise Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11

12.

データガバナンスの目的 • 組織はデータガバナンスによって、データの情報を 把握したい。例えば: • • • 我々の情報について何を知っている? このデータはどこから来ている?誰が使える? このデータは会社のポリシーとルールに従っているか? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12

13.

Apache Atlasロードマップ • • 去年年末、Atlas 0.6について検証した • HiveからTable/Column情報をイン ポート出来た • Lineage情報は表示可能 • インポートした情報を検索できる • UI、REST APIを使ってAtlasにため たメタデータのR/W操作可能 今回のリリース • Dynamic Access Policies • Rangerインテグレーション • Cross component lineage • Enterprise Readiness • Business Catalog • UIは大幅に進化した ソース:https://jp.hortonworks.com/apache/atlas/ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13

14.

Dynamic access policies概要 • 基本のタグポリシー:個人情報、Sales情報 ルールはTagと紐づく(Tagは再利用可能)。直接リソースに紐付いても 可能。 • 地理情報ベースのポリシー(IPベース) 例:リモート利用者ならアクセス出来ない。社内ならアクセス可能。 • 時間ベースのポリシー 例:リースで借りてきたデータ。大学・研究機関から借りてきたデータを アクセス。 – 月曜日から金曜日までアクセス可能とか。 • 禁止ルール データの組み合わせにより情報漏えい対策 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

15.

Cross Component Lineage概要 ソース:https://jp.hortonworks.com/apache/atlas/ Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

16.

Cross Component Lineage概要 ソース:https://www.linkedin.com/pulse/data-pipeline-hadoop-part-2-birender-saini Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

17.

Role & Activities Data Steward: Atlasの主な利用者。データキューレーション、デー タカタログ担当。Scientist をサポート • Data Scientist: 分析。 • ビジネスカタログの主な利用者。利益源。 • 現在は50%~80%の時間でデータを探している。 • 今後は25%以下に抑えたい。節約した時間を分析に回す • Administrator: ロール管理 • Data Engineer: データ入れだし操作 • Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

18.

感想 Atlas + Rangerでカラムレベルのアクセス制御が出来た。 ダイナミック・リアルタイム スキーマ情報は自動的に取得 Lineageは表示できる ルールによって、データベース/テーブルを隠すこともできる。 例:PIIタグを特定のカラムにつける。PIIアクセス禁止のアカウント は該当カラム表示できない。 • データスチュアートがカタログ情報を入力、データサイエンティストが 使う • • • • • Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

19.

Extend Governance in Hadoop with Atlas Ecosystem Waterline DataのAtlasインテグレーション事例 • • • • データ内容を分析して、タグを提案してくれる。(%は関連度を示している) http://www.waterlinedata.com/ Lineageについて、Atlasと連携:Import/Export Attivio事例 • • • 構造化・非構造化両方対応 Lineage表示を強化 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

20.

• • • • イベント概要 全体的な所感 Apache Atlasの現状 eBayのデータガバナンス事情 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 20

21.

eBay社内のデータプラットフォーム • 色々なシステムにより構成されている ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

22.

eBayのコラボレーションの進化 W:Wiki F:良いね!SNS要素 in:プロフェッショナル関係で繋がる ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

23.

eBayのデータ運用の課題(1) • 直接なDBアクセスたくさん有り、MicroStrategyレポートたくさん有 り(5,000+)、 Tableauチャートもたくさん有り(10,000+) • 同じ指標に対してのレポートでも複数バージョンある。正しいMetrics とレポートを見つかるのは難しい。上司であっても判断は難しい。その ツールは前任の前任から引き続いたかも。 • データサイエンティストはなんでも自分でやらないといけない。 • データサイエンティストが来たら、データはどこにあるか、どうやって 使うか、全部自分で探さないといけない。 • なぜそのファイルはそこにあるから知らない • 整合性・一貫性が無い。あるテーマに対してそれぞれの紹介WIKIがあ るかも Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

24.

eBayのデータ運用の課題(2) • このレポートはどうやって計算しているか、データはどこから来ている から分からない。誰かは「使え」と言っているから使っている。 • レポートのロジックの追跡は難しい • レポートの信頼度は分からない。昨日のデータを使っているかも • etc. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

25.

eBayのデータ運用の課題 • データサイエンティストはなんでも自分でやらないといけない。 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

26.

対策 • Self-service Strategy ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

27.

対策 Alation:ツール。https://alation.com/customers/ ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

28.

データガバナンス データアセットCertification – 誰が、いつ、このViewが正しいかを判断したかを記録 ビジネス用語集 – 略語が多すぎるから、必須 管理 – クオリティチェック、リリースノート、データロード記録等 – これは現在利用可能? ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

29.

EOP Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 29