データ利活用におけるセマンティックレイヤー概要

1.2K Views

November 18, 25

スライド概要

Code-Driven データ分析ナイト #2 セマンティックレイヤーにおける発表資料です。

https://code-based-presentation.connpass.com/event/374363/

profile-image

manabian の資料です。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Code-Driven データ分析ナイト #2 セマンティックレイヤー データ利活用における セマンティックレイヤー概要 manabian 本資料に関するリンク

2.

はじめに セマンティックレイヤーにおける基本的な情報を提供することで、 dbt、 Snowflake 、 Databricks におけるそれぞれの機能の理解を深めることを目的とし ております。定義や説明に曖昧な部分があることをご了承ください。 本日発表するコードについては、 GitHub 上で公開しております。 参考になった方は Star をつけてください(やらせは不要です)。 GitHub へのリンク

3.

データ利活用における セマンティックレイヤー

4.

セマンティックレイヤーとは (1/2) 各サービスのドキュメントを確認すると、ビジネスという用語が頻繁に用いられており、 ITエンジニア向けに限らず、ビジネスユーザーも意識した概念であることがうかがえます。 dbt Semantic Layer (出所: dbt Semantic Layer | dbt Developer Hub ) The dbt Semantic Layer, powered by MetricFlow, simplifies the process of defining and using critical business metrics Snowflake (出所:セマンティックビューの概要 | Snowflake Documentation) 物理データにビジネス上の意味を付加することで、セマンティックビューはデータ主導 の意思決定を強化し、エンタープライズアプリケーション全体で一貫したビジネス定義 を提供します Databricks(出所:Semantic Layer | Databricks) セマンティックレイヤーは、複雑なデータモデルとビジネスユーザーの間のギャップを 埋めるビジネスフレンドリーなインターフェースです

5.

セマンティックレイヤーとは (2/2) DMBOK 出版元である DAMA では、用語集にて Semantic Layer が定義されています。 DAMA の Semantic Layer の定義 A representation of data using business terms to enable ease of understanding and use. Ref: The DAMA Dictionary of Data Management, 2nd Edition 理解や活用を容易にするための ビジネス用語を用いたデータ表現。 上記の翻訳 引用元:DAMA® Dictionary of Data Management - DAMA International®

6.

データ利活用におけるセマンティックレイヤーとは データマネジメント業界で注目されているナレッジグラフによるセマンティックレイヤー もありますが、本日の対象はデータ利活用におけるセマンティックレイヤー(SL)です。 本日の対象はこちら データ利活用における セマンティックレイヤー Knowledge Graph による セマンティックレイヤー データ利用者① XXX X ソース Semantic Layer データ利用者② データ利用者③ 引用元:What Is a Semantic Layer | Graphwise Fundamentals

7.

<補足>Knowledge Graph によるセマンティックレイヤー Enterprise Data World (EDW) 2025 というイベントでも注目されているテーマであり、 RDF (Resource Description Framework)によるナレッジグラフ(KG)で実装します。 キーワードは、 Ontology、Taxonomy、Tripple 、URI であり、 Neo4j などの Properties Graphとは別物です。 KG で有名な Graphwise 社のイベント参加録 引用元:What Is a Semantic Layer | Graphwise Fundamentals 引用元:Graphwise AI Summit 2025 参加録

8.

データ利活用SL における実装箇所による相違点 実装箇所により 3 つに分類できます。 BI からアクセスがある場合には、クエリの同時実行数の考慮が必要です。 ソース DWH Data Lake ③ソース側で 実装 データ利活用 BI ②中間で実装 ①データ利活用 側で実装 AI/ML ・・・ Query

9.

データ利活用SL におけるデータの保持方法による相違点 データ保持方法により3つのタイプに分類できます。 図や名称については適切なものが見つからず、仮のものとしてご理解ください。 Snowflake と Databricks は②の分類に該当し、dbt は③に位置付けられます。 ① OBT(One Big Table・大福帳)型 ②ディメンショナルモデル型 ③サブジェクト型 メトリックス (メジャー) メトリックス (メジャー) メトリックス (メジャー) メトリックス (メジャー) メトリックス (メジャー)

10.

<参考>過去に整理した Semantic Layer 全体象 データマネジメント 分析用データモデル エンタープライズデータモデル 業務用語集 実体化 Semantic Layer データソース データ利活用 レイヤー Semantic Layer 管理機能 データ分析レイヤー 業務系 システム 開発運用 支援機能 データセ キュリティ 機能 モデル 管理機能 データ品質 管理機能 オーケストレー ション 機能 その他 管理機能 統計解析システム (ML、生成 AI) Data lake データ取得 機能 CWH DWH データモデリング 機能 データ前処理機能 バッチ型 データ 取得機能 テーブルの グルーピング機能 モデリング サービス 物理 Semantic model データ提供 機能 データ 提供機能 リアルタイム型 データ 取得機能 ビジネス要件 反映機能 その他の モデリング機能 データ利用レイヤー データ抽出 データマネジメント サービス リレーション機能 メトリック設定機能 Semantic model Semantic model 機能 可視化システム ( BIシステム) 複合 Semantic model メタデータ 提供機能 論理 Semantic model 自然言語による データ抽出機能 データカタログ モデリング サービス

11.

<参考> Semantic Layer 構築の重要性について セマンティックレイヤーを適切に構築することで、データガバナンスと俊敏性の両立が可能とな り、データ利活用に伴うコミュニケーションコストの低減を実施することが可能。 Semantic Layer なし Semantic Layer あり データ利活用の要望があるたびにクエリの提供などを行う必要が生じ、 その都度コミュニケーションコストが増大するだけでなく、提供された クエリに対するガバナンスを適切に実施することも困難になる。 データ利活用の要求がある際には、再利用可能な Semantic Layer を提 供することで、コミュニケーションコストを低減しながらデータの抽出 状況を一元的に管理し、適切なガバナンスを実施できるようになる。 STEP1 データ提供依頼 データ提供者 STEP1 データ抽出と利用 STEP3 修正したクエリを利用 データ提供者 クエリ① クエリ①` データ利用者① データ利用者① ソース データ利用者 データ利用者 STEP2 クエリ提供 クエリ② クエリ②` XXX X ソース データ利用者② Semantic Layer データ利用者② クエリ③ クエリ③` データ利用者③ データ利用者③

12.

データ利活用における セマンティックレイヤーの実践

13.

データ利活用におけるセマンティックレイヤーの実践 (1/2) ◼ Snowflake 、dbt、そして、 Databricks のセマンティックレイヤー機能を、 Snowflake と Databricks にてサンプルデータとして提供されている TPC-H のデータにて 実装しています。スケールファクターが異なるため、両サービス間で結果は一致しません。 引用元:TPC BENCHMARKTM H 引用元:データベースの性能検証に利用されるTPC-HとTPC-DSに関するざっくりとした整理 #TPC-H - Qiita

14.

データ利活用におけるセマンティックレイヤーの実践 (2/2) ◼ dbt のドキュメントにて言及されている 5 つのメトリックス種類に対応した メトリクスをそれぞれのサービスで実装しています。 # メトリックス種類 概要 実装メトリック 1 simple 1つの measure をそのまま指すシンプルな メトリクス。 総収益 2 ratio 比率を計算するメトリクス。 返品率 3 derived 既存のメトリクス同士を式で組み合わせて計 算するメトリクス 前日の総収益 4 cumulative 指定した期間で累積集計するメトリクス。 月内累計総収益 conversion 「基準イベント」と「コンバージョンイベン ト」が、同じエンティティ上で一定期間内に 発生したかを追跡するメトリクス。 注文→出荷90日以内達成率 5

15.

セマンティックレイヤーのコードを嗜む ここからは実際の環境でコードとその実行結果を確認しながら、セマンティックレイヤー の理解を深めていきましょう。 改めてご案内いたしますが、コードはGitHubにて公開しております。 GitHub へのリンク

16.

ありがとうございました 参考になった記事には いいねをお願いします manabian 𝕏: @manabian Qiita: manabian