20260322_dmbok_13

>100 Views

March 22, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

データ品質管理の考え方 2026年3月22日 1

2.

データ品質管理は、要件を評価軸に分割し管理することである 出所: データマネジメント知識体系ガイド 第二版 改定新版 2

3.

入力データの品質管理 データ品質を測る9つの軸① 評価軸 概要 データの値が定義された値と一致するか? 有効性 •データ型(テキスト、数値、日付) •データ範囲(値域(数値、日付、参照テーブル間での一意な値のセット)) •書式(電話番号桁数、通貨の有効桁数など) •期待される値の精度(タイムスタンプの秒数精度、その他有効数字) •時間枠(1時間ごとに更新されるはずのデータが2時間更新されていないなど) 必要なデータはすべて存在するか? 完全性 •カラム データ要素は期待されるレベルに入力されているか(必須・オプションなど) •レコード 正しく入力されているか •データセット 期待されるすべてのレコードが含まれているか データ値は同じアプローチ、評価、価値基準でコード化されているか? 一貫性 •レコード間 同じカラムのレコード間の一貫性(姓/名の混在など) •データセット間 データセットはリンクされた値を持つか?(DM間での品質測定ができる) 出所: データマネジメント知識体系ガイド 第二版 改定新版

4.

入力データの品質管理 データ品質を測る9つの軸② 評価軸 概要 データに非一貫性や破綻した関係がないか? 整合性 •あるデータが別のデータの値の限定された範囲を示し、それらが一致すること。国データを入力するとき、県また は州は限定されたセットの値を使用する必要がある。 データの取得または更新後、ユーザがアクセスできるまでの時間。期待遅延と実際の遅延 適時性 データが更新されてから現在までの時間と、それがまだ正しいという可能性 最新性 出所: データマネジメント知識体系ガイド 第二版 改定新版

5.

入力データの品質管理 データ品質を測る9つの軸③ 評価軸 概要 データパターンが期待に合致しているかどうか。以前の午後5時のログイン数と比較した今日の顧客のログイン 数 妥当性 •妥当性 … 測定値が固定され、以前の動作に依存しない場合。 •ベンチマーク値 … 統計量の誤差、以上の数値の変動など 現実世界の実態がデータセットに2つ以上存在しないこと。 一意性 正確性 •キー構造:データセット内に重複したキーがある •関連データ:データ内の他のデータが重複を示す可能性がある場合。例えば顧客番号が異なるが、氏名、生 年月日、勤務先住所が同じ2人の顧客 データが「現実の」実体を正しく表している程度を意味する。 一般的なチェック方法には、以下のようなものがある。 •正確であることが確認されているデータソース。との整合性をチェックする。 •現実と機器の継続的なキャリブレーション。例えば気象計は時間が経つにつれて、正確な測定値が得られなく なることがある。年間の現場検査プログラムでは機器の10%を訪問し、それらを標準にキャリブレーションし直し、 正確な測定値が提供されるようにする。 出所: データマネジメント知識体系ガイド 第二版 改定新版

6.

DQLSA(データ品質レベルアグリーメント)のうち 本当に必要な部分に合意する 全社のDQLSA検討事項 必要なDQLSA 6

7.

品質基準をコードで定義すれば バージョン管理できる Gitlab Ver1 class BaseQualityChecker(ABC): … class BaseQualityChecker(ABC): … class BaseQualityChecker(ABC): … … 20264Q ただし、DQSLAを上げるほど工数がかかる(?) (そうでもないのかもしれない) 7