AWS Glue 新データプレビュー機能 株式会社 セゾン情報システムズ 山口颯太
目次 1. 2. 3. 4. 5. はじめに 機能概要 メリット デメリット 使ってみた所感
1.はじめに • 新卒一年目のSE • 主な業務内容:データ連携、自社製品導入支援 • AWSは初めて3か月弱 • AWS Jr.chanpions受賞目指して活動中 • 初LT㊗
2.機能概要 • AWS Glue:サーバレスなETLツール • ETLツールとは 販売管理 在庫管理 購買管理 データ抽出 データ変換 データ書込 会計管理 /ERP
2.機能概要 • ノーコードで作成可、わかりやすいGUI
2.機能概要 • インタラクティブなデータプレビュー機能とは custome r_id Product_ id quantity Product_ id Product_ name price 017 0212 3 0212 apple 400 customer _id Product_i d quantity Product_n ame price 017 0212 3 apple 400
3.メリット • データの品質や整合性を検証しやすくなる • • • • データの欠損 データの重複 データの不正確さ データの整合性 • ジョブの作成やデバッグが容易になる • ジョブの処理結果が想定通りであるか • ジョブの処理に必要なデータがすべて含まれているか • ジョブの処理に不具合が発生していないか
4.デメリット • 料金の増加 • API実行回数の増加 • データソースからのデータ転送料の増加 • Glue実行時間の増加
5.使ってみた所感 • かなり有用 • ロード時間:数分×毎回➡一回 • これまでは難しかったレコード単位でのデータ検証 • 複雑な変換の検証 ◎ ◎
5.使ってみた所感 • エディターが重くなる? • リソースのチューニングはある程度必要そう • 名前変更などの更新の際に全体にリロードが入るような振る舞い • 料金の増加は無視できない • Glueが常に実行中+データ転送量+API実行料 ➡2.2(USD/h)~