Amazon Athena利用時のAWS Glue Crawler活用入門

>100 Views

February 13, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

JAWS-UG 朝会 2026年2月13日 Amazon Athena利用時の AWS Glue Crawler活用入門 デロイト トーマツ ノード合同会社 高根沢 健太

2.

目次 自己紹介 3 今回のテーマについて 4 Glue Crawlerを使わないAthena分析 5 Glue Crawlerを使ったAthena分析 6 まとめ 7 参考文献 8

3.

自己紹介 初めてJAWS-UGで登壇をさせていただきます! 氏名 健太 所属 デロイト トーマツ ノード合同会社 経歴 ◼情報系の大学を卒業 ◼新卒1年目 ◼2025年9月に社内AWSチームに配属 ◼現在はインフラの設計・構築を担当 SNS(X):AWS_Nezawa 2026年の 目標 3 高根沢 ◼全てのAWS認定資格の取得 ◼外部登壇4回 ◼技術ブログなどの外部発信12回 © 2024. For information, contact Deloitte Tohmatsu Group.

4.

今回のテーマはAmazon Athenaを使ってデータ分析を行う際のGlue Crawler活用についてです 5分間なので実際に行ったものより簡易的な構成で説明します 今回の疑問 Athena×Crawlerがベストプラクティスらしいけど このCrawlerって何のためにあるの!? AWS Cloud VPC(テナント1) Amazon Simple Storage Service (Amazon S3) 4 AWS Glue Crawler AWS Glue Data Catalog Amazon Athena Amazon Simple Storage Service (Amazon S3) © 2024. For information, contact Deloitte Tohmatsu Group.

5.

S3に格納したcsvファイルをGlue Crawlerを使わず直接Athenaで分析してみた Glue Crawlerを使わないデータ分析は分析前の準備が大変! 手順 ① ◼ CSVファイルを準備 ➢ファイルの文字コードをUTF-8に変換する ◼ S3にソース用のフォルダを作成して上記ファイルを格納 手順 ② ◼ Athenaクエリ結果出力用のS3を準備 ➢ 今回は要件的に手順①と違うバケットを利用したが、 フォルダを別にすれば同じバケットでも可 手順 ③ ◼ Athenaクエリエディタ画面から操作する ➢ 手順①のS3からGlue DataCatalogにDBを作成 ➢ CSVの構造を確認しながらDDLを手書き ➢ フォーマットを判別・指定 ➢ DB内にカラム名・データ型を考慮してテーブルを作成 ➢ クエリ出力場所を手順②のS3に指定 ➢ クエリを実行! AWS Cloud VPC S3 手順① 5 Data Catalog 手順③ Athena S3 手順② © 2024. For information, contact Deloitte Tohmatsu Group.

6.

S3に格納したcsvファイルをGlue Crawlerを利用してAthenaで分析してみた Glue Crawlerを使ったデータ分析 AWS Cloud ◼ Athenaクエリエディタ画面から操作する ➢ 手順①のS3からGlue DataCatalogにDBを作成 ➢ CSV構造を確認しながらDDLを手書き →Glue CrawlerがCSV構造を自動推測 VPC S3 Data Catalog Athena S3 手順③ Crawler 使用 VPC ➢ DB内にカラム名・データ型を考慮してテーブルを作成 →Glue Clawlerが Glue DataCatalogにテーブルを自 動作成 S3 ➢ クエリ出力場所を手順②のS3に指定 ➢ クエリを実行! AWS Cloud 6 ➢ フォーマットを判別・指定 →Glue Clawlerがフォーマットを基本は自動で判別 Glue Crawler Glue Athena Data Catalog S3 © 2024. For information, contact Deloitte Tohmatsu Group.

7.

AWS Glue Crawlerを組み込み、スキーマ定義を自動化することが、 Amazon Athenaの一般的なベストプラクティスとなる Athena×Glue Crawler まとめ 良い点 ◼DDLを手書きする必要がなくなる ➢Glue CrawlerがS3上のデータをスキャンし、カラム名、デー タ型、フォーマットを自動推測することで、デーブル定義を 自動作成できる ◼データ構造の変更に追従しやすい ➢CSVに変更が発生した場合でもCrawlerを再実行する ことでテーブル定義を更新することができる ◼ Athena分析前の準備時間を大幅に削減できる ◼ 削減した時間で分析に時間をかけることができる 7 注意点 ◼型推論は100%ではない ➢複数表現が混在する列では正しく型推論ができないこ とがあり、必要に応じて調整が必要 ◼全てのCSVフォーマットに対応できるわけではない ➢区切り文字が特殊な場合やフォーマットが統一されて いない場合は自動で判別できない可能性がある ◼DB設計や命名規則は人が考える必要がある ➢テーブル定義の作成を自動化するが、DBの分け方や命 名規則などは利用者側で決める必要がある © 2024. For information, contact Deloitte Tohmatsu Group.

8.

参考文献 ◼ 公式ドキュメント ➢ https://docs.aws.amazon.com/ja_jp/athena/latest/ug/what-is.html ➢ https://aws.amazon.com/jp/documentation-overview/athena/ ◼ 書籍 ➢ 上原誠ほか 『AWSで始めるデータレイク ー クラウドによる統合型データリポジトリ構築入門』(ラッキー・メディア, 2022) ➢ 煤田弘法ほか 『AWS教科書 AWS認定ソリューションアーキテクトプロフェッショナルテキスト&問題集』(翔泳社, 2025) 8 © 2024. For information, contact Deloitte Tohmatsu Group.