Amazon Athena利用時のAWS Glue Crawler活用入門

>100 Views

February 13, 26

#jaws-ug朝会

スライド概要

高根沢健太

@takanezawa_kenta

スライド一覧

高根沢です！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 786.8K

ZAZA株式会社_会社紹介

ZAZA株式会社 388K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 369.7K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 365.7K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 311.6K

東京大学 3Dスキャン勉強会「フォトグラメトリ」

フォトグラメトリ vr 3dデジタルアーカイブ

龍 lilea 300.5K

各ページのテキスト

JAWS-UG 朝会 2026年2月13日 Amazon Athena利用時の AWS Glue Crawler活用入門デロイトトーマツノード合同会社高根沢健太

目次自己紹介 3 今回のテーマについて 4 Glue Crawlerを使わないAthena分析 5 Glue Crawlerを使ったAthena分析 6 まとめ 7 参考文献 8

自己紹介初めてJAWS-UGで登壇をさせていただきます！氏名健太所属デロイトトーマツノード合同会社経歴 ◼情報系の大学を卒業 ◼新卒1年目 ◼2025年9月に社内AWSチームに配属 ◼現在はインフラの設計・構築を担当 SNS(X)：AWS_Nezawa 2026年の目標 3 高根沢 ◼全てのAWS認定資格の取得 ◼外部登壇4回 ◼技術ブログなどの外部発信12回 © 2024. For information, contact Deloitte Tohmatsu Group.

今回のテーマはAmazon Athenaを使ってデータ分析を行う際のGlue Crawler活用についてです５分間なので実際に行ったものより簡易的な構成で説明します今回の疑問 Athena×CrawlerがベストプラクティスらしいけどこのCrawlerって何のためにあるの！？ AWS Cloud VPC(テナント1) Amazon Simple Storage Service (Amazon S3) 4 AWS Glue Crawler AWS Glue Data Catalog Amazon Athena Amazon Simple Storage Service (Amazon S3) © 2024. For information, contact Deloitte Tohmatsu Group.

S3に格納したcsvファイルをGlue Crawlerを使わず直接Athenaで分析してみた Glue Crawlerを使わないデータ分析は分析前の準備が大変！手順 ① ◼ CSVファイルを準備 ➢ファイルの文字コードをUTF-8に変換する ◼ S3にソース用のフォルダを作成して上記ファイルを格納手順 ② ◼ Athenaクエリ結果出力用のS3を準備 ➢ 今回は要件的に手順①と違うバケットを利用したが、フォルダを別にすれば同じバケットでも可手順 ③ ◼ Athenaクエリエディタ画面から操作する ➢ 手順①のS3からGlue DataCatalogにDBを作成 ➢ CSVの構造を確認しながらDDLを手書き ➢ フォーマットを判別・指定 ➢ DB内にカラム名・データ型を考慮してテーブルを作成 ➢ クエリ出力場所を手順②のS3に指定 ➢ クエリを実行！ AWS Cloud VPC S3 手順① 5 Data Catalog 手順③ Athena S3 手順② © 2024. For information, contact Deloitte Tohmatsu Group.

S3に格納したcsvファイルをGlue Crawlerを利用してAthenaで分析してみた Glue Crawlerを使ったデータ分析 AWS Cloud ◼ Athenaクエリエディタ画面から操作する ➢ 手順①のS3からGlue DataCatalogにDBを作成 ➢ CSV構造を確認しながらDDLを手書き →Glue CrawlerがCSV構造を自動推測 VPC S3 Data Catalog Athena S3 手順③ Crawler 使用 VPC ➢ DB内にカラム名・データ型を考慮してテーブルを作成 →Glue Clawlerが Glue DataCatalogにテーブルを自動作成 S3 ➢ クエリ出力場所を手順②のS3に指定 ➢ クエリを実行！ AWS Cloud 6 ➢ フォーマットを判別・指定 →Glue Clawlerがフォーマットを基本は自動で判別 Glue Crawler Glue Athena Data Catalog S3 © 2024. For information, contact Deloitte Tohmatsu Group.

AWS Glue Crawlerを組み込み、スキーマ定義を自動化することが、 Amazon Athenaの一般的なベストプラクティスとなる Athena×Glue Crawler まとめ良い点 ◼DDLを手書きする必要がなくなる ➢Glue CrawlerがS3上のデータをスキャンし、カラム名、データ型、フォーマットを自動推測することで、デーブル定義を自動作成できる ◼データ構造の変更に追従しやすい ➢CSVに変更が発生した場合でもCrawlerを再実行することでテーブル定義を更新することができる ◼ Athena分析前の準備時間を大幅に削減できる ◼ 削減した時間で分析に時間をかけることができる 7 注意点 ◼型推論は100%ではない ➢複数表現が混在する列では正しく型推論ができないことがあり、必要に応じて調整が必要 ◼全てのCSVフォーマットに対応できるわけではない ➢区切り文字が特殊な場合やフォーマットが統一されていない場合は自動で判別できない可能性がある ◼DB設計や命名規則は人が考える必要がある ➢テーブル定義の作成を自動化するが、DBの分け方や命名規則などは利用者側で決める必要がある © 2024. For information, contact Deloitte Tohmatsu Group.

参考文献 ◼ 公式ドキュメント ➢ https://docs.aws.amazon.com/ja_jp/athena/latest/ug/what-is.html ➢ https://aws.amazon.com/jp/documentation-overview/athena/ ◼ 書籍 ➢ 上原誠ほか『AWSで始めるデータレイクークラウドによる統合型データリポジトリ構築入門』（ラッキー・メディア, 2022） ➢ 煤田弘法ほか『AWS教科書 AWS認定ソリューションアーキテクトプロフェッショナルテキスト&問題集』（翔泳社, 2025） 8 © 2024. For information, contact Deloitte Tohmatsu Group.