AWSで実現する大規模データ保存・分散処理 ―IcebergとSparkの仕組みと実践― Part2

>100 Views

June 01, 26

#aws #大規模データ #spark #glue spark job

スライド概要

Part1はこちら
https://www.docswell.com/s/kkmtyyz/Z4NJ7L-2026-05-31-161801

AWSでS3 Tables・Glue Spark Jobを上手く使いこなすには、元となっているIceberg・Sparkの仕組みを理解することが大切です。
この資料ではAWSで大規模データを保存・分散処理する際の実践的なポイントを紹介しています。
Part1ではIceberg・S3 Tablesについて、Part2ではSpark・Glue Spark Jobについて紹介しています。

Takuya Yamazaki

@kkmtyyz

スライド一覧

SFとコンピュータが好き

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

AWSで生成AI入門！LLMの基本からRAG、Agentまで

aws

Takuya Yamazaki 102.9K

オンプレ（自宅）からAWS Site-to-Site VPN！ NAT越え、双方向名前解決、フェイルオーバーまで

aws aws site-to-site vpn network

Takuya Yamazaki 30.4K

BedrockとOpenSearchでRAGの仕組みを理解しよう

aws

Takuya Yamazaki 22.4K

AIコーディングエージェントClineとAWS MCP ServersでAWSを使ったシステムのレビューと機能追加してみた

aws 生成ai cline aws mcp servers

Takuya Yamazaki 12.8K

AWS オブザーバビリティ入門 LambdaとECSで実践するベストプラクティス

aws オブザーバビリティ aws x-ray

Takuya Yamazaki 9.1K

AWS 状態遷移とリアルタイム通信でオンラインゲームを構築

aws オンラインゲームリアルタイム通信

Takuya Yamazaki 7.2K

各ページのテキスト

AWSで実現する大規模データ保存・分散処理 ― IcebergとSparkの仕組みと実践 ― Part 2 山崎拓也

山崎拓也所属: SIer 仕事: • AWS案件のアプリやインフラのリード • 社内AWSサポート好き: 低レイヤ、SF、AWS AWSアワード: • 2026 AWS Community Builder (Serverless) • 2024～2025 Japan AWS Top Engineer • 2022～2025 Japan All AWS Certifications Engineer

アジェンダ Part1 • 要件とアーキテクチャ • Icebergの仕組み • S3 Tablesの実践的なポイント Part2 • Sparkの仕組み • Glue Spark Jobの実践的なポイント • まとめ

アーキテクチャ再掲（仮想要件等はPart1を参照）

Sparkの仕組み

Apache Spark とは • 大規模データを高速に処理するための分散処理エンジン • Driverノード1つ、Workerノード複数 • Driverがデータ処理の実行計画を立て、ExecutorへTaskとして配布する • データをSparkパーティションとして分割し、複数ノードで並列処理する

Actionが実行されるまで、データロードや処理は実行されない • Transformation と Action の2種類のメソッドがある • Transformationメソッドは実行計画の作成のみ行う（遅延評価） • map() • filter() • groupByKey() • repartition() • Actionメソッドで実行計画が初めて実行される • reduce() • collect() • count() • save()

遅延評価をコードで確認 ❶ ❶ select/filterを行い、DataFrame定義しても、まだデータはロードされない ❷ ❸ ❷ groupBy/agg/orderByをしても、まだ実行されない ❸ show()により、ここで初めて実際のロード・変換・集計が実行。各ExecutorにTask配布して分散実行される

データの分散単位はSparkパーティション • ロード時、データは複数の Spark パーティションへ分散される • ロード時のパーティション配置は処理内容に最適化されているとは限らない • 処理パターンに合わせて、repartition() によりデータを再分散する repartition("device_id") 実際は偏りをなくすためパーティション数を指定し、ハッシュ関数で均等に分散させる repartition(40, "device_id")

10.

パフォーマンスに影響する注意が必要な操作 • WorkerからDriverに全てのデータを集める • collect() • toPandas() • シャッフル。ノード間やパーティション間でデータを再分配する操作 • groupByKey() • orderBy() • repartition() 特にシャッフルは生じやすいので注意

11.

再利用するDataFrameはキャッシュに乗せる • キャッシュしない限り、アクションごとにDataFrameが再計算される • df.cache()：アクション実行後、Executorのキャッシュに乗せる • df.unpersist()：キャッシュから降ろす

12.

パーティションごとに任意の関数で分散処理する • df.rdd.mapPartitions(func) • パーティションのレコードをループしたい場合 • func()にはパーティション内レコードのiteratorが渡される • df.mapInPandas(func, schema=...) • パーティションをPandas DataFrameとして扱いたい場合 • func()にはPandas DataFrameのiteratorが渡される

13.

Glue Spark Jobの実践的なポイント

14.

Workerノードのオートスケーリング設定ができる • オートスケーリングしない場合、ノードが余るとコストが余計にかかるオートスケーリング料金無効（デフォルト）設定したワーカー数 × ワーカータイプのDPU × 実行時間有効実際に使用したDPU • ConnectionでVPC接続する場合、ノード毎にENI作成されるためIP数に注意 Worker type specifications table： https://docs.aws.amazon.com/glue/latest/dg/work er-types.html#worker-type-specifications

https://docs.aws.amazon.com/glue/latest/dg/worker-types.html#worker-type-specifications

15.

CloudWatchログはDriver、Executorごとにストリームが分かれる • 基本的にログは全て /aws-glue/jobs/error ロググループに出力（変更可） • Workerノードごとに必ず１つのExecutor。本当に便利 Driver Executor Workerノード数と等しい • 各TaskのパーティションIDなどの情報はTaskContextから取得できる Worker type specifications table：https://docs.aws.amazon.com/glue/latest/dg/worker-types.html#worker-type-specifications

https://docs.aws.amazon.com/glue/latest/dg/worker-types.html#worker-type-specifications

16.

コンソールのSpark UIから詳細なパフォーマンスが確認できる • タスク数やどの処理に時間がかかっているのかなど

17.

Icebergパーティション通りのSparkパーティションになる保証はない • 処理パターンに最適化するにはrepartition()が必要 • 検証時、コンパクション前は同一device_idがパーティションを跨いでロードされた • コンパクション後は同一device_idが同一パーティションに綺麗にロードされたが、保証はない • パーティション分割数は、Executorの総CPUコア数より多めに設定し、継続的にタスクが割り当たるようにする Worker type specifications table： https://docs.aws.amazon.com/glue/latest/dg/work er-types.html#worker-type-specifications

https://docs.aws.amazon.com/glue/latest/dg/worker-types.html#worker-type-specifications

18.

Redshiftへの書き込みもExecutorを使って効率よく行う • Driverに集めない • 処理後データは各ExecutorからS3へ出力される • Driverからの1度のCOPYクエリ実行でRedshiftへ書き込まれる • S3の出力ファイルは自動削除されないためライフサイクルで消す必要あり

19.

デバイスID毎、イベント時間順に分散データ処理する際の例パーティション分割、ソート、複雑な処理処理日時列を追加 save() がアクション

20.

まとめ • IcebergもSparkも、仕組みを理解して上手く使うことが大切 • S3 Tablesへの挿入はFirehoseを使って料金と効率を最適化 • Glue Spark Jobはパーティションとアクション・シャッフルを意識する

21.

ご清聴ありがとうございました。