Apache Icebergで実現するクラウドDWHから Databricks への実践的データ移行アプローチ

256 Views

June 11, 26

#Apache Iceberg #データ移行 #Databricks #クラウドDWH #データエンジニアリング

スライド概要

Apache Iceberg Meetup Japan #6 Apache Iceberg実践 ! ベストプラクティスでの発表資料です。

https://findy.connpass.com/event/394026/

manabian

@manabian

スライド一覧

manabian の資料です。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

DatabricksとSnowflakeをつなぐ最新データ相互利用術

manabian 19.6K

誰も教えてくれないメダリオンアーキテクチャのデザインメソッド

manabian 17K

データ利活用におけるセマンティックレイヤー概要

manabian 6.6K

BigQUery ×Databricks × Snowflake の相互運用～忍び寄る Apache

manabian 5K

生成AIによるDatabricksの開発方法論を改めて考えてみた【JEDAI in Osaka】

manabian 3.9K

TROCCOで高めるDatabricksのポテンシャル～データレイクを生成AIで分析する新時代へ～

manabian 3K

各ページのテキスト

Apache Iceberg Meetup Japan #6 Apache Iceberg実践 ! ベストプラクティス Apache Icebergで実現するクラウドDWHから Databricks への実践的データ移行アプローチ manabian 本資料に関するリンク後で変更

はじめに Apache Iceberg を起点に、クラウドDWHから Databricks へデータを移行した取り組みをご紹介します。Iceberg 活用の一つのユースケースとしてご覧いただければ幸いです。移行元 DWH がどの製品であったかは本質ではありませんので Apache Iceberg の実践事例としてお聞きください。 Databricks 開発環境移行元 DWH 移行対象のテーブル（非 Iceberg） Apache Iceberg テーブル Databricksのテーブル（OTF）

自己紹介【主業務】レイクハウス・DWH・BI構築に関するSIベンダーにてフェローとして、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 @manabian 【趣味】趣味がデータ分析基盤に関する調査や検証であり、主に Qiita を中心にデータ分析基盤プラットフォームに関する記事を投稿。

https://x.com/manabian

Apache Iceberg によるデータ移行のアプローチ

Apache Iceberg を活用したデータ移行方法の概要 10TB を超える転送量であり、各 DWH が独立して処理を完結できるよう、ストレージを介した連携方式を採用しました。フォーマットとして Parquet ファイルも検討しましたが、処理を複数ステップに分ける可能性があり、各ステップの結果を移行元 DWH 上でテーブルとして確認できる方法が望ましいと判断し、Iceberg テーブルを採用しました。移行元 DWH 開発環境 Databricks 移行対象のテーブル（非 Iceberg） Databricks のテーブル（OTF） Apache Iceberg テーブル

活用時にぶつかった 2 つの壁 Iceberg 活用時に２つの壁にぶつかりました。 ①DWH （カタログ）間で通信ができず → Metadata File から Clone を実施移行元 DWH の Iceberg カタログ Databricks の Iceberg カタログ Metadata File Databricks の Clone 機能 ②ナノ秒精度のタイムスタンプがサポート外 → 桁数を切り捨てて移行（DEEP or SHALLOW）引用元：Apache Iceberg v3の機能を使用する | Databricks on AWS

https://docs.databricks.com/aws/ja/iceberg/iceberg-v3#制限事項

データ移行方法のステップ下記のステップにて、無事に想定の時間内（夜間リリース）が完了しました移行元テーブルから一時 Iceberg テーブルにタイムスタンプを文字型にして全件上書きを実施一時 Iceberg テーブルから一時 Databricks テーブルへメタデータファイルから Clone を実施一時 Databricks テーブルから移行先テーブルへ INSERT を実施開発環境移行元 DWH 移行元テーブル（非 Iceberg） 1. INSERT OVERWRITE ②一時 Iceberg テーブル 2. CLONE ③一時 Databricks テーブル（OTF） 3. INSERT ④Databricks の移行先テーブル（OTF）

＜参考＞外部 Iceberg テーブルによる新旧比較移行先のデータを Iceberg テーブルとして参照できる場合、移行元 DWH 上に外部 Iceberg テーブルを定義することで、データを移動させることなく、 DWH の処理性能を活かしてテーブルの同等性（新旧比較）を検証できます。具体的には、件数の一致、キー項目の一意性、レコードの差分などを確認します。開発環境移行元 DWH データ取り込み / データ変換移行元テーブル（非 Iceberg） ①平行稼働で処理データ取り込み / データ変換移行先テーブル（Iceberg 参照化） ②同等性確認移行先テーブルの外部 Iceberg テーブル

まとめ Apache Iceberg をデータ移行時の一時テーブルとして使ってみました。性能のコントロールが容易であり、おそらくコストパフォーマンスに優れた方法として、クラウドDWH からDatabricksへデータ移行した取り組みをご紹介しました。ちなみに、データ移行後にタイムトラベルの指定ミスによりデータ移行に一部漏れが発覚しました。その場合でも、同様のステップで再処理可能でした。開発環境移行元 DWH 移行元テーブル（非 Iceberg） 1. INSERT OVERWRITE ②一時 Iceberg テーブル 2. CLONE ③一時 Databricks テーブル（非 Iceberg） 3. INSERT ④Databricks の移行先テーブル（OTF）

10.

ありがとうございました参考になった記事にはいいねをお願いします manabian 𝕏: @manabian Qiita: manabian