Looker/LookML 構築・運用のコツ ~Lookerは「銀の弾」か~

160 Views

July 31, 24

スライド概要

profile-image

株式会社 MBK デジタル所属。 大学時代に計量経済学領域の研究でアルゴリズム開発を経験し、単著論文でみずほ学術振興財団懸賞論文2等・経営管理黒澤賞などを受賞。 現在はデータアナリスト・データサイエンティストとして、アルゴリズムの開発やLookMLの構築支援を中心に担当。

Docswellを使いましょう

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Looker/LookML 構築・運用のコツ ~ Looker は「銀の弾」か ~

2.

本日のアジェンダ はじめに 01 Looker の概要 02 課題 03 原因と予防/解決策 04 まとめ 05

3.

01 はじめに :

4.

古畑 和輝 株式会社 Hogetic Lab データ アナリスト データ エンジニア データ サイエンティスト 4

5.

Hogetic Lab Google Cloud Sell パートナー Build パートナー 生成AI パートナー Service パートナー データ分析を全ての企業に届けるスタートアップ データ利活用コンサルティング ○ ○ 分析案件 / データ基盤案件 / AI 案件など トップレベルのデータ アナリスト / データ エンジニア / AI エンジニアが ソリューションを企画・開発 プロダクトの提供 ○ ○ データ収集プラットフォーム「Collectro」 アナリティクス イネーブルメント サービス「Bizschola」 など 5

6.

発表サマリ 大規模な LookML 構築・運用に携わった経験を元に Looker を導入/運用する上で起こりがちな課題と その原因・予防/解決策についてお話しします 6

7.

02 Looker の概要 7

8.

Looker の概要 次世代の BI プラットフォーム ● ● データの調査・共有・可視化を支援 ○ Look と呼ばれるレポートの作成 ○ Look をまとめたダッシュボードの作成 「LookML」でメトリックを定義 ○ ○ シンプルで強力なデータ モデリング言語 定義の再利用・一元化や共同作業が容易に 引用元:Google Cloud 公式ドキュメント 8

9.

Looker の概要 ● 多様なインプット/アウトプットに対応 ○ ○ インプット : 一般的なデータソースの大半に対応 アウトプット: ダッシュボードの定期配信や外部 Web サイトへの埋め込みにも対応 引用元:Google Cloud 公式ブログ:Looker によってデータ サイエンスのワークフローを加速 9

10.

Looker の概要 ● 生成 AI(Gemini)と組み合わせ、グラフの自動生成も可能に ○ ○ Looker はフィルタ・ソート条件・可視化オプションなどを全て URL パラメータとして表現 生成 AI を使って SQL を生成するのではなく、URL パラメータを生成し表示 引用元:Looker x GenAI カスタムソリューション 10

11.

03 課題 11

12.

課題 ● Looker 環境を使いこなせず、構築・運用でお困りの会社が多い ○ ○ 前述の通り、Looker にはデータ分析を行う上で便利な機能が数多くある 一方で、Looker を利用するメリットを享受できていない会社も存在する ■ 弊社にご依頼があった事例から、いくつかご紹介します 12

13.

課題:データ品質の低下 ● 定義が微妙に異なる「売上」ファイルが複数存在する ○ ○ 複数人が独自に LookML を作成し、「税抜/税込」「返品考慮」などの細かい定義がバラバラ ■ いざ使おうと思うと、どのファイルが求める値なのか判別できない 既存ファイルの再利用を諦めるユーザが増えた結果、ますますファイル数が増える悪循環に 引用元:Google Cloud 公式ドキュメント 13

14.

課題:開発生産性の低下 ● SQL がそのまま埋め込まれ、ファイル間の依存関係が掴めない ○ ○ 1,000行超えの SQL クエリが、複数の LookML ファイルの中にそのまま埋め込んである 読み出し元/読み出し先が多岐にわたり、ファイル間の依存関係が掴めない ■ このファイルをヘタに直すと、他のファイルが動かなくなるため手が出せない 引用元:Google Cloud 公式ドキュメント 14

15.

課題:保守性の低下 ● さまざまな機能を導入した結果、LookML 環境の保守管理が困難に ○ ○ データアナリストが、新機能の導入に向け Looker 内で中間集計・永続テーブルを作成 データエンジニアが別の目的でデータパイプラインの ETL / ELT ワークフローを調整 ■ 両者の変更がバッティングし、急にグラフの値がおかしくなる事態が頻発 引用元:Google Cloud 公式ドキュメント 15

16.

04 原因と予防/解決策 16

17.

主な原因 ● そもそも「正しいデータ分析環境」を用意できていなかったから ○ ○ Ops and Services Looker には最先端のデータ モデリングを実現できる様々な機能が搭載されている とはいえ「最先端の機能がある」ことと「最先端の機能を活用できる」ことは別の話 ■ データ パイプラインがダメだと、Lookerを使いこなすには多大な労力がかかる ETL Modelling Measures and Calcs Integration Delivery Apps Dashboards 80% 20% データパイプライン データ活用/可視化 17

18.

予防/解決策 ● データ パイプライン全体を洗練させていくこと ○ ○ 前述の通り、Looker 単体で状況を改善するには多大な労力がかかる Google Cloud のエコシステムをフルに活用し、全体を洗練させていくことが必要になる BI (Looker) データ基盤 データソース データレイク データ ウェアハウス データマート 18

19.

予防/解決策 ● 必要なエコシステムは、すでに Google Cloud 上に用意されている ○ 以下は一例であり、状況や目的に合わせてさまざまなサービスを使い分けることができる BI (Looker) データ基盤 データソース Dataprep Dataform データレイク Cloud BigQuery Storage Dataform データ ウェアハウス データマート BigQuery BigQuery Looker 19

20.

予防/解決策 予防/解決策:ベスト プラクティス ● 一般的なテーブルデータの場合、以下のような構成を推奨 ○ ○ データ基盤のベースは BigQuery に統一し、データ加工が必要であれば Dataform を用いる Looker 上の構造をシンプルにするため、データマートとして利用することは避ける BI (Looker) データ基盤 データソース データレイク データ ウェアハウス BigQuery Dataform データマート 20

21.

予防/解決策 ● 整ったデータ パイプラインを元に、シンプルな LookML 構造を保つ ○ ○ シンプルな LookML 構造を保つことで、新機能の導入やグラフのメンテナンスが容易になる グラフを追加する場合には、Ad Hoc にファイルを作成せず、極力既存のパーツを組み合わせる ■ 下図のように、作成するグラフと必要なファイルを事前に整理すると無駄がない 21

22.

05 まとめ 22

23.

まとめ ● Looker は素晴らしいツールだが、「銀の弾」ではない ○ ○ ● 大事なことは「何でも Looker で解決しようとしない」こと ○ ○ ● Looker は非常に便利な「次世代型データ プラットフォーム」である 言い換えれば「拡張性の高いデータマート/BI を簡便に試作・運用できるツール」 ■ ビジネス上の価値を生み出すためには、事前の準備と設計が不可欠である データ パイプライン上で解決すべき課題と、Looker で解決すべき課題がある データ パイプラインのアーキテクチャ全体の中で、Looker をどう位置付けるのかが大事 Google Cloud をフル活用し、データ パイプライン全体を洗練させる ○ ○ Looker の運用に課題を抱えている場合、背景のデータ パイプラインに問題があることが大半 Google Cloud のエコシステムをフル活用し「正しいデータ分析環境」を作り上げることが重要 ■ Looker の環境構築/運用でご協力が必要な場合は、是非弊社に相談ください 23