SparkをRESTfulに利用できるApache Livyを導入した話 #hcj2019 #ApacheSpark #ApacheLivy

2.9K Views

March 15, 19

#hcj2019 #apachespark #apachelivy #Apache Livy #Apache Spark #RESTful API #Hadoop #YARN

スライド概要

2019年3月14日開催された Hadoop / Spark Conference Japan 2019 のライトニングトークで発表した資料です。
Apache SparkをAPI経由でRESTfulに利用できるApache Livyをプロダクション環境に導入した話になります。
Apache Livyを入れることで、jupyterやAirflowなど他のシステムとの連携も簡単にすることが可能になります。
https://hcj2019.eventbrite.com/

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.5K

各ページのテキスト

SparkをRESTfulに利用できる Apache Livyを導入した話 Hadoop / Spark Conference Japan 2019 ヤフー株式会社植草智輝

自己紹介経歴/利用技術 • 2016-2018 : コマース系データETL & OLAP基盤開発 • • • • データ&サイエンスソリューション統括本部データプラットフォーム本部グリッド部 HadoopDevOps 植草智輝 @tmk_ueks Hive on Tez (ETL) Apache Kylin/Apache HBase (OLAP) Apache Airflow (Workflow Engine) 2018-2019 : 全社HadoopクラスタのDevOps • • • Apache Hadoop全般 (運用/改善) Apache Spark (推進) Apache Livy (検証/導入) 趣味 • 海外ドラマ鑑賞 2

Agenda • Apache Livyの紹介 • 導入モチベーション • 冗長化(HA)の苦労話 • まとめ 3

Apache Livy • ClouderaとMicrosoftが開発したOSS • SparkをRESTfulに利用できるAPIサーバー • Amazon EMR, Microsoft HDInsight, IBM Cloudなどで利用可能 • REST APIを利用して柔軟にSparkの実行が可能 • 現在はApacheのincubatorプロジェクト • 最新verは0.5.0 4

導入のモチベーション • もっと柔軟にSparkを利用できるようにして、外部システムとの連携性を高めたい • マルチテナント環境でSparkジョブの安全に行いたい(設定値の制限など) • Jupyter/Zeppelinなどのインタラクティブなノートブックを使いたい 5

Yahoo! JAPANのクラスタコンポーネント API HiveServer2 Oozie Query Processing Hive Pig SparkSQL Execution Engine Tez MapReduce Spark Resource Management HttpFS YARN File System HDFS 6

Yahoo! JAPANのクラスタコンポーネント API HiveServer2 Oozie Livy Query Processing Hive Pig SparkSQL Execution Engine Tez MapReduce Spark Resource Management YARN File System HDFS 7 HttpFS

構成 (導入検討中…) Hadoopクラスタ YARN LB Driver Executor Livy Server Executor Livy Server HDFS Executor Livy Server Kerberos Zookeeper 8 Executor

苦労１: 認証 Hadoopクラスタ YARN LB Livy Server ✖ Driver spnego Executor Executor Livy Server HDFS Executor Livy Server ✖ Kerberos Zookeeper 9 Executor

10.

苦労２: セッション情報 Hadoopクラスタ YARN LB ID:13 Driver Executor Livy Server ID:13 Executor Livy Server HDFS 書き込み Executor ID:12 Livy Server 上書き書き込み Kerberos Zookeeper 10 Executor

11.

LIVY-11 11

12.

LIVY-11 12

13.

結論 : 構成 Ambari Hadoopクラスタ YARN オートリスタート LB Driver Livy Server Executor Executor HDFS Livy Server Executor Kerberos Zookeeper 13 Executor

14.

導入後 • SparkジョブがLivy経由でされるようになった • 運用側が設定値の制限などをかけられるため、安全性が増した • 特別な設定が不要となり、クライアント側の負担が減った • ワークフローエンジンなどの外部システムとの連携もしやすくなった • 各自のJupyter/ZeppelinからSparkを利用可能になった • notebookの恩恵を受けれるようになった(データの視認性など) • 分析/検証/ジョブ開発などのサイクルが早くなった • Sparkの利用者が増えた 14

15.

まとめ • SparkをRESTfulなサービスとして、柔軟な実行が可能になる • Jupyter/Zeppelinなどのnotebookの恩恵を受けれる • 頑張って冗長構成を取ろうとすると、苦労する • 公式での対応がまだされていない(時間取れたら対応します。) • 負荷分散が出来ない • (YJの環境だと)Kerberos認証周りで特殊な設定が必要だった 15