黄色いゾウさんと愉快な仲間たちの近況報告 #hadoopreading

142 Views

August 22, 16

#hadoopreading #Hadoop #HadoopSummit2016 #ビッグデータ #Stream処理 #データ分析

スライド概要

Hadoopソースコードリーディング第21回のスライドです。
https://www.eventbrite.com/e/hadoop-21-tickets-26913657474

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 190.8K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 81.3K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 64.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 42.6K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.1K

各ページのテキスト

黄色いゾウさんと愉快な仲間たちの近況報告 2016年8月24日 @shoe116 1

0. 本日の内容 1. 2. 3. 4. 自己紹介注目キーワード紹介黄色いゾウさんと愉快な仲間たちの近況個人的な所感注) 内容は筆者の個人的見解であり、筆者の所属組織とは無関係です 2

1. 自己紹介：@shoe116 なまえ：しゅう (@shoe116) お仕事：データプラットフォーム部データフィード - いろんなデータをETLしてHDFSに置いておくこれまで：広告システム→Qubitalデータサイエンス言語：Python, Java > JavaScript > Scala, C++ 興味：No music, no life. No idol, no life. 課外活動：お歌を歌ったり、戯言を並べたり - https://shoe116.tumblr.com/ 3

2. 注目キーワード紹介

#HS16SJの注目キーワード独断と偏見で選んだ、Hadoop界隈注目キーワード。 1. data in motion, data at rest 2. Stream Processing 3. Enterprise [1] 5

Data in Motion, Data at Rest • • • • data in motion = 今まさに生まれているデータ data at rest = 蓄積済みのデータ今までは“at rest”、つまりデータレイクメイン今後は“in motion”と“at rest”を組み合わせる [1] 6

Stream Processing • 生まれ続けるデータ(“data in motion”)から、いかに速く価値をだすか？ • 全セッションの1/4はデータの継続的な逐次処理、いわゆるストリーム処理がテーマ • 今までbatchでしか処理出来なかったことを、どうやってStreamで処理するか 7

Enterprise • 簡単に言うと、HAとセキュリテイ(ACL)のこと。keynote では大人気（ある意味当たり前） • HAは、各社具体的な取り組み報告あり • セキュリティは「Enterpriseにはセキュリティ大事だよね！」「うんうん！」という感じ • ACLの話を始めると、HDFSが結局“ファイルシステム”であるという問題が顕在化する 8

3. 黄色いゾウさんと愉快な仲間たちの近況報告

10.

Hadoopとエコシステムの現状独断と偏見で選んだ、最近のエコシステムのあり方。 1. 2. 3. 4. Kafkaはデファクトスタンダード Stream処理エンジンは群雄割拠 HDFSへのSQLはHiveへ収束 Sparkは分析ツール [1] 10

11.

Kafkaはデファクトスタンダード • 流行りというより、常識になった • データはKafkaから流れてきて、最終的にHDFSに置かれる • Stream処理の入り口はほぼKafka一択な感じ [2] 11

12.

Stream処理エンジンは群雄割拠 • Storm, Spark Streaming, Flink, Flume, Kafka Streams, Heron, and etc • プロダクションの実績ではStromが一歩リード。 • 注力領域だけあってポジショントークがすごい • Hortonworks 「Strom1.0がでたよ！2系も来るよ！」 • Cloudera 「Stormは直に歴史の１ページ」 • “Ingest and Stream Processing - What will you choose?”[3]にまとまっている 12

13.

HDFSへのSQLはHiveへ収束 • HDFSへのSQL（いわゆるSQL on Hadoop）はHiveに落ち着いた。特にメモリに載り切らないSQLはHive 一択 • Presto, Drill, Impala等はmassively-parallel processing (MPP)でインタラクティブ、かつデータソースを跨ぐ部分で競争中 • “Apache Hive 2.0: SQL, Speed, Scale”[4]に一通りまとまっている 13

14.

Sparkは分析ツール • パフォーマンスというより、多機能でプログラミングしやすいインターフェースが売り • Hiveやprestoと同じ、データから価値を出すツール [5] 14

15.

4. 個人的な所感

16.

#HS16SJの個人的な感想 Hadoop Summit 2016に行った個人的な感想。 1. セキュリティ、特にACLについて 2. オンプレとクラウドの使い分け 3. アメリカすごい、日本ヤバい [1] 16

17.

セキュリティ、特にACLについて • file systemであるHDFSに直接アクセスされると、 schemaでのACLは当然かけられない • 列指向フォーマットファイル（ORC等）に、抽象化したアクセスを提供するレイヤが待たれる • つまりそれがLLAP(+Renger)で、目下開発中 17

18.

オンプレとクラウドの使い分け • ちょっと前までは「とりあえずデータはクラウド」って言う感じ • “data in motion”の処理は当然プロダクションから近いほど有利 • クラウドとオンプレを組み合わせる • “data at rest”はクラウド • “data in motion”はプロダクション環境 18

19.

アメリカすごい、日本ヤバい • HDFS+kafkaをmongoDB+rabbitMQくらいの感じでみんな自然に使ってる • 日本のビッグデータはまだ目的な気がする、アメリカではすでに手段になっている • 抱えている課題は日米同レベル、違うのは解決力 19

20.

参考資料等 [1] Hortonworks Modern Architecture http://www.slideshare.net/MatsJohansson4/data-in-motion-data-at-rest-hortonworks-a-modern-architecture [2][3] Ingest and Stream Processing - What will you choose? http://www.slideshare.net/HadoopSummit/ingest-and-stream-processing-what-will-you-choose?qid=bcf794fa-e2eb-4eb9-947867d42c5a790c&v=&b=&from_search=2 [4] Apache Hive 2.0: SQL, Speed, Scale http://www.slideshare.net/HadoopSummit/apache-hive-20-sql-speed-scale-63920205 [5] Producing Spark on YARN for ETL http://www.slideshare.net/HadoopSummit/producing-spark-on-yarn-for-etl 20