Apache Hadoopコミュニティとヤフーの関わり #ヤフー名古屋

614 Views

November 13, 19

スライド概要

2019年11月12日に開催されたヤフー名古屋Tech Meetup #4の内容です。#4 は「OSSコミッターNight」をテーマに開催しました。

スライド内URLへのリンクはこちら
https://techconference.yahoo.co.jp/2019_shibuya/
https://www.slideshare.net/techblogyahoo/apache-hadoop-hdfs2018dbts2018
https://www.slideshare.net/techblogyahoo/java11-apache-hadoop-146834504
https://www.slideshare.net/hadoopxnttdata/relation-between-sier-and-open-source-community

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Apache Hadoop コミュニティとヤフーの関わり 2019年11月12日 鰺坂 明 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

2.

自己紹介 鰺坂 明 (Twitter: @ajis_ka) Apache Hadoop committer (2014~) Apache Hadoop PMC (Project Management Committee) member (2016~) Yahoo! JAPAN中途入社 (2018~) 「Hadoop」9代目黒帯 2

3.

Apache Hadoopとは • 分散処理のためのOSS • 分散ストレージ HDFS (Hadoop Distributed FileSystem) • 分散処理実行基盤 & スケジューラ YARN (Yet Another Resource Negotiator) 3

4.

ヤフーにおけるHadoop (2018年時点) • 4100 node, 120 PB • https://www.slideshare.net/techblog yahoo/hadoop-operations-tdtech • 最新情報は Yahoo! JAPAN Tech Conference 2019 in Shibuya にて公 開予定 4

5.

普段の業務 • Hadoop 3系へのアップグレード & HDPからコミュニティ版への移行に 向けた機能検証 • OSSコミュニティでの活動 • Hadoopクラスタのトラブルシュー ティング 5

6.

OSSコミュニティでの活動 • 情報収集 • バグ修正 • 機能開発 • コミュニティ運営 6

7.

情報収集 • 重大なバグや脆弱性情報の調査 • 自社に影響がないか確認 • サポート契約がない場合、自力で対応が必要 • 開発動向の調査 • 自社で使えそうなら試してみる • 試してみた結果をフィードバックする • 国内・海外イベントへの参加 7

8.

2019/1/30 Apache Hadoop Contributors Meetup @ LinkedIn 8

9.

OSSコミュニティでの活動 • 情報収集 • バグ修正 • 機能開発 • コミュニティ運営 9

10.

開発事例 • HDFS Router-based Federation (RBF) • https://www.slideshare.net/techblogya hoo/apache-hadoop-hdfs2018dbts2018 • Java 11対応 • https://www.slideshare.net/techblogya hoo/java11-apache-hadoop-146834504 10

11.

HDFSのスケーラビリティ限界 • データが増加するとメタデータも増加 • メタデータを保持するNameNodeの ヒープサイズの限界に • メモリを増やしすぎるとGCが長期化 • もっとも根本的な対策は、HDFSクラ スタ自体を増やすこと 11

12.

HDFS RBF 概要 複数のHDFSクラスタを並べて 1つのクラスタとして扱う • Routerがリクエストをルー ティング • ルーティング情報はState Storeで一元管理 • 検証環境に導入済 12

13.

ヤフーの最近の取り組み(一部) • クラスタから切り離されたRouterの 情報がいつまでもWeb UI上に残り続 ける (HDFS-14593) • HTTPSを有効化したNameNodeへの 対応 (HDFS-14891) • など10件以上 13

14.

OSSコミュニティでの活動 • 情報収集 • バグ修正 • 機能開発 • コミュニティ運営 14

15.

コミュニティ運営 • メーリングリストでの議論および質問への回答 • パッチのレビュー • リリース作業・投票 • Zoom meetingの設定 • イベントの運営 • 脆弱性報告・修正・公表 • コミッタおよびPMCの選出 • Twitterアカウントの運用 • などなど (赤文字は誰でもできる) 15

16.

コミュニティを盛り上げる重要性 • 誰も使ってくれないとフィードバック が受けられない • 開発者も集まらない • ここで話すのもコミュニティを盛り上 げるため • Hadoopに限らずOSSコミュニティが もっと盛り上がってほしい 16

17.

そもそもなぜコミュニティでやるのか? • 独自パッチを抱えるリスク • バージョンアップに追従できなくなる • パッチの質が悪い • コミュニティのレビューを通っていない • コミュニティ版にパッチが入るほうが面白い • 世界中で自分が書いたコードが動いていること に喜びを感じる 17

18.

技術力に自信がなくても大丈夫 • OSSコミュニティではコントリビュータ は歓迎される • コミュニティの盛り上がりは重要 • コミッタは常に増やしたい • 実力はあとからついてくる • コントリビューションの方法がわからない場 合、ドキュメントが悪い 18

19.

英語に自信がなくても大丈夫 • 自信がない人は翻訳アプリを使いながら で大丈夫 • 相手も不慣れな英語に慣れているのでいい感 じに読み取ってくれる or 質問してくれる • 実力はあとからついてくる • 私はこの仕事でTOEICのスコアが200点伸 びました 19

20.

根気強さが実は重要 • 残念ながらパッチを投稿しても無視さ れることは多い • コミッタは忙しい • 無視されてもしつこくレビュー依頼す ることが重要! 20

21.

まとめ • 大規模なOSSコミュニティでも敷居は それほど高くない (一部例外あり) • 気軽にチャレンジしてほしい • 自分の書いたコードが世界中で動くの が楽しいと思うなら、OSSへのコント リビューションは本当におすすめ 21

22.

EOP Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

23.

参考資料 SIerとオープンソースの美味しい関係 〜 コミュニティの力を活かして世界を目指 そう〜 (前職での発表資料) • https://www.slideshare.net/had oopxnttdata/relation-between- sier-and-open-source- community 23