Yahoo! JAPANでのHadoop利用について

>100 Views

August 05, 10

スライド概要

profile-image

エンジニア・デザイナー向けのヤフー公式アカウント。イベント/登壇情報/ブログ記事など、ヤフーの技術・デザインに関わる情報を発信します。

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Yahoo! JAPANでのHadoop利用について ヤフー株式会社 R&D統括本部 吉田一星、古宮陽明 2010年8月4日

2.

自己紹介 吉田一星 (よしだ いっせい) R&D統括本部プラットフォーム開発本部検索開発部開発3 R&D統括本部フロントエンド開発本部アプリケーション開発部開発4(兼) R&D統括本部プラットフォーム開発本部要素技術開発部開発3(兼) – 2008年にヤフー株式会社に入社 – 検索サービス構築プラットフォーム(ABYSS)でHadoop部分を担当するエン ジニア – 画像処理、地図検索、地域プラットフォームでもHadoopに関わる開発を経験 – TechBlogでHadoopに関する記事を執筆 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

3.

自己紹介 古宮 陽明(こみや ようめい) R&D統括本部 プラットフォーム開発本部セントラル開発2部 開発3 – 2004年 ヤフー株式会社入社 – 主に、ビジネス向けサービスのバックエンドシステムの開発を担当。 – 2010年現在、全社規模のHadoopプラットフォームの構築を担当。 2 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

4.

流れ –Yahoo! JAPANの事例 –Hadoop開発の流れ –Hadoop with Security –Oozie –HadoopとOozieの統合利用 –Yahoo! JAPAN Hadoopクラスタ 3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

5.

Yahoo! JAPANでの事例 4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

6.

検索ログプラットフォーム –社内の検索サービスのログ解析全般 –Hiveを独自に拡張して使用している –様々なYahoo! JAPANのサービスにデータを提供 5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

7.

Yahoo!検索 –関連検索ワード –キーワード入力補助 –ショートカットの表示制御 –検索ログプラットフォームのデータが元になっている 6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

8.

Yahoo!検索ランキング –検索ランキング、急上昇ワードランキングなど –都道府県別、性年代別のランキング(Yahoo!ラボ) –検索ログプラットフォームが提供したデータをさらに加工している 7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

9.

レコメンデーションプラットフォーム – レコメンデーションサービスの計算処理に利用 – ビヘイビアデータのクラスタリング計算 – クラスタとコンテンツデータのマッチング計算 – Yahoo!BBポータルサイトなど – オークション、ショッピングなど、順次他のサービスにも導入予定 8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

10.

モバイル検索 –検索データを溜め込むストレージ –検索ランキング計算 –アンカーテキスト抽出 –ログ解析、クリックログの検索ランキング反映 9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

11.

地図検索 –地図検索インデックス生成 –クリックログ集計・検索ランキング反映 –店舗やビルの一意性処理 –ログ解析 10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

12.

開いているお店検索 –クロールデータから定休日や営業時間を抽出 – クロール / 営業時間、定休日抽出 / 検索インデックス作成 –Yahoo!ラボやiPhone版Safariの地図検索で公開 11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

13.

その他の事例 – 広告プラットフォーム – Yahoo! JAPAN研究所 – 検索サービス構築プラットフォーム(ABYSS) – 地域APIプラットフォーム(YOLP) – etc… 12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

14.

Hadoop開発の流れ 13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

15.

Hadoop開発の流れ – Yahoo! JAPANで、どのようにHadoop開発を行っているか? – サービスによって開発の方法は若干違うが、ABYSSの例を紹 介 14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

16.

ABYSSとは? – 社内の検索サービスをホスティングするプラットフォーム – 主に検索データのストレージとしてHadoopを利用 – 検索データの解析処理などにMapReduceを使用 フロントエンド サービス担当 Gateway Crawler Ops/ Direct API Admin UI Workflow Hadoop UserDB Index 15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

17.

Hadoop Client – HadoopをClientとServerに分けて、運用を行っている – 他のサーバにあるHadoopクラスタのファイルの読み書きや、 Jobの実行を簡単に行える $ hadoop fs –put localfile hdfs://nn.example.com:9000/hadoop/hadoopfile $ hadoop fs –get hdfs://nn.example.com/user/hadoop/file localfile 16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

18.

Hadoop Client – core-site.xmlやmapred-site.xmlに外部のHadoop Serverを指定し、Hadoop Clientとしてパッケージ化 - core-site.xml <property> <name>fs.default.name</name> <value>hdfs://nn.example.com:9000</value> </property> - mapred-site.xml <property> <name>mapred.job.tracker</name> <value>nn.example.com:9000</value> </property> 17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

19.

Hadoop Server – 開発用クラスタと、検証用クラスタ、本番用クラスタがある – 本番用クラスタは、DRBDでNamenodeを冗長化 – 別サーバからHadoop ClientでJobの実行や、ファイルの転送を行ってい る 開発用クラスタ Hadoop Client 18 検証用クラスタ 本番用クラスタ Hadoop Client Hadoop Client Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

20.

ファイルの転送 – 基本的には、Hadoop Clientで転送 – HTTP経由で転送する場合もあり – DatanodeのHTTP Serverから転送 – デフォルトではGETしかできないが、パッチを あててPUT/POST/DELETEもできるように している – ThriftやFUSE経由で転送しているサービス もある 19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

21.

Hadoopの開発 – Eclipseで開発 – Mockito+JUnitやMRUnitで単体テスト – ただし、DistributedCacheなどがテストできない 20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

22.

Eclipse Plugin – Eclipse Pluginを使えば、Hadoop Clientが入った状態にな る – 直接、開発用クラスタにJobを投げて実行 – VMWare上にHadoopクラスタを立ち上げる場合もあり – Yahoo! Inc.や米Clouderaで、セットアップがほとんど必要な いVMWareのイメージファイルが公開されている 21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

23.

セキュリティ – Hadoop Serverのアカウントを持っていなくても、Hadoop Clientで、どこ からでもJobを実行したり、ファイルの読み書きができる – 権限管理の仕組みはあるが、セキュリティの観点ではほとんど意味をなさな い – 解決法 – ネットワークを遮断して、ポートをアクセス制限 – 誓約書 – Hadoop with Securityを後ほど紹介 22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

24.
[beta]
Hadoopのuser/group
– なんとなく、シェルのログインuser/groupが適用されているが・・・
– Hadoop Client側で、”whoami”、”bash –c groups” コマンドを実行
して取得しているだけ
– ちなみにWindowsでは取得できない
static String getUnixUserName() throws IOException {
String[] result = executeShellCommand(
new String[]{Shell.USER_NAME_COMMAND});
return result[0];
}
UnixUserGroupInformation.java
public final static String USER_NAME_COMMAND = "whoami";
public static String[] getGROUPS_COMMAND() {
return new String[]{"bash", "-c", "groups"};
}

23

Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

Shell.java

25.

任意のuser/groupを指定 – Hadoop Clientのcore-site.xmlで、hadoop.job.ugiを指定する – MapReduceのJobごとに動的に指定することも可能 - core-site.xml <property> <name>hadoop.job.ugi</name> <value>user,group</value> </property> - MapReduce JobConf conf = new JobConf(Test.class); conf.set(UnixUserGroupInformation.UGI_PROPERTY_NAME,”user,group”); 24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

26.

Hadoop with security – いままでのHadoopのセキュリティには問題がある – Yahoo! Distribution Of Hadoop With Security – ABYSSでも導入を計画中 25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

27.

Hadoop with Security と Oozie 26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

28.

Introduction 27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

29.

Introduction – ネットワークおよびホストレベルのセキュリティは常に必要。 – 現在の Apache Hadoop (0.20.2まで)のセキュリティ(アプリケーションレ ベル) – ユーザ、ノード(ホスト)についての認証機構が存在しない。 – HDFSのパーミッション機構は存在するが、認証を前提としないので限定 的。ユーザのなりすましが可能。 – サービスレベルのアクセス制御は限定的(dfs.hosts、mapred.hosts)。 設定によっては、ノードのなりすましが可能。 – MapReduceジョブ発行についての権限制御が存在しない。 – 通信経路、ストレージされたデータは暗号化されていない。 28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

30.

Hadoop with Security と Oozie とは 29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

31.

Hadoop with Security – 認証、認可および監査ログといったセキュリティ機能が追加された Hadoop の Yahoo! ディストリビューション。 – これらのセキュリティ機能はオプション。 – 2010年8月現在、最新版(ベータ)は、0.20.104.2。 – Apache Hadoop の対応版はまだ存在しない。 – Yahoo! Inc. では、2010年8月にプロダクション導入予定。 – 本セッションでは、Yahoo! Developer Network 配布の Yahoo! Distribution of Hadoop 0.20.S Virtual Machine(0.20.104.0SNAPSHOT)を対象に解説。※安定版が未リリースのため、今後、仕様が 変更される可能性あり。 30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

32.

Oozie Yahoo!'s workflow engine for Hadoop – ビルマの象使いの専門職を oozie という。 – Yahoo! Inc. で開発された Hadoop の MapReduce ジョブを含めた複雑 なアクションフローを実行管理するためのワークフローエンジン(Java Servlet + RDB)。 Pig HDFS Hive Error MapReduce Java Kill HDFS 31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

33.

Oozie Yahoo!'s workflow engine for Hadoop – Yahoo! Distribution of Hadoop with Security との統合利用が可能。 – オープンソースとして公開されており、今後は Apache Software Foundation に移管予定。2010年8月現在、最新版は2.0.2.1で、バイナ リ配布はされていない。 – Yahoo! Inc. では、Ver. 1 がすでにプロダクションに導入済みで、Ver. 2 が 導入されつつある。 – 本セッションでは、最新版の 2.0.2.1 を Yahoo! Distribution of Hadoop 0.20.S Virtual Machine (0.20.104.0) 向けにビルドしたもの を対象に解説。 32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

34.

0: 現在の Hadoop RPC HTTP Block Access Hadoop JobTracker invoke TaskTracker shuffle (2) Submit Job hadoop hadoop Map/Reduce Task hadoop NameNode Hadoop Client hadoop DataNode hadoop alice (1) Upload Files 33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

35.

強化1: プロセスユーザの変更 task-controller (root:mapred) invoke Hadoop with Security JobTracker mapred TaskTracker mapred Map/Reduce Task alice:oozies NameNode Hadoop Client hdfs DataNode root -> hdfs Block access port: 1004 alice 34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

36.

強化2: 相互認証(Kerberos)の追加 35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

37.

強化3: Token 認証の追加 36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

38.

強化4: Hadoop と Oozie の統合 37 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

39.

詳細1: アプリケーションのアップロード NameNode 10 hours Hadoop Client TGT cache hdfshdfs/[email protected] DataNode root -> hdfs dn/[email protected] Block access port: 1004 alice [email protected] (1) Upload Oozie Workflow App. 38 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

40.

詳細2: ジョブの発行 alice HTTP Client Kerberos KDC (AuthN) (2) Submit Job Job Conf. mapred/[email protected] hdfs/[email protected] Oozie (127.0.0.1) AuthN oozie/[email protected] hosts: 127.0.0.1 groups: oozies oozie oozie/[email protected] AuthN Filter AuthZ Hadoop Proxy User AuthZ Service JobTracker mapred mapred/[email protected] alice ? admin ? NameNode hdfshdfs/[email protected] 39 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

41.

詳細3: ジョブの実行 task-controller (root:mapred) invoke Hadoop with Security Hadoop Proxy User oozie/[email protected] hosts: 127.0.0.1 groups: oozies JobTracker TaskTracker mapred mapred/[email protected] mapred mapred/[email protected] shuffle Map/Reduce Task alice:oozies NameNode hdfs hdfs/[email protected] DataNode root -> hdfs dn/[email protected] Block access port: 1004 40 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

42.

Hadoop と Oozie の統合効果 – クラスタ全体のセキュリティ統御 – 認証(Authentication): ユーザまたはノード(ホスト)が何ものであるか。 – 認可(Authorization): ユーザまたはノードが何をすることができるか。 – 監査(Auditing): ユーザまたはノードが何をしたか。 – ※ただし、データ通信経路の暗号化、ストレージされたデータの暗号化は 未実装。 – データコロケーションの実現: 同一クラスタ内における重要度の異なるデータ の混在。 – Oozie による ETL(Extract/Transform/Load)の可視化と加速化。 – クラスタ全体の最適化。 41 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

43.

Yahoo! JAPAN Hadoopクラスタ –Hadoop with Security と Oozie の活用も視野に入れ、全社 規模クラスタの構築を計画中。 –現在のサービス専用クラスタの規模を超える共用クラスタで、複 数の構築を検討中。 –2011年4月、運用開始目標。 42 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

44.

Appendix A: Hadoop with Security の特長 43 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

45.

セキュリティの強化 – 認証(Authentication)フレームワーク – 認可(Authorization)機能 – 監査(Auditing)機能 44 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

46.

認証(Authentication) – Kerberos 認証と連携可能(RPC SASL/Kerberos) – ※SASL機構による実装なので、今後 Hadoop が Kerberos (via GSS API) 以外の認証方式に対応することは比較的容易。 – core-site.xml: Kerberos プリンシパル名をローカルのOSユーザに マッピングするルール。 – hdfs-site.xml: HDFS各プロセスの Kerberos プリンシパル設定。 – mapred-site.xml: MapReduceフレームワーク各プロセスの Kerberos プリンシパル設定。 – ジョブ関連プロセスの相互認証は、RPC SASL/DIGEST-MD5 45 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

47.

認可(Authorization) – アプリケーションレベルの認可 – hadoop-policy.xml: 各通信プロトコル(サービスレベル)アクセスコ ントロール。 – mapred-queue-acls.xml: デフォルトスケジューラへのジョブ発行 権限コントロール。 46 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

48.

監査(Auditing) – 従来は、log4j のログレベルを変更して監査ログ(HDFSへのアクセス要求)を出力す る必要があった。 – log4j.logger.org.apache.hadoop.fs.FSNamesystem.audit=INFO – Hadoop with Security では、システム監査をサポートする情報として、以下のよう なログが出力される。※監査ログなので、ログローテートしない設定を。 – HDFS – hdfs-audit.log – hdfs-auth.log – MapReduce – madred-audit.log – mapred-auth.log 47 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

49.

Appendix B: Oozie ワークフローアプリケーションと セキュリティ 48 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

50.

ワークフローとは –Oozie が扱うワークフローとは、逆戻りや繰り返しのない一連(DAG、Direct Acyclic Graph、有向非巡回グラフ)のアクション実行計画のこと。 –XMLで記述。 Pig HDFS Hive Error MapReduce Java Kill HDFS 49 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

51.

サポートされるアクションノード – MapReduce(Javaベース) – MapReduce ストリーミング – MapReduce Pipes – Pig – HDFS(ファイルシステム操作) – 通常のJavaプログラム – サブワークフロー – カスタム Action Executor を作成することにより追加可能(Hiveなど) 50 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

52.

ワークフローアプリケーションの構成 – ワークフローアプリケーション(ディレクトリ)は以下のファイルで構成され、あら かじめHDFS上にアップロードしなければならない。 – workflow.xml – lib/: 依存JARや共有オブジェクト(*.so)を格納 – 設定ファイル(config-default.xmlなど) – 各スクリプト(Pig、シェルスクリプトなど) – ローカルのジョブ設定ファイル(たとえば、map-reduce-job.properties)に は、このアプリケーションパスを指定する。 – oozie.wf.application.path=hdfs://localhost:8020/tmp/hadoop/workflows/map-reduce 51 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

53.

ジョブ管理機能 – クライアントのコマンドラインから可能。Oozie サーバは、OOZIE_URL 環境 変数あるいはコマンドラインの –oozie オプションで指定。 ジョブの実行 $ oozie job -config map-reduce-job.properties -run job: <job id> ジョブの情報表示 $ oozie job -info <job id> ジョブの強制終了 $ oozie job -kill <job id> 52 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

54.

Oozie Webコンソール 53 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

55.

Oozie とセキュリティ –Oozie が提供するセキュリティ機能 – 認証(Authentication)プラグイン – 認可(Authorization)機能 – 監査(Auditing)機能 54 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

56.

認証(Authentication) – 認証機能は、Java Servlet Filter によりプラグイン可能 – 認証済ユーザについては、リクエストオブジェクトの oozie.user.name 属性にユーザ名を設定。 55 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

57.

認可(Authorization) – Oozie Authorization Model(Oozie AuthorizationService が提供) – ユーザは、すべてのジョブを参照可能。 – ユーザは、自分のジョブを変更可能。 – ユーザは、属するグループのジョブを変更可能。 – ユーザは、管理オペレーションを参照可能。 – 管理ユーザは、すべてのジョブを変更可能。 – 管理ユーザは、管理オペレーションを変更可能。 – ユーザに対するグループおよび Oozie 管理者権限の付与については、カス タマイズ可能。 – ファイルベースの Oozie 管理ユーザ設定機能をビルトインする。 56 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

58.

監査(Auditing) – Hadoop with Security 同様、監査ログが出力される。※監査ログなので、 ログローテートしない設定を。 – oozie-audit.log 57 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

59.

ジョブ実行とセキュリティ – ユーザは、Oozie サーバによって認証される。 – Oozie はユーザの Proxy User(代理人)として振る舞う。 – Oozie サーバは、自身の Kerberos チケットにより Hadoop クラスタ (HDFS、MapReduce)に認証され、(Hadoop の superuser 権限で)ユー ザの代わりにジョブを発行する。 58 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

60.

セキュリティ設定1: ジョブ定義 – 以降の設定は、 Yahoo! Distribution of Hadoop 0.20.S Virtual Machine (0.20.104.0) との連携を想定。 – ユーザは、ジョブ定義ファイルに以下のプロパティを追加(クラスタを認証) – mapreduce.jobtracker.kerberos.principal: JobTracker の Kerberosプリンシパル (例: mapred/[email protected]) – dfs.namenode.kerberos.principal: NameNode の Kerberos プリンシパル (例: hdfs/[email protected]) 59 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

61.
[beta]
セキュリティ設定2: Oozie サーバ
– Oozie 管理者は、設定ファイル(oozie-site.xml)に以下の内容を設定。
<property>
<name>oozie.service.HadoopAccessorService.kerberos.enabled</name>
<value>true</value>
<description>
Kerberos認証の有効化
</description>
</property>
<property>
<name>oozie.service.HadoopAccessorService.keytab.file</name>
<value>${user.home}/oozie.keytab</value>
<description>
Oozieサーバユーザの keytab ファイルの場所
</description>
</property>
<property>
<name>oozie.service.HadoopAccessorService.kerberos.principal</name>
<value>${user.name}/[email protected]</value>
<description>
Oozieサービスの Kerberos プリンシパル
</description>
</property>

60

Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

62.

セキュリティ設定3: Hadoopクラスタ – Hadoopクラスタ管理者は、設定ファイル(core-site.xml)に以下の内容を 設定。Oozie サーバの Proxy User としての振る舞いを制限する。 <property> <name>hadoop.proxyuser.oozie.hosts</name> <value>127.0.0.1</value> <description> oozie 部分は、Oozie サーバのプリンシパルのショートネーム アクセスを許可する Oozie サーバホストのリスト </description> </property> <property> <name>hadoop.proxyuser.oozie.groups</name> <value>oozies</value> <description> Oozie サーバの代理を許可するユーザが属するグループのリスト </description> </property> 61 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

63.

Oozie Ver. 2 の新機能 – Workflow Engine から Coordinator Engine へ – crontab ライクなジョブのスケジュール実行。 – 入力データトリガのジョブ実行: 入力データが利用可能になった時点で、 ジョブが実行される。 62 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

64.

参考リソース – 『クラウド セキュリティ&プライバシー』(Tim Mather、Subra Kumaraswamy、 Shahed Latif 著、下道 高志 監訳、笹井 崇司 訳、オライリー・ジャパン、2010) – Yahoo! Distribution of Hadoop with security – http://yahoo.github.com/hadoop-common/ – Yahoo! Oozie – http://yahoo.github.com/oozie/ – Owen O'Malley: Hadoop Security – http://www.slideshare.net/ydn/1-hadoopsecurityindetailshadoopsummit2010 – https://issues.apache.org/jira/browse/HADOOP-4487 – Alejandro Abdelnur: Yahoo! Workflow Engine for Hadoop – http://www.slideshare.net/ydn/5-oozie-hadoopsummit2010 63 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

65.

ご清聴ありがとうございました。 64 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止