kukai: 省エネ世界2位のディープラーニング・スパコン

>100 Views

August 01, 17

スライド概要

https://idcf.doorkeeper.jp/events/63057

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

kukai: 省エネ世界2位のディープラーニング・スパコン 2017年8月1日 角田 直行 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

2.

自己紹介 • 角田 直行(かくだ なおゆき) データ&サイエンスソリューション統括本部 テクニカルディレクター • 2005年 ヤフー中途入社 • • 地図や路線、ウェブ検索、検索エンジン、検索プラット フォームなどの開発 2012年にビッグデータやデータサイエンス領域に Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

3.

ヤフーのDeep Learning事例 音声認識(YJVOICE) ・Yahoo! JAPANや乗換案内など 多数のアプリに搭載 Yahoo! JAPANアプリ ・ニュース記事のレコメンデーション ・ニュース記事の重複排除 ・ニュース画像のクロッピング …他多数 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

4.

背景 DLに適した環境の必要性 ・今後のデータ増加、DL事例の増加 ・マルチノード、マルチGPUでの スケーラビリティ ・世界Top企業の取り組み 自社インフラ技術の強化 ・グループにIDCフロンティア ・数千台規模のHadoop運用実績 ・OpenStack、Open Compute Project ・アメリカDC運用 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. Goyal+, Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

5.

きっかけ • 数年前から調査を継続的に実施 • • • 2015年末に本格的に始動 • • • Xeon Phi、GPU、FPGA、Ethernet、InfiniBand、水冷、液浸…etc 開発、検証向けに共用GPU環境を構築 宮坂社長より「スパコン作ろう」「名前は『空海』で」 構成がスパコンに似ていたので「スパコン」として企画 2016年夏に構成を決定 • • 2016年末完成を目標に予定規模を修正 ExaScalerスパコンやTSUBAMEを見学し液浸に決定 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

6.

kukai • • • 2017年3月末完成 構築費用: 約4億円 IDCF 白河DCに設置 初の試みのため、物理的に距離が 近いことも理由の一つ • • 1サーバラック + 1液浸槽 設置にあたり壁面に工事 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

7.

kukai 20ブリック構成、80ノード (1ブリックあたり4CPU & 8GPU) CPU Xeon E5-2650L 1.7GHz, 14core v4 GPU NVIDIA Tesla P100 PCIe 16GB Network InfiniBand FDR フロリナートによる液浸冷却 3M社製 フッ素系不活性液体の製品名称 ・優れた電気絶縁性 ・無臭 ・毒性無し ・粘性が低い ・揮発性が高い ・不燃性 ・オゾン破壊係数ゼロ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

8.

TOP500/Green500 スパコンの省エネランキングで世界2位 TOP500スコア Green500スコア 460.7 TFlops (465位) 14.04 GFlops/W (2位) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

9.

TOP500 ・1993年に発足 ・年2回(6月, 11月)実施 ・LINPACKベンチマークにて評価 ・FLOPSという単位が使われる ・近年は中国が台頭 ・日本は今回7, 8位にランクイン https://www.top500.org/lists/2017/06/ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

10.

Green500 ・2005年に発足(2007年に開始) ・指標はFLOPS/W ・2016年よりTOP500ランクインが条件 ・今回、日本が上位4位独占 ・10位中6システムランクイン ・TSUBAMEは上位常連 ・10位中9システムがTesla P100採用 ・9位にFacebook ・10位のNVIDIAは前回(2016/11)1位 https://www.top500.org/green500/lists/2017/06/ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

11.

機械学習によるチューニング • LINPACKチューニングは職人的スキルが必要 • • • 専門スキルを持っていない スパコン完成〜締め切りまでの時間が短い ベイズ最適化による自動化 • • • 東京大学 大学院新領域創成科学研究科の佐藤一誠講師 との共同研究 行列サイズ(N)やブロックサイズ(NB)など数項目を探索 論文投稿予定 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

12.

苦労? • 少ない開発リソース • スパコンに対する初の試み • パーツ供給不足 • ハード故障 • • • • • • • • 自分含めて実質2名 スパコン知識ゼロ 本業との片手間 液浸、InfiniBand データセンターの設置、保守運用ナレッジ メモリやGPUの供給不足で完成時期が不明 計測中に原因不明のハード故障が頻発 チューニングを充分に実施できず(空港でsubmit) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

13.

今後 • 実稼働に向け準備中 • • • Green500 • • • クラスタ管理、ソフトウェアスタック YJVOICEなど既存Deep Learning実装を移行 おそらく次回はTop500ランク外 実稼働を優先 増強、増設 • • 今後の利用状況次第 現棟でも増設可能だが、数が増えると新棟増設? Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

14.

We are Hiring! • データサイエンティストやインフラ エンジニアを新卒、経験者ともに 通年募集中 • もちろんリサーチャー、エンジニア、 デザイナーも • 詳細は公式採用ページまで hr.yahoo.co.jp Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.