爆速機械学習サービス応用:実践編#yjdsw1

>100 Views

December 21, 15

スライド概要

http://yahoo-ds-event.connpass.com/event/21903/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

爆速機械学習サービス応⽤用:実践編 2015/11/11 ⽥田頭 幸浩

2.

⾃自⼰己紹介 • ⽥田頭 幸浩 (Yukihiro  TAGAMI) • • • • • @y_̲tag github.com/y-‐‑‒tag   Machine  Learning  /  Information  Retrieval   A  research  engineer  at  Yahoo  Japan  Corporation   A  Ph.D.  student  at  Kyoto  University • arXiv.orgをウォッチしたり、 機械学習OSSのバグを⾒見見つけたりしてます

3.

タイトルは釣りです!

4.

ヤフーでどういうことをしているの? • 機械学習のサービス適⽤用 • YDN(ディスプレイ広告) • ショッピングの検索索ランキング /  レコメンデーション • スマホ版トップページのニュースレコメンド • • • • 論論⽂文書く 採⽤用活動 社内向けのセミナー MYM監視 • 社内のコミュニケーションツール

5.

YDN(広告)の配信システム超概要(KDD論論⽂文より) TwoVstage*approach P5 • TwoVstage*approach*in*our*ad*serving*system* 1. Ads*are*retrieved*by*mul5ple*methods*using* inverted*index* 2. The*ads*are*merged*and*passed*to** clickVthrough*rate(CTR)*predic5on*model* Method*1 AD*corpus* ~*1*million Method*2 …… Method*N First*stage*~*40*ms AD AD AD AD AD AD AD AD AD AD AD AD Merge AD AD AD AD AD AD AD AD AD AD AD CTR* predic5on* model ~*200*ADs Second*stage*~*10*ms Copyright*(C)*2014*Yahoo*Japan*Corpora5on.*All*Rights*Reserved.

6.

機械学習をサービスに導⼊入する道のり 1. 2. 3. 4. 5. ビジネス的な課題を理理解する システム構成を理理解する 評価⽅方法を考える アプローチを考える 実験する

7.

機械学習をサービスに導⼊入する道のり 1. 2. 3. 4. 5. ビジネス的な課題を理理解する システム構成を理理解する 評価⽅方法を考える アプローチを考える 実験する • ⼀一般的な研究のプロセスと基本的には同じ • 問題を適切切に設定し、既存の⼿手法を理理解し、 実験・評価⽅方法を適切切に決めたら、 あとはアプローチを模索索するのみ

8.

課題解決 • 「課題解決」はヤフーにおけるバリューの⼀一つ • 機械学習は⾮非常に有効な⼿手段の⼀一つだが…… • ビジネス的なドメイン知識識や、システムの知識識と 組み合わせることで、その度度合いは⾶飛躍的に増す • OSやネットワークなどのエンジニアの基礎体⼒力力や、 情報検索索などの他分野の知識識に助けられることも多い

9.

ヤフーのサービスに機械学習を適⽤用する⾯面⽩白さ • データがたくさんある • 量量:トラフィックサイズに⽐比例例 • 種類:サービスやアプリの数 • 計算資源もそこそこある • Hadoopクラスタ、Stormクラスタ、GPUマシン • ⼩小さな改善でも、⼤大きなインパクト • YDN(広告)は年年間数百億のビジネス規模 • 1%の収益改善でも⼀一年年で数億円儲かるように

10.

研究資⾦金金は⽣生命線 • 会社の利利益に貢献して、研究資⾦金金を稼ごう! • 資⾦金金がなければ研究は続けられない • これは企業でも⼤大学でも個⼈人でも同じはず • できるだけ楽に研究資⾦金金を稼ぎたいので、 ⾃自分で投資対効果の⾼高い課題を探した⽅方が効率率率的 • 広告とかEコマースはお⾦金金が絡むので分かりやすい • 稼いだ資⾦金金と時間を使ってやりたいことをする • 新たな課題への挑戦、技術的チャレンジ • 成果をまとめて論論⽂文を書く

11.

論論⽂文発表 • 論論⽂文を書く(社外に成果を発表する) • • • • • 研究者として⼈人類の知に貢献したい! 直⾯面している問題と現在の解決⼿手段を共有しよう ⾃自分や会社の宣伝にもなる 会社として推奨している 知らないうちに⼤大学の講義の参考資料料になったりもする http://www.bigdata.uni-‐‑‒frankfurt.de/big-‐‑‒data-‐‑‒analytics-‐‑‒course-‐‑‒summer-‐‑‒semester-‐‑‒2014/

12.

論論⽂文発表 • Modeling  User  Activities  on  the  Web  using  Paragraph   Vector.  WWW  2015  Poster • Filling  Context-‐‑‒Ad  Vocabulary  Gaps  with  Click  Logs.   KDD  2014 • Translation  Method  of  Contextual  Information  into   Textual  Space  of  Advertisements.  WWW  2014  Poster • CTR  Prediction  for  Contextual  Advertising:  Learning-‐‑‒ to-‐‑‒Rank  Approach.  ADKDD  2013

13.

Filling  Context-‐‑‒Ad  Vocabulary  Gaps  with  Click  Logs (1) Proposed*approach P9 • Our*approach*translates*contextual* informa5on*into*the*textual*space*of*ads* • The*transla5on*table*is*learned*with*click*logs Web*page*terms User*terms User*categories User*gender User*age Translator* Query*terms* Ad*corpus Ad*retrieval User*loca5on Context*vocabulary Ad*vocabulary Copyright*(C)*2014*Yahoo*Japan*Corpora5on.*All*Rights*Reserved.

14.

Filling  Context-‐‑‒Ad  Vocabulary  Gaps  with  Click  Logs  (2) Online*A/B*tes5ng*result P15 • Rela5ve*gain*over*exis5ng*method* • ClickVthrough*rate(CTR)* • Colored*value*represents*“pVvalue*<*0.05”** on*chiVsquared*test*(website*A,*B,*D,*E,*H)* • Cost*per*click(CPC)* • Revenue*per*request(RPR) Metrics Website A B C D E F G H CTR V3.67% +4.60% +0.48% +2.82% +2.47% +1.42% +3.27% +4.02% CPC +3.63% V2.00% +1.62% +1.31% V1.01% +7.51% V2.42% V2.94% RPR V0.18% +2.51% +2.10% +4.17% +1.44% +9.04% +0.77% +0.97% Copyright*(C)*2014*Yahoo*Japan*Corpora5on.*All*Rights*Reserved.

15.

まとめ • 機械学習のサービス導⼊入は研究のプロセスと同じ • ビジネス的な課題設定や既存システムの理理解は不不可⽋欠 • ⼿手法そのものよりも、それが何を解決しているかが重要 • 研究資⾦金金は⾃自分で稼ごう • 投資対効果が⾼高い課題を探して取り組む • 余った時間でやりたいことをやる • 成果が出たら論論⽂文を書こう • 研究者として⼈人類の知に貢献したい! • ⾃自分や会社の宣伝にもなる(し、推奨されている)

16.

おしまい