「最近傍検索とその応用」#yjdsw2

>100 Views

December 25, 15

スライド概要

http://yahoo-ds-event.connpass.com/event/22045/

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

最近傍検索 〜UGC不正マルチポスト検知への応用〜 Yahoo! Japan データ&サイエンスソリューション本部 ソリューション技術 田中 康之

2.

自己紹介 P2 名前:田中 康之(たなか やすゆき) 所属:ソリューション技術 メディア、決済金融系サービスの技術的な課題解決/チームリーダー 経歴: – 2012年〜:電機メーカーよりYahoo! Japan中途入社 • 検索エンジン開発チーム, そしてチームリーダー – 2015年〜:ソリューション本部 • データとサイエンスを事業の課題に応用する スキル: – C/C++ 低レイヤーの設計・開発が得意 – 情報検索、自然言語処理、画像処理、広く浅く知っている

3.

キーワード検索 と 最近傍検索

4.

キーワード検索と最近傍検索 P4 “キーワード検索” 探したいキーワードに関連したドキュメントを探し出す “ヤフー” “Base6” 検索エンジン 1. ヤフーの社食Base6 2. Base6とはYahoo... 3. ヤフーの... ... .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. ..............

5.

キーワード検索と最近傍検索 P5 “最近傍検索” 探したい素性(特徴)ベクトルに近いドキュメントを探し出す 購入履歴 興味 ... 素性 ベクトル .............. .............. .............. .............. カテゴリ 特徴語 ... 検索エンジン オススメ ユースケース レコメンデーションシステム 広告引き当てシステム 素性 ベクトル カテゴリ 特徴語 ... .............. .............. .............. .............. .............. .............. .............. ..............

6.

本題 UGC不正マルチポスト検知応用

7.

UGCとは .............. .............. .............. .............. P7 UGC (User-Generated Contents) ユーザーによって生成されたコンテンツ <UGCサービス> Yahoo!知恵袋(Q&A), Yahoo!ブログ, textream(掲示板), ... <サービス内UGC> Yahoo!ニュース コメント, ...

8.

P8 残念ながらいい投稿だけでは無い...

9.

課題 P9 誹謗中傷 パクリ 文意不明 商用リンク これらを”ほぼ”同じ内容でたくさん投稿してくる しかも、機械的な対策を回避してくる... マルチポスト問題

10.

例: 投稿例1. 投稿例2. 投稿例3. P10 自分が使ってる優良出会い系サイトは、次の6つのみ! ハッピーメール、ワクワクメール、イククル、YYC、PCMAX、ASOBO 参考までに。 是非、あなたも頑張って下さい! 自分が使ってる優良出会い系サイトは、次の6つのみ! ハッピーメール、ワクワクメール、イククル、YYC、PCMAX、ASOBO 参考までに。 是非、頑張って下さい! 48歳、既婚の男性です。 自分が使ってる出会い系サイトは、次の6つです。 ハッピーメール、ワクワクメール、イククル、YYC、PCMAX、ASOBO 参考までに。 良い出逢いがあると良いですね(^-^)

11.

P11 1サービス1日あたりの投稿数 数1,000 〜 数100,000件

12.

P12 1サービス1日あたりの投稿数 数1,000 〜 数100,000件 1サービス1日あたり人力でも 数100〜数1000件 対策している

13.

では機械学習で... 一般的な機械学習導入ステップ 1. 2. 3. 4. ... 正例/負例タグ付け、データ収集 素性選択、学習アルゴリズム検討 モデル精度評価 精度未達なら、2に戻る P13

14.

では機械学習で... 一般的な機械学習導入ステップ 1. 2. 3. 4. ... 正例/負例タグ付け、データ収集 素性選択、学習アルゴリズム検討 モデル精度評価 精度未達なら、2に戻る 「spammer の傾向は変化が早い」 最初の導入、スピード感が間に合わない 変化に対応するための再学習コストが見合わない P14

15.

P15 素性 ベクトル 検索エンジン .............. .............. .............. .............. .............. .............. .............. .............. マルチポスト投稿 新規投稿 素性 ベクトル .............. .............. .............. .............. 過去の投稿 同じような特徴がある投稿は 再近傍検索でマルチポストの検知ができるのでは

16.

P16 マルチポスト文章 何を素性ベクトルとする? 類似度の指標は?

17.

素性ベクトル化と類似度 ベクトル化(bi-gram) P17 類似度 Jaccard係数 = (A B)/(A B) *1.0 に近づくほど類似 あしびきの山鳥の尾の しだり尾の長々し夜を ひとりかも寝む {  あし,  しび,  びき,  きの,  の山,   山鳥,  鳥の,  の尾,  尾の,  のし,   しだ,  だり,  り尾,  の長,  長々 ,  々し,  し夜,  夜を,  をひ,  ひと,   とり,  りか,  かも,  も寝,  寝む }   類似度:1.0 あしびきの山鳥の尾のしだり尾の 長々し夜をひとりかも寝む   類似度:0.89 あしひきの山鳥の尾のしだり尾の 長々し夜をひとりかも寝む   ... 類似度:0.12 思へども思ひもかねつ足引の山 鳥の尾の長き今宵を  

18.

P18 事業のエンジニアはサイエンティストじゃない 理解しやすく、効果の高い手法から始める

19.

導入事例 • Yahoo!知恵袋(Q&A) への導入ステップ 1. 課題ヒアリング 2. プロトタイプ作成 • 動作検証 3. サービス導入検討(以降、サービス開発メンバーと一緒に) • • 技術説明 工数管理 4. 対策ツール設計・開発 • 既存のシステムやデータ設計 5. 効果測定 P19

20.

Yahoo!知恵袋への導入効果 検知精度:約77% マルチポスト判定されたもののうち、実際に対策されたもの P20

21.

Yahoo!知恵袋への導入効果 サービスの違反対応数 導入前1週間平均 P21 1.7倍 導入日

22.

Yahoo!知恵袋への導入効果 "いままで見えてなくて削除できなかったものが 削除できるようになった” 対策担当者より P22

23.

まとめ P23 キーワード検索と最近傍検索の違い マルチポスト検知の事例を紹介 提案だけじゃない、開発だけじゃない取り組み データとサイエンスで事業の課題解決しています