広告サイエンスにおける統計的機械学習技術のご紹介 / YJTC19 in Shibuya A-5 #yjtc

3.1K Views

December 12, 19

スライド概要

本セッションでは、Yahoo!広告 ディスプレイ広告(YDN)において、機械学習がどのように使われているのかご紹介します。 また、近年注目を集めている Selective Inference と呼ばれる統計的推論を応用した広告のクリック確率予測についてご紹介しました。

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

広告サイエンスにおける統計的機械学習技術のご紹介 テクノロジーグループサイエンス統括本部サイエンス2本部 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 鈴村真矢

2.

鈴村 真矢 テクノロジーグループサイエンス統括本部サイエンス2本部 2016年度新卒入社 広告関連の機械学習アルゴリズム開発・考案を担当 兼務で広告 x コマース事業の収益性定量化を担当 学生時代は機械学習アルゴリズムの研究に従事 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

3.

このセッションについて 広告配信に使われている機械学習技術について紹介します。また「機械学習が 上手くいかない事例」を紹介し、その改善に向けた取り組みを紹介します。 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

4.

アジェンダ サービス紹介: 1. Yahoo!広告 ディスプレイ広告(YDN)とは 2. サービス内の機械学習活用例 技術紹介: 1. 広告クリック確率予測のための機械学習 2. 機械学習が上手くいかない事例とその改善 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

5.

アジェンダ サービス紹介: 1. Yahoo!広告 ディスプレイ広告(YDN)とは 2. サービス内の機械学習活用例 技術紹介: 1. 広告クリック確率予測のための機械学習 2. 機械学習が上手くいかない事例とその改善 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

6.

本説明はスライド作成時点でのYahoo!広告 ディスプレイ広告(YDN)の説明であり、 今後、機能や仕様等は変更される可能性がありますので、ご了承ください。 ※名称変更: Yahoo!ディスプレイアドネットワーク(YDN) → Yahoo!広告 ディスプレイ広告(YDN) Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

7.

サービス紹介 Yahoo!広告 ディスプレイ広告(YDN) コンテンツページに NEW 洋服買うなら〇〇 アウター最大 30% OFF www.●■▲.com NEW Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 「動画, 画像, テキスト」 などの形式で広告を配信

8.

サービス紹介 Yahoo!広告 ディスプレイ広告(YDN) Ø 設定されたユーザー層に向けて広告を配信可能なサービス・技術基盤 Ø メディア(媒体)を通してサイト訪問者に広告を配信し、Yahoo! JAPAN と広告主の双方の利得向上につなげる メディア: Ø Yahoo! JAPANが提供している多数のサービス Ø 多数のパートナーサイト Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

9.

サービス紹介 Yahoo!広告 ディスプレイ広告(YDN) 利用可能なターゲティング一例 デバイス 地域 曜日・時間帯 インタレストカテゴリー サーチターゲティング 性別 年代 サイトカテゴリー サイトリターゲティング プレイスメントターゲティング Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 配信対象ユーザー絞り込みに使える ユーザーの興味やデモグラなどの推定 には機械学習を利用

10.

サービス紹介 機械学習の活用例 人間が配信対象ユーザーを絞り込まずとも、機械がユーザー毎のクリック確率 (CTR:click through rate)などを予測して、配信を切り分けることが可能 地域:東京周辺 𝐶𝑇𝑅 = 𝑓 年代:10代〜30代 興味:グルメ, 健康志向 履歴:特定サイト訪問履歴あり Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. =? 機械学習

11.

技術紹介 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

12.

アジェンダ サービス紹介: 1. Yahoo!広告 ディスプレイ広告(YDN)とは 2. サービス内の機械学習活用例 技術紹介: 1. 広告クリック確率予測のための機械学習 2. 機械学習が上手くいかない事例とその改善 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

13.

技術紹介 広告クリック確率(CTR)予測のための機械学習 𝐶𝑇𝑅'(,*+,- = Pr(𝑐𝑙𝑖𝑐𝑘 = 1|𝒙'( , 𝒙*+,- ) サイトや枠の情報 訪問者情報 広告の情報 東京都のレストラン フレンチ・イタリアン www.●■▲.com Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. NEW , NEW 広告枠

14.

技術紹介 広告クリック確率(CTR)予測のための機械学習 𝑐𝑙𝑖𝑐𝑘 𝒙'( 𝒙*+,1 動画, エンタメ, ⋯ 20代, 女性, 東京, 買い物好き, ⋯ 1 画像, 不動産, ⋯ 30代, 男性, 埼玉, 投資家, ⋯ 0 ⋮ テキスト, 株, ⋯ 40代, 男性, 千葉, 釣り好き, ⋯ ⋮ ⋮ 過去データから機械が傾向を学習し、未知の入力に対して予測できるモデルを構築 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

15.

CTR予測にリッチな機械学習を導入したところで シンプルなモデルに勝てないことがある Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

16.

技術紹介 機械学習導入で陥りやすいこと イケイケ機械学習構築 ABテストで 原因解明に オフライン評価爆改善 全くふるわず 追われる日々 (イエーイ) Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

17.

技術紹介 なぜ機械学習がふるわないのか Ø 広告はランキングを経て配信されており、特に予測CTRが過大評価された広告 のデータが溜まりやすい ⇨ Ranking Bias Ø 偏ったデータを学習させると偏った機械学習モデルが出来上がる ⇨ Negative Bias Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

18.

Ranking Bias と Negative Bias Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

19.

技術紹介 Ranking Bias のシミュレーション Ø ある広告1と2の予測CTRが下記の一様分布に従っていると仮定する < 𝐶 𝑇𝑅= ~Unif[0,1] < 𝐶 𝑇𝑅E ~Unif[0.5,1] Ø 2本のうち予測CTRが高い1本を選択したとき、選ばれた広告の予測CTRの期待値 はどうなるか? < < 𝔼[max 𝐶 𝑇𝑅= , 𝐶 𝑇𝑅E ] =? ? ? Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

20.

技術紹介 Ranking Bias のシミュレーション < 𝔼[𝐶 𝑇𝑅= ] = 0.5 < 𝔼[𝐶 𝑇𝑅E ] = 0.75 < < 𝔼[max 𝐶 𝑇𝑅= , 𝐶 𝑇𝑅E ] ≥ 0.75 予測が偶然に上振れたものが 選ばれやすいことを示唆 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

21.

技術紹介 Ranking Bias のシミュレーション ランキング対象の広告本数:1 Calibration:1.000 ランキング対象の広告本数:2 Calibration:1.039 ランキング対象の広告本数:5 Calibration:1.087 偏りの大きさがわかる指標: Calibration = 予測CTR / 真のCTR Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

22.

技術紹介 Negative Bias とそのシミュレーション Ø ランキングで選ばれた広告の予測は上振れ傾向であり、それらのデータを学習す ると広告母集団に対して予測が下振れ傾向となる Ø 下振れは配信機会が失われるので補正されにくい 予測と真値の乖離(in Greedyアルゴリズム) ID CTR CTR 1 0.72801 0.424 0.5 2 0.27199 0.235 0.4 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

23.

技術紹介 先行研究 Ranking Bias と同等の現象は少なくとも 1960 年代には知られていた: 1. Buehler, Robert J., and Alan P. Feddersen. "Note on a Conditional Property of Student's t." The Annals of Mathematical Statistics, 1963. 2. Brown, Larry. "The conditional level of Student's t test." The Annals of Mathematical Statistics, 1967. Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

24.

技術紹介 先行研究 Ranking Bias が生じる状況下での統計的推論は “Selective Inference” や “PostSelection Inference” という名で2015年ごろから盛んに研究されている(統計学 +機械学習の文脈で進んでいる): Jonathan Taylor and Robert J. Tibshirani, PNAS, 2015. 近年にはバンディットアルゴリズムにおいて最尤推定量に生じる Negative Bias の 解析・補正法が報告された: Xinkun Nie, et. al., AISTATS, 2018. Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

25.

技術紹介 先行研究 Ranking Bias が生じる状況下での統計的推論は “Selective Inference” や “PostSelection Inference” という名で2015年ごろから盛んに研究されている(統計学 +機械学習の文脈で進んでいる): Jonathan Taylor and Robert J. Tibshirani, PNAS, 2015. 近年にはバンディットアルゴリズムにおいて最尤推定量に生じる Negative Bias の 解析・補正法が報告された: Xinkun Nie, et. al., AISTATS, 2018. Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

26.

提案法 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

27.

技術紹介 Ranking Bias 補正のベーシックアイディア 𝑣 𝑣 O P O 標本分布の切断点の下限𝑣 =下位ランクのランキングスコア P 標本分布の切断点の上限𝑣 =上位ランクのランキングスコア ⇨ 切断点にはバイアスの説明力があり、これを補正に利用 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

28.

技術紹介 切断点を説明変数とする機械学習の構築 特徴量 教師データ click 0 1 ⋮ 予測CTR <= 𝐶𝑇𝑅 < 𝐶 𝑇𝑅E ⋮ 切断点下限 O 𝑣= O 𝑣E ⋮ 切断点上限 P 𝑣= P 𝑣E ⋮ 予測CTRの上振れの度合いは切断点で説明される Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. その他 ⋯ ⋯ ⋮

29.

技術紹介 提案法の流れ(1/2) 広告母集団 1回目のランキング 𝐴𝐷S 𝐴𝐷Y 𝐴𝐷Z < < < 𝐶 𝑇𝑅STU ≥ 𝐶 𝑇𝑅STV ≥ 𝐶 𝑇𝑅STW ⋯ 𝐴𝐷T 𝐴𝐷[ 𝐴𝐷\ ランキング結果から切断点を計算 P O (𝑣STX , 𝑣STX ) P O (𝑣STU , 𝑣STU ) ⋮ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

30.

技術紹介 提案法の流れ(2/2) 予測CTRと切断点を入力 O P < (𝐶𝑇𝑅STX , 𝑣STX , 𝑣STX ) O P < (𝐶𝑇𝑅STU , 𝑣STU , 𝑣STU ) ⋮ 補正後の予測CTRに基づきリランキング < < < 𝐶 𝑇𝑅STW ≥ 𝐶 𝑇𝑅STU ≥ 𝐶 𝑇𝑅ST] ⋯ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

31.

技術紹介 理論解析 Ranking Bias 0 ランキング順位 ランク高=上振れ傾向、ランク低=下振れ傾向 Ranking Bias が補正できると Negative Bias もある程度補正できる (証明割愛) Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

32.

技術紹介 実配信ABテストによるパフォーマンス評価 既存法からの収益リフト 収益 +5.7% クリック数 +8.2% Calibration = 予測CTR / 実測CTR 種別 既存法 提案法 実配信 1.30 1.07 Ranking Bias Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 広告母集団 0.957 0.930 Negative Bias

33.

技術紹介 最後に Ø 機械学習の導入において、データの偏りを補正することによって、より良い成果が 得られることが示唆された Ø データの偏りを補正するには、データの発生プロセスを理解することが重要である Ø 今後は Yahoo! JAPAN が有する多様なデータを利活用し、状況に応じてデータの 発生プロセスを解析し、強力な機械学習を構築していく Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.

34.

Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.