[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System

>100 Views

December 07, 20

スライド概要

2020/12/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP “Adversarial Counterfactual Learning and Evaluation for Recommender System (NeurIPS2020)” [DL Papers] Yoshifumi Seki, Gunosy http://deeplearning.jp/

2.

書誌情報 ● ● 投稿先 ○ NeurIPS 2020 ● 選定理由 ○ 最近因果推論と推薦システムに興味がある ○ NeurIPSに推薦システムは珍しい 2

3.

概要 ● この研究では、まず一般の推薦システムタスクのexposure mechanismに対する非 一貫性について論理的に示す ○ 実際にオフラインの評価指標とオンラインテストでの齟齬がお大きいことが指摘されている ○ 因果推論の傾向スコアを推薦システムに活用することが近年流行っているが、近年流行っている手法 はモデルとデータに異常に強い仮定をおいている ■ 既存の因果推論ベース推薦システムに喧嘩を売ってる感じ ● ミニマックスアルゴリズムによる設定を提案し、2つのモデルの敵対的学習の問題に 変換し、ミニマックス最適化としての解法を提案 ● オープンデータによるシミュレーションと、オンライン実験の分析を通して提案手法の 有効性を確認 3

4.

推薦システムの課題 ● 推薦システムはユーザのフィードバックデータを用いてユーザの興味関心を学習す る ○ 入力: ユーザuがアイテムiを評価rで消費した ○ 出力: ユーザuの評価が未知のアイテムi’への評価値を予測する ● フィードバックデータはそのデータを得られたexposure mechanismに依存する ○ ユーザが観測していないアイテムに対しては評価をつけることができない ■ ex. 例えばニュースアプリのログを考えると、起動していない日のデータはとれない 4

5.

近年推薦システムでは評価の議論が多い ● 2019年のRecsysのbest paperは近年のDeepな推薦システムの手法を再実装して 比較したところをほとんどが非Deepな手法に負けた ○ [Dacrema+, RecSys 2019] Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches ● MFとDeepな手法はどっちが良いのかと言う議論 ○ オンラインとオフラインの実験で一貫性がないのではないかという指摘も多い ● Unbiased Learning と Metricsへの注目は高い ○ KDD, Recsys, SIGIRあたりで頻出トピック 5

6.

フィードバックデータにおける教師あり学習 一般のsurrogate lossはこのように与えられる ● f_{\theta} (u, i): ユーザuとアイテムiに対するスコアを返す関数 ● Y_{u, i}: ユーザuとアイテムiの評価値 ● D: 学習用のユーザとアイテムのペア ○ 負例はNegative Samplingすることが通例 ● φ: margin-based loss 6

7.

Claim 1: exposure mechanismがgiven and fixed ● P^(1)とP^(-1)はp^(1), p^(-1)の t分布 ● D_c: 関数cによるf-divergence ● このとき最適なfも以下の関数として与えられる 7

8.

推薦システムアルゴリズムの矛盾 ● exposure mechanismがgiven and fixedであれば ○ optimal lossはユーザの関心とexposure両方の関数 ○ optimal modelはユーザの関心にのみ依存する ■ Claim1はありえないのでoptimal modelはexpose mechanismに依存する ● exposure mechanismが異なる2つの環境から同じデータが得られたとき、 exposure mechanismを考慮しないと、最適なアルゴリズムとして同じ関数を求めて しまう ○ 推薦システムアルゴリズムの非一貫性がここからもたらされているといえる 8

9.

傾向スコアの考慮 傾向スコアで重み付けされた Lossはこのように与えられる ここから元々の LossをExposure MechanismのLossを使って復元できる Q: exposure mechanismの分布 (多分Q_0の誤り) P_n: 観測データの経験的な分布 以上からexpected propensity-weighted lossは以下のように経験分布によって表現できる 9

10.

多くの既存研究が用いている仮定 ● 著者らはこの仮定が現実世界ではrarely trueだと主張している ○ まぁ確かに個人の関心がなくても話題性でニュースをみたりする ○ すでに既知の情報だったからみないとか 10

11.

Method ● 真の分布 P*を考える ○ ideal exposure-eliminated sample distribution: corresponding to P/Q_0 ■ exposure mechanismもデータサンプル確率としてとらえることができた確率分布、と解釈 ● worst possible choiceである\hat{P} を導入 Wassersteim Distanceを考える Empirical Risk Minimization (ERM) を考えると以下のようになる 制約付き最適化なので、これを緩和することを考える 11

12.

● Claim2: ○ transportation cost c: continnuous ○ propensity score are all bounded away from zero. ● この導入によって、以下のように制約なし最適化に緩和することができる ○ これはQの敵対的学習のように働く 2項目が正則化項として働く 12

13.

Exposure Mechanismの具体化 ● Exposure Mechanismは全くわからないわけではなく、経験的な仮定を導入できる ○ データを収集した推薦システム g*に依存すると考えて、それに近いg_{}を考える ○ アルゴリズムgが与えられたときに、exposure mechanismを与えるGを考えて以下のように書く これでgの敵対的な学習の問題になる 13

14.

Practical Implementation ● g*がわからんのと、gがDNNだと複雑になる ○ 知りたいのはfなのでg*は比較的どうでもいい ○ g*は正則化項にしかでてこないので、これを弱めたい ○ これはGANとかでもよく出てくるアイデア ● Explict Feedback Setting の場合はexposure statusは部分的に観測できている ○ 多分MovieLensとかがレビュー集めるのに特化してるUIであることを言ってる?クラウドソーシング的 な ● Content-based Recommendationの場合はExposureは人気度に依存する ○ ???? ○ 一般の推薦システムでそうでは、と思うし、むしろcontent-basedはそうではないのでは? 14

15.

Practical Implementation ● Implicit Feedbackで上の2つが使えないとき、Lossを導入する ● データが推薦システムgによって生み出されているので、そこで誤差最小化をやる (まじで?) ● この論文ではこれに注目する。なぜなら強い仮定がないので ○ 十分強い仮定にみえますがそれは ● 15

16.

Practical Implementation ● ここでGをTukey's Factorizationの考え方を採用して、出力値を含めたLosgistic RegressionでGを推定する ● 最終形は以下のadversarial gameになる 16

17.

Minimax Optimization ● two timescale Gradient descent ascent (GDA)を使う ○ 収束するのかどうかみたいな議論が論文中 にあったけどよく理解できていないです ● 17

18.

Robust Evalution ● この結果得られたGを用いて、unbiasedな評価メトリックを提案する ○ Robust Evalutionという ● NDCGの場合 18

19.

Experiment ● 3つの実験をやる ○ Explicit Feedbackデータを使ったシミュレーション ○ Real world datasetを使ったオフラインテスト ○ オンライン実験によるオフライン実験との一貫性の確認 ● 19

20.

Synthetic data analysis ● MovieLensとGoodreadsのデータ ● まずMFのモデルを学習し、exposure mechanismのoracleとする ● このOracleからImplicit Feedbackなデータを生成する 20

21.

傾向スコアを一切使わなかったときのスコア (baseline) 21

22.

Real data analysis 22

23.

Online experiment Analysis ● Walmart.comでの8つのA/Bテストをやってる ● オフラインでは提案モデルで学習する ● オンラインとオフラインについて書くMetricsに対してMSEをやる 23

24.

まとめ ● 傾向スコアを使った推薦システムの学習について、これまでのモデルが強い過程で 簡略化していた部分を丁寧にモデル化 ● exposure mechanismの敵対的な学習という形でモデルの学習を提案 ● 学習過程で得られたexposure mechanismを使ってunbiasな評価指標を提案 ● オフラインオンラインで改善を示した 24

25.

所感 ● わりとここ1~2年の流行りについて真っ向から戦っている内容で読んでて楽しかった ○ 数式は難しかったし、実力不足を感じました ● もう少し強い改善を期待していたが、数値的にはそこまで大きなimprovementがな かったので、結果の詳細な分析を期待したいところ ● 著者らのいう強い仮定との比較が明瞭にはなかったので、そのへんで計算をサボっ てまぁまぁの結果がでるならそれでいいんじゃないかなぁみたいな気もする 25