[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System

>100 Views

December 07, 20

#deep learning #Deep Learning #Recommender Systems #Causal Inference #Machine Learning #Evaluation Metrics

スライド概要

2020/12/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.5K

各ページのテキスト

DEEP LEARNING JP “Adversarial Counterfactual Learning and Evaluation for Recommender System (NeurIPS2020)” [DL Papers] Yoshifumi Seki, Gunosy http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● ● 投稿先 ○ NeurIPS 2020 ● 選定理由 ○ 最近因果推論と推薦システムに興味がある ○ NeurIPSに推薦システムは珍しい 2

概要 ● この研究では、まず一般の推薦システムタスクのexposure mechanismに対する非一貫性について論理的に示す ○ 実際にオフラインの評価指標とオンラインテストでの齟齬がお大きいことが指摘されている ○ 因果推論の傾向スコアを推薦システムに活用することが近年流行っているが、近年流行っている手法はモデルとデータに異常に強い仮定をおいている ■ 既存の因果推論ベース推薦システムに喧嘩を売ってる感じ ● ミニマックスアルゴリズムによる設定を提案し、2つのモデルの敵対的学習の問題に変換し、ミニマックス最適化としての解法を提案 ● オープンデータによるシミュレーションと、オンライン実験の分析を通して提案手法の有効性を確認 3

推薦システムの課題 ● 推薦システムはユーザのフィードバックデータを用いてユーザの興味関心を学習する ○ 入力: ユーザuがアイテムiを評価rで消費した ○ 出力: ユーザuの評価が未知のアイテムi’への評価値を予測する ● フィードバックデータはそのデータを得られたexposure mechanismに依存する ○ ユーザが観測していないアイテムに対しては評価をつけることができない ■ ex. 例えばニュースアプリのログを考えると、起動していない日のデータはとれない 4

近年推薦システムでは評価の議論が多い ● 2019年のRecsysのbest paperは近年のDeepな推薦システムの手法を再実装して比較したところをほとんどが非Deepな手法に負けた ○ [Dacrema+, RecSys 2019] Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches ● MFとDeepな手法はどっちが良いのかと言う議論 ○ オンラインとオフラインの実験で一貫性がないのではないかという指摘も多い ● Unbiased Learning と Metricsへの注目は高い ○ KDD, Recsys, SIGIRあたりで頻出トピック 5

フィードバックデータにおける教師あり学習一般のsurrogate lossはこのように与えられる ● f_{\theta} (u, i): ユーザuとアイテムiに対するスコアを返す関数 ● Y_{u, i}: ユーザuとアイテムiの評価値 ● D: 学習用のユーザとアイテムのペア ○ 負例はNegative Samplingすることが通例 ● φ: margin-based loss 6

Claim 1: exposure mechanismがgiven and fixed ● P^(1)とP^(-1)はp^(1), p^(-1)の t分布 ● D_c: 関数cによるf-divergence ● このとき最適なfも以下の関数として与えられる 7

推薦システムアルゴリズムの矛盾 ● exposure mechanismがgiven and fixedであれば ○ optimal lossはユーザの関心とexposure両方の関数 ○ optimal modelはユーザの関心にのみ依存する ■ Claim1はありえないのでoptimal modelはexpose mechanismに依存する ● exposure mechanismが異なる2つの環境から同じデータが得られたとき、 exposure mechanismを考慮しないと、最適なアルゴリズムとして同じ関数を求めてしまう ○ 推薦システムアルゴリズムの非一貫性がここからもたらされているといえる 8

傾向スコアの考慮傾向スコアで重み付けされた Lossはこのように与えられるここから元々の LossをExposure MechanismのLossを使って復元できる Q: exposure mechanismの分布 (多分Q_0の誤り) P_n: 観測データの経験的な分布以上からexpected propensity-weighted lossは以下のように経験分布によって表現できる 9

10.

多くの既存研究が用いている仮定 ● 著者らはこの仮定が現実世界ではrarely trueだと主張している ○ まぁ確かに個人の関心がなくても話題性でニュースをみたりする ○ すでに既知の情報だったからみないとか 10

11.

Method ● 真の分布 P*を考える ○ ideal exposure-eliminated sample distribution: corresponding to P/Q_0 ■ exposure mechanismもデータサンプル確率としてとらえることができた確率分布、と解釈 ● worst possible choiceである\hat{P} を導入 Wassersteim Distanceを考える Empirical Risk Minimization (ERM) を考えると以下のようになる制約付き最適化なので、これを緩和することを考える 11

12.

● Claim2: ○ transportation cost c: continnuous ○ propensity score are all bounded away from zero. ● この導入によって、以下のように制約なし最適化に緩和することができる ○ これはQの敵対的学習のように働く 2項目が正則化項として働く 12

13.

Exposure Mechanismの具体化 ● Exposure Mechanismは全くわからないわけではなく、経験的な仮定を導入できる ○ データを収集した推薦システム g*に依存すると考えて、それに近いg_{}を考える ○ アルゴリズムgが与えられたときに、exposure mechanismを与えるGを考えて以下のように書くこれでgの敵対的な学習の問題になる 13

14.

Practical Implementation ● g*がわからんのと、gがDNNだと複雑になる ○ 知りたいのはfなのでg*は比較的どうでもいい ○ g*は正則化項にしかでてこないので、これを弱めたい ○ これはGANとかでもよく出てくるアイデア ● Explict Feedback Setting の場合はexposure statusは部分的に観測できている ○ 多分MovieLensとかがレビュー集めるのに特化してるUIであることを言ってる？クラウドソーシング的な ● Content-based Recommendationの場合はExposureは人気度に依存する ○ ？？？？ ○ 一般の推薦システムでそうでは、と思うし、むしろcontent-basedはそうではないのでは？ 14

15.

Practical Implementation ● Implicit Feedbackで上の2つが使えないとき、Lossを導入する ● データが推薦システムgによって生み出されているので、そこで誤差最小化をやる（まじで？） ● この論文ではこれに注目する。なぜなら強い仮定がないので ○ 十分強い仮定にみえますがそれは ● 15

16.

Practical Implementation ● ここでGをTukey's Factorizationの考え方を採用して、出力値を含めたLosgistic RegressionでGを推定する ● 最終形は以下のadversarial gameになる 16

17.

Minimax Optimization ● two timescale Gradient descent ascent (GDA)を使う ○ 収束するのかどうかみたいな議論が論文中にあったけどよく理解できていないです ● 17

18.

Robust Evalution ● この結果得られたGを用いて、unbiasedな評価メトリックを提案する ○ Robust Evalutionという ● NDCGの場合 18

19.

Experiment ● 3つの実験をやる ○ Explicit Feedbackデータを使ったシミュレーション ○ Real world datasetを使ったオフラインテスト ○ オンライン実験によるオフライン実験との一貫性の確認 ● 19

20.

Synthetic data analysis ● MovieLensとGoodreadsのデータ ● まずMFのモデルを学習し、exposure mechanismのoracleとする ● このOracleからImplicit Feedbackなデータを生成する 20

21.

傾向スコアを一切使わなかったときのスコア (baseline) 21

22.

Real data analysis 22

23.

Online experiment Analysis ● Walmart.comでの8つのA/Bテストをやってる ● オフラインでは提案モデルで学習する ● オンラインとオフラインについて書くMetricsに対してMSEをやる 23

24.

まとめ ● 傾向スコアを使った推薦システムの学習について、これまでのモデルが強い過程で簡略化していた部分を丁寧にモデル化 ● exposure mechanismの敵対的な学習という形でモデルの学習を提案 ● 学習過程で得られたexposure mechanismを使ってunbiasな評価指標を提案 ● オフラインオンラインで改善を示した 24

25.

所感 ● わりとここ1~2年の流行りについて真っ向から戦っている内容で読んでて楽しかった ○ 数式は難しかったし、実力不足を感じました ● もう少し強い改善を期待していたが、数値的にはそこまで大きなimprovementがなかったので、結果の詳細な分析を期待したいところ ● 著者らのいう強い仮定との比較が明瞭にはなかったので、そのへんで計算をサボってまぁまぁの結果がでるならそれでいいんじゃないかなぁみたいな気もする 25