[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”

217 Views

January 14, 22

#deep learning #Deep Learning #Meta-Learning #Recommender Systems #Online Update #Japanese Presentation

スライド概要

2022/01/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.2K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.8K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 41.7K

各ページのテキスト

DEEP LEARNING JP “Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)” [DL Papers] Yoshifumi Seki http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● 投稿先 ○ AAAI2022 ● 投稿者 ○ 韓国科学技術大学と Naver ○ 1stはPhDの学生 ○ COVID-19のDLを使った予測で AAAI2022, KDD2020に1stで通している ● 選定理由 ○ ニュース推薦のデータセットが含まれている ○ 直近のメタ学習による推薦システムのトレンドのキャッチアップのため

概要 ● ● ● ● ユーザの関心やコンテンツの変化に対応するために推薦システムではオンラインの更新が重要更新の戦略として、インタラクションの履歴に対する重み付けと、パラメータのメタ学習による更新があるが、両方を行っている例はない。この研究ではその2つを同時に行うGNNベースのメタ学習手法を提案する。大きく精度の向上を実現した。

Research Question i) どのように新しいインタラクションというタスクへの重要性を記述するか ii) どのようにタスクに対するパラメータの役割を特定するか iii) どのようにインタラクションとパラメータに対する最適な学習率をそれらの関係性に基づくいて決定するか

MeLON (Meta Learning for ONline recommender update)

提案手法の位置付け

Preliminary: パラメータ更新の一般化 θ: 推薦システムのパラメータ L: 損失関数, η: 学習率, Bt: ミニバッチのデータ n: |Bt| ● 学習率の行列Wとして一般化する ○ ● ● Wはパラメータ数 M * データ数nの行列通常のオンライン学習では全て同じ値が入っているパフォーマンスは以下で評価できる

Importance Weighting φ^I: インタラクションごとのスコアを返す関数 W^I: 一般化した行列 ● importance weightingはインタラクションごとに学習率を調整する ○ ○ ● 論文中ではφ^Iが損失とか言ってるけど、一般化すると違うので、、、 W^Iをφ^Iを値に持つと言ってるけどこれも ηが考慮できないので、、、既存手法 ○ ○ eALS (He et al. 2016): ヒューリスティックに決定する (多分Lossの比とか) MWNet (Shu et al. 2019): 外部のメタモデルを維持するように学習する (?)

Meta Optimization φ^P: パラメータの状況に応じて学習率を変えたいという気持ち、パラメータ数の次元を持つ（こともできる） W^P: 一般化した ● ● 学習率のところをパラメータの関数化している

10.

提案手法 ● ● φ^{2D}: インタラクション、パラメータ両方に学習率を変える関数

11.

提案手法の概念図

12.

Step1: Representing User Item Interaction ● ● ● ● 過去のインタラクション情報からインタラクションをembedするアイテムとユーザの2部グラフで過去のインタラクションを表現 Graph Attention Networkで埋め込み

13.

Step2: Representing Parameter Role ● ● 予測結果に与える影響の大きさをパラメータのRoleと（大雑把に）定義する３つの情報が使える ○ ○ ○ ● パラメータの値パラメータの損失：どれだけインタラクションに対して学習できてないかを示すパラメータの勾配：損失に対してどれだけアクションが必要かを示す MLPを使って学習する

14.

Step3: Adapting Learning Rate 学習率を埋め込み表現から求めるパラメータを更新する

15.

実際の学習プロセス

16.

より詳細な概念図

17.

アルゴリズム

18.

評価データセット Adressa: ニュース Amazon: 商品レビュー Yelp: 場所のレビュー

19.

比較手法推薦アルゴリズム ● ● Bayesian Personalized Ranking (BPR) Neural Collaborative Filtering (NCF) 更新戦略 ● ● Default (普通のmini batch) importance weighting ○ ○ ● eALS MWNet Meta Optimization ○ ○ ○ MetaSGD S2Meta SML

20.

評価指標 ● ● Hit Rate (HR) NDCG 1つの実際にinteractionしたアイテムと、99個のランダムなアイテムをスコア付けしてランキングにして評価

21.

22.

23.

結果概要 ● ● 全体として提案手法が著しく程度向上している NCFは全体で向上 ○ HR＠5で見るとAdressaが29.9%, Amazonが10.9%, Yelpが18.2% ● BPRではYelpのみeALSが最大 ● ● Adressaはニュースで変化が早いのでMeta Optimizationで強い Yelpは変化がゆっくりなのでimportance weightingが強い

24.

● 学習率重みの可視化 ○ ● 上と右のバーは平均化したもの ○ ● 細かく違うことがわかる違うところが多いので、提案手法はより適切に最適化できていると考えられる AdressaとYelpの違いは先ほどあったimportance weighting, meta optimizationの違いと一致する

25.

● ● バッチが進むによるパフォーマンスの変化全体として安定して高い ○ ● そもそもデータセットに時系列制ある？

26.

● 片方だけの最適化をやるようにした版 ○ ● 平均化して学習率として使った⇦本当に比較になってる？精度はimportance weightingやmeta optimizationの比較手法に近くなってる

27.

● ● 計算速度は他のものと比較して少し長いものの誤差一方でNvidia Taitan RTXを使っているけどこれを実サービスで使えると言っていいものか、実際eALSの20倍遅いわけで、、、

28.

まとめ ● ● Importance WeightingとMeta Optimizationの合わせ技で、オンライン学習において過去のものと比較し大きな精度改善を実現している比較実験において、2つ合わせて学習することで様々なデータセットの特性に対応できる所感 ● ● ● testがどんどんデータが追加されていく感じの時系列な設定ではないので、これをそのまま実サービスレベルで信用できるかは疑問早い言っているが本当に早いのか、、、？とはいえ、シンプルなアイデアでしっかり結果を出しているのはすごい