[DL輪読会]Predicting Online Video Advertising Effects with Multimodal Deep Learning

1.1K Views

March 09, 21

#deep learning #ディープラーニング #動画広告 #Multimodal Deep Learning #CTR Prediction #Impression Prediction

スライド概要

2021/03/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Predicting Online Video Advertising Effects with Multimodal Deep Learning Masahiro Nakamura http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • タイトル - Predicting Online Video Advertising Effects with Multimodal Deep Learning • 著者東京大学 - Jun Ikeda, Xueting Wang, and Toshihiko Yamasaki 株式会社セプテーニ（SEPTENI CO.,LTD.） - Hiroyuki Seshime • ICPR 2020でaccept • 論文のリンク https://arxiv.org/pdf/2012.11851.pdf • コードは現状未公開 2

https://arxiv.org/pdf/2012.11851.pdf

アジェンダ • • • • • 背景(p4) 関連研究(p9) 提案手法(p16) 実験(p29) 結果(p34) 3

背景 4

背景 • 無線通信の発達(高速、大容量、低遅延)でスマホを用いたオンラインでの動画視聴が増加 →それに伴いユーザーの間でコンテンツが埋め込まれたビデオ広告の人気が高まっている →ビデオ広告は企業間で確立、利用者の多いSNSアプリ、例として FacebookやInstagramなどに多く掲載されるようになっている。 • サイバーエージェントによる2019年国内動画広告の市場調査の結果から示唆に富んだ点が見られる 5

背景 • 下図は株式会社サイバーエージェントが2019年国内動画広告の市場調査したもの(*) (*) https://www.cyberagent.co.jp/news/detail/id=24125 6

背景 • 調査結果のポイント(*) スマートフォンの動画広告の需要は前年比147％、動画広告市場全体の約89％に該当 (*) https://www.cyberagent.co.jp/news/detail/id=24125 7

背景 • 画像広告であればCTRを用いた効果測定の事例はある • 一方でビデオ広告に対する調査や研究は少なく企業からの需要に応えられてない • テレビCMのインプレッション予測の方法を踏襲、利用可能なデータからオンライン動画広告での効果があるかを事前に予測、広告作成のサポートツールとして提供できるようにするのがモチベーション 8

関連研究 9

10.

関連研究 • 本論文の関連研究として挙げられているのは大きく分けて2つ。 - 以下について別々に言及していく 1.クリック率の予測 2.テレビCMのインプレッションの予測 10

11.

関連研究1:クリック率の予測(例1~3) • 画像広告のクリック率を予測する研究は以前から活発に行われており広告業界で大きな注目を集めてきた • 例1:ロジスティック回帰を用いてページURLやキーワードなどのメタデータからCTRを予測 • 例2:ディープラーニングを導入してCTRを予測、Factorization Machines を用いてメタデータ間の相互関係を説明 • 例3:Factorization Machinesを拡張しメタデータを扱うDeepFMと xDeepFMを開発 11

12.

関連研究1:クリック率の予測(例4) • 画像広告のクリック率を予測する研究は以前から活発に行われており広告業界で大きな注目を集めてきた • 例4:畳み込みニューラルネットワーク（CNN）によって画像から抽出された特徴量を予測に使用することの有効性を実証、後の研究で CNNによって抽出されたテキストから特徴量を使用する方法を提案、埋め込まれたテキストから特徴量を抽出すると予測精度が向上することを示しつつAttention Mechanismを導入、画像、メタデータ、およびテキストがどれくらい予測に寄与するかを視覚化した 12

13.

関連研究2:テレビCMのインプレッションの予測 • ビデオ広告のインプレッションを推定し15秒のテレビCMのクリック率に影響を与える要因を分析した事例があり、インプレッション及び感情へ与える4つの影響要素(認識、好意、購入覚醒、関心)の予測をしている。インプレッションの推定ではビデオとオーディオ、製品分類や放送パターンといったメタデータをマルチモーダルデータとして下図のような形のニューラルネットワークで統合している。 13

14.

関連研究2:テレビCMのインプレッションの予測 • 認識、好意、購入覚醒、関心のそれぞれの予測値と正解の間の相関関係は0.73、0.67、0.80、0.63と比較的高く、マルチモーダルデータを組み合わせることで高い精度が得られることがわかる →そのままオンラインのビデオ広告でもと言いたくなるが… 14

15.

オンラインの動画広告でもいけそうである。しかし… • 本研究での予備実験で先程のモデルをオンライン動画広告にも使用、そこで得られたCTRの予測精度は低めとなり相関係数は0.487と前頁よりも寂しい結果となってしまった。 →テレビCMと今回研究対象としているオンラインのビデオ広告では複数のメタデータでのスケールのばらつきなど性質が違うから →なので予測精度を上げるにはオンラインのビデオ広告のアーキテクチャとハイパーパラメータを最適化する必要がある 15

16.

提案手法 16

17.

提案手法 - 前提事項 • CTRの予測ではCNNを使用 ①ビデオフレーム、メタデータ、及びテキストデータの特徴量は個別に抽出され完全接続（FC）レイヤーを通過し次元を固定 ②特徴量のベクトルがAttention Mechanism によって重み付け、マルチモーダルにおける特徴量のベクトルの加重平均が計算 ③この特徴量のベクトルに基づきCTRはニューラルネットワークにより予測される • 次頁より個別に解説 17

18.

提案手法 - Visual feature extraction - 18

19.

提案手法 - Visual feature extraction • 各ビデオからフレーム間の間隔が同じになるようにnフレームを抽出。 224×224にサイズを変えResNet50に入力。最後のレイヤーは削除し非表示レイヤーの特徴量がわかるようにしつつパラメーターを修正。 • 抽出された特徴量のサイズは Fully Connected（FC）レイヤーによって 2048から256に縮小。 • 過学習を抑制するため特徴量をバッチ正規化（BN）レイヤーによって正規化。 19

20.

提案手法 - Visual feature extraction • 最後にn個の特徴量のベクトルを取得。 • これらを統合するためにAttention Mechanismは入力ベクトルの重みを計算し重みに従って15次元の統合された特徴量として加重平均を計算（右下）。 • Attention Mechanismによりモデルが特徴量を選択的に使えるので予測精度が向上。 • アテンションの重みを視覚化することで CTRの予測にどのフレームがより効果的であるか分析することもできた。 20

21.

提案手法 - Metadata feature extraction - 21

22.

提案手法 - Metadata feature extraction • (A)質的/カテゴリ変数ワンホットエンコードされ連結した上で FC層とBN層に入力、16次元の特徴量のベクトルを取得 • (B)量的/連続変数 FC層とBN層に入力し240次元の特徴量のベクトルを取得。 • 両ベクトルがBN層によりそれぞれ正規化、連結され次のレイヤーに入力される。 →256次元の特徴量のベクトルを獲得 22

23.

提案手法 - Text feature extraction - 23

24.

提案手法 - Text feature extraction • テキストデータは、Doc2Vecによって 300次元のベクトルに埋め込む。 • 日本語の形態素解析エンジンである MeCabを使用してテキストを前処理、 2つの単語の間にスペースを含めてから Gensimで実装されたDoc2Vecモデルを訓練 • 埋め込まれたベクトルの合計が次のレイヤーに入力、256次元の特徴量のベクトルを得られた • 過学習にならないようバッチ正規化レイヤーを入れる 24

25.

提案手法 - Integration of multimodal features - 25

26.

提案手法 - Integration of multimodal features • 独自のサイズで正規化された特徴量のベクトルの加重平均Fは、広告向けのそれとしてAttention Mechanismにより計算された重みに従い計算された。 • 各ψ(プサイ)はモーダルの特徴量 Fvisual、Fmeta、Ftextを入力として受け取り、各モーダルの特徴量 βvisual, βmeta, βtextの重みを出力する Attention Mechanismを表す。 26

27.

提案手法 - CTR prediction - 27

28.

提案手法 - CTR prediction • 広告の特徴量のベクトルは FC、BN、ドロップアウト層に入力(確率は0.5に設定) 最後にFCレイヤーに入力されて1 次元CTRを取得。 • ドロップアウト層の追加には過学習防止という意図がある。 28

29.

実験 29

30.

実験 - 使用したデータセット • セプテーニ株式会社が事業で実際に使っていたCTR予測のオンライン動画広告データを使用 • 2018年1月から2019年12月まで FacebookとInstagramで配信されていたものも含んでいる • 5~30秒に収まらないもの、表示回数500回未満、クリック回数0のものを除外した上で訓練、検証、テストに分割する 30

31.

実験 - 使用したデータセット • 配慮事項 - 将来のCTR予測するという目的に則りデータを時系列で分割、検証データセットとテストデータセットはトレーニングデータセットより古くならないようにする - 重複データではメタデータで僅かながら違いが見られる場合もあるため同じ動画は訓練とテスト用で分離させない。 • 補足 - データセット内のデータと固有のビデオ数は右上の表を参照。 - 条件の根拠としてインプレッションが少ないとCTRが不安定、クリックされなければCTRは自動的に0、右下の図でもわかる通りビデオはほとんど5〜30秒で固まってることが挙げられる。 31

32.

実験 - メタデータ • CTRを予測できるよう3つに分類 - 定性変数 - 定量変数 - テキストデータ • 実際の種類と分類は右の表を参照 32

33.

実験 - ネットワークトレーニング • 損失関数 : 平均二重誤差 • オプティマイザー : 確率的勾配降下法 • モメンタム : 0.9 • エポック数 : 200 • 全エポックで200回のうちで最小の平均二乗誤差をスコアリングするモデルをベストとして採用できるよう検証データセットに対し予測を行う。 • CTRで右のように対数変換したものを学習で使用。 33

34.

結果 34

35.

結果 • 提案手法と各種比較モデルの予測精度は下の表のようになっている。 • 予測精度は二乗平均平方根誤差（RMSE）と相関係数（R）の2つのメトリックを使い評価。 35

36.

結果 - 提案モデル VS ベースライン • これは関連研究の時に言及したテレビCMのインプレッションの予測の事例と精度を競ったもの • 過去の事例にはビジュアルとメタデータしかないので提案手法14と比較、結果として精度の向上が確認できた。 36

37.

(再掲)関連研究2:テレビCMのインプレッションの予測 • ビデオ広告のインプレッションを推定し15秒のテレビCMのクリック率に影響を与える要因を分析した事例があり、インプレッション及び感情へ与える 4つの影響要素(認識、好意、購入覚醒、関心)の予測をしている。インプレッションの推定ではビデオとオーディオ、製品分類や放送パターンといったメタデータをマルチモーダルデータとして下図のような形のニューラルネットワークで統合している。 37

38.

結果 - 詳細なアブレーション研究(サンプリングフレーム) • サンプリングフレームの数(n)が大きいほど視覚情報が多くなる。大きすぎると同じ情報が含まれているフレームが多くなりモデルにも影響しかねない。 • モデルの性能はn =10から15で向上するが20に行くと低下してしまう。ビデオの多くは15秒なので1秒あたり1フレームがちょうどいいということになる。 38

39.

結果 - 詳細なアブレーション研究(モーダル入力の有効性) • モーダル入力の有効性を検証すべくそういった特徴量を無視し訓練 • タイトルや説明といったテキストデータは他のモーダルデータよりも意思決定に及ぼす影響は少ない。 39

40.

結果 - 詳細なアブレーション研究(メタデータの入力を分離する効果) • 量的変数と質的変数を分離しバッチ正規化レイヤーで正規化 • 予測精度の比較で用いられたのは 7.未処理,8.事前に定量的メタデータを正規化,9.事前に正規化してメタデータを分離,15.提案手法でメタデータを分離 • 提案手法が数値データの前処理としてよく使用される正規化プロセスより優れているのが面白い点 40

41.

結果 - 詳細なアブレーション研究(メタデータの入力を分離する効果) • また、過学習を抑制するための層があった方がそうしていない10よりも精度が高い 41

42.

結果 - インプットの特徴と予測精度の相関関係 • 機能の効果を詳細に分析するため定性的メタデータの相関率と定量的メタデータの相関係数を測定 • プロモーションIDは結構相関関係が強かった • サブジャンルやターゲットの年齢( 最大と最小で両方)での相関関係はかなり小さい。 • ほとんどの特徴量は非常に小さかったりゼロもザラ。 42

43.

結果 - インプットの特徴と予測精度の相関関係 • 特定のメタデータやテキスト入力の特徴量を無視すると精度が上がるか調査。 • 入力から各メタデータを除外し個別にCTRを予測をした結果としてプロモーションIDを外した場合の精度の下がり具合が一番大きいので最も影響が大きいということがわかる。 43

44.

結果 - インプットの特徴と予測精度の相関関係 • 各テキストの特徴量を入力から除外しCTRを予測。 • 特定の特徴量を無視すると精度が上がるようである。 • 注意点としてどれを無視するか事前に指定できないのでモデルをデータセットに最適化するにはどの特徴量を無視すればいいか調べなくてはいけない。 44

45.

結果 • 上図は横軸は広告ID、縦軸はアテンションの重みを表す積み上げグラフ青は視覚、オレンジはメタデータ、緑はテキストのアテンンションの重みを表す。 • 下の表は各モーダル特徴量の重みの平均が計算されたものを示している。メタデータの平均が最も高く、テキストのそれが最も低かった。 • アテンションの対象としてメタデータに対する比重が高くCTRに大きく左右することがわかる。 45

46.

結果 - データの各モーダル特徴のアテンションの重みの可視化 • テストデータの各フレームの特徴量のアテンションの重みを視覚化 • 上の図で横は広告ID、縦はアテンションの重みをフレーム順に表している。 • 最初のフレームの重みが一番下、最後のフレームの重みが上。 • 各フレームの特徴量の重みの平均が計算され、下の表に示されている。 • アテンションがいく傾向が高いのは 1,2,3,7,最後。 • CTRはビデオの最初と最後に大きく左右されると言える。 46

47.

まとめ • オンライン動画広告のクリック率を予測し何が影響を与えるか分析をする方法を提唱した • テレビCMのインプレッションを予測する方法を用いてネットワークとパラメータをオンライン動画広告に最適化させている • FC層とBN層にそれぞれ入力する質的変数と量的変数を分離、過学習を防ぐために正規化層を追加 • 結果として予測精度の観点から0.695の相関係数が得られた • メタデータがCTRに大きく影響しており特にビデオの最初と最後の方が重要になる 47