[DL輪読会]Predicting Online Video Advertising Effects with Multimodal Deep Learning

>100 Views

March 09, 21

スライド概要

2021/03/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Predicting Online Video Advertising Effects with Multimodal Deep Learning Masahiro Nakamura http://deeplearning.jp/

2.

書誌情報 • タイトル - Predicting Online Video Advertising Effects with Multimodal Deep Learning • 著者 東京大学 - Jun Ikeda, Xueting Wang, and Toshihiko Yamasaki 株式会社セプテーニ(SEPTENI CO.,LTD.) - Hiroyuki Seshime • ICPR 2020でaccept • 論文のリンク https://arxiv.org/pdf/2012.11851.pdf • コードは現状未公開 2

3.

アジェンダ • • • • • 背景(p4) 関連研究(p9) 提案手法(p16) 実験(p29) 結果(p34) 3

4.

背景 4

5.

背景 • 無線通信の発達(高速、大容量、低遅延)でスマホを用いたオンライン での動画視聴が増加 →それに伴いユーザーの間でコンテンツが埋め込まれたビデオ広告の 人気が高まっている →ビデオ広告は企業間で確立、利用者の多いSNSアプリ、例として FacebookやInstagramなどに多く掲載されるようになっている。 • サイバーエージェントによる2019年国内動画広告の市場調査の結果 から示唆に富んだ点が見られる 5

6.

背景 • 下図は株式会社サイバーエージェントが2019年国内動画広告の市場調査し たもの(*) (*) https://www.cyberagent.co.jp/news/detail/id=24125 6

7.

背景 • 調査結果のポイント(*) スマートフォンの動画広告の需要は前年比147%、動画広告市場全体の約89%に該当 (*) https://www.cyberagent.co.jp/news/detail/id=24125 7

8.

背景 • 画像広告であればCTRを用いた効果測定の事例はある • 一方でビデオ広告に対する調査や研究は少なく企業からの需要に 応えられてない • テレビCMのインプレッション予測の方法を踏襲、利用可能なデータ からオンライン動画広告での効果があるかを事前に予測、広告作成の サポートツールとして提供できるようにするのがモチベーション 8

9.

関連研究 9

10.

関連研究 • 本論文の関連研究として挙げられているのは大きく分けて2つ。 - 以下について別々に言及していく 1.クリック率の予測 2.テレビCMのインプレッションの予測 10

11.

関連研究1:クリック率の予測(例1~3) • 画像広告のクリック率を予測する研究は以前から活発に行われており 広告業界で大きな注目を集めてきた • 例1:ロジスティック回帰を用いてページURLやキーワードなどの メタデータからCTRを予測 • 例2:ディープラーニングを導入してCTRを予測、Factorization Machines を用いてメタデータ間の相互関係を説明 • 例3:Factorization Machinesを拡張しメタデータを扱うDeepFMと xDeepFMを開発 11

12.

関連研究1:クリック率の予測(例4) • 画像広告のクリック率を予測する研究は以前から活発に行われており 広告業界で大きな注目を集めてきた • 例4:畳み込みニューラルネットワーク(CNN)によって画像から 抽出された特徴量を予測に使用することの有効性を実証、後の研究で CNNによって抽出されたテキストから特徴量を使用する方法を提案、 埋め込まれたテキストから特徴量を抽出すると予測精度が向上する ことを示しつつAttention Mechanismを導入、画像、メタデータ、 およびテキストがどれくらい予測に寄与するかを視覚化した 12

13.

関連研究2:テレビCMのインプレッションの予測 • ビデオ広告のインプレッションを推定し15秒のテレビCMのクリック率に影響を 与える要因を分析した事例があり、インプレッション及び感情へ与える4つの 影響要素(認識、好意、購入覚醒、関心)の予測をしている。 インプレッションの推定ではビデオとオーディオ、製品分類や放送パターンといった メタデータをマルチモーダルデータとして下図のような形のニューラルネットワーク で統合している。 13

14.

関連研究2:テレビCMのインプレッションの予測 • 認識、好意、購入覚醒、関心のそれぞれの予測値と正解の間の 相関関係は0.73、0.67、0.80、0.63と比較的高く、マルチモーダルデー タを組み合わせることで高い精度が得られることがわかる →そのままオンラインのビデオ広告でもと言いたくなるが… 14

15.

オンラインの動画広告でもいけそうである。しかし… • 本研究での予備実験で先程のモデルをオンライン動画広告にも使用、 そこで得られたCTRの予測精度は低めとなり相関係数は0.487と前頁よ りも寂しい結果となってしまった。 →テレビCMと今回研究対象としているオンラインのビデオ広告では 複数のメタデータでのスケールのばらつきなど性質が違うから →なので予測精度を上げるにはオンラインのビデオ広告の アーキテクチャとハイパーパラメータを最適化する必要がある 15

16.

提案手法 16

17.

提案手法 - 前提事項 • CTRの予測ではCNNを使用 ①ビデオフレーム、メタデータ、及び テキストデータの特徴量は個別に抽出され 完全接続(FC)レイヤーを通過し次元を 固定 ②特徴量のベクトルがAttention Mechanism によって重み付け、マルチモーダルに おける特徴量のベクトルの加重平均が計算 ③この特徴量のベクトルに基づきCTRは ニューラルネットワークにより予測される • 次頁より個別に解説 17

18.

提案手法 - Visual feature extraction - 18

19.

提案手法 - Visual feature extraction • 各ビデオからフレーム間の間隔が同じ になるようにnフレームを抽出。 224×224にサイズを変えResNet50に入力。 最後のレイヤーは削除し非表示レイヤーの 特徴量がわかるようにしつつパラメーター を修正。 • 抽出された特徴量のサイズは Fully Connected(FC)レイヤーによって 2048から256に縮小。 • 過学習を抑制するため特徴量を バッチ正規化(BN)レイヤーによって 正規化。 19

20.

提案手法 - Visual feature extraction • 最後にn個の特徴量のベクトルを取得。 • これらを統合するためにAttention Mechanismは入力ベクトルの重みを計算 し重みに従って15次元の統合された 特徴量として加重平均を計算(右下)。 • Attention Mechanismによりモデルが 特徴量を選択的に使えるので予測精度が 向上。 • アテンションの重みを視覚化することで CTRの予測にどのフレームがより効果的 であるか分析することもできた。 20

21.

提案手法 - Metadata feature extraction - 21

22.

提案手法 - Metadata feature extraction • (A)質的/カテゴリ変数 ワンホットエンコードされ連結した上で FC層とBN層に入力、16次元の 特徴量のベクトルを取得 • (B)量的/連続変数 FC層とBN層に入力し240次元の 特徴量のベクトルを取得。 • 両ベクトルがBN層によりそれぞれ 正規化、連結され次のレイヤーに 入力される。 →256次元の特徴量のベクトルを獲得 22

23.

提案手法 - Text feature extraction - 23

24.

提案手法 - Text feature extraction • テキストデータは、Doc2Vecによって 300次元のベクトルに埋め込む。 • 日本語の形態素解析エンジンである MeCabを使用してテキストを前処理、 2つの単語の間にスペースを含めてから Gensimで実装されたDoc2Vecモデルを訓練 • 埋め込まれたベクトルの合計が 次のレイヤーに入力、256次元の 特徴量のベクトルを得られた • 過学習にならないよう バッチ正規化レイヤーを入れる 24

25.

提案手法 - Integration of multimodal features - 25

26.

提案手法 - Integration of multimodal features • 独自のサイズで正規化された 特徴量のベクトルの加重平均Fは、 広告向けのそれとしてAttention Mechanismにより計算された重み に従い計算された。 • 各ψ(プサイ)はモーダルの特徴量 Fvisual、Fmeta、Ftextを入力として 受け取り、各モーダルの特徴量 βvisual, βmeta, βtextの重みを出力する Attention Mechanismを表す。 26

27.

提案手法 - CTR prediction - 27

28.

提案手法 - CTR prediction • 広告の特徴量のベクトルは FC、BN、ドロップアウト層 に入力(確率は0.5に設定) 最後にFCレイヤーに入力されて1 次元CTRを取得。 • ドロップアウト層の追加には 過学習防止という意図がある。 28

29.

実験 29

30.

実験 - 使用したデータセット • セプテーニ株式会社が事業で 実際に使っていたCTR予測の オンライン動画広告データを使用 • 2018年1月から2019年12月まで FacebookとInstagramで 配信されていたものも含んでいる • 5~30秒に収まらないもの、表示回 数500回未満、クリック回数0のも のを除外した上で 訓練、検証、テストに分割する 30

31.

実験 - 使用したデータセット • 配慮事項 - 将来のCTR予測するという目的に則りデータを 時系列で分割、検証データセットと テストデータセットはトレーニングデータセットより 古くならないようにする - 重複データではメタデータで僅かながら違いが 見られる場合もあるため同じ動画は訓練とテスト用 で分離させない。 • 補足 - データセット内のデータと固有のビデオ数は右上の 表を参照。 - 条件の根拠としてインプレッションが少ないとCTRが 不安定、クリックされなければCTRは自動的に0、右下 の図でもわかる通りビデオはほとんど5〜30秒で固ま ってることが挙げられる。 31

32.

実験 - メタデータ • CTRを予測できるよう3つに分類 - 定性変数 - 定量変数 - テキストデータ • 実際の種類と分類は右の表を 参照 32

33.

実験 - ネットワークトレーニング • 損失関数 : 平均二重誤差 • オプティマイザー : 確率的勾配降下法 • モメンタム : 0.9 • エポック数 : 200 • 全エポックで200回のうちで最小の 平均二乗誤差をスコアリングするモデルを ベストとして採用できるよう検証データセ ットに対し予測を行う。 • CTRで右のように対数変換したものを 学習で使用。 33

34.

結果 34

35.

結果 • 提案手法と各種比較モデルの予測精度は下の表のようになっている。 • 予測精度は二乗平均平方根誤差(RMSE)と相関係数(R)の2つの メトリックを使い評価。 35

36.

結果 - 提案モデル VS ベースライン • これは関連研究の時に言及したテレビCMのインプレッションの予測の事例と精度を競ったもの • 過去の事例にはビジュアルとメタデータしかないので提案手法14と比較、結果として精度の向上が 確認できた。 36

37.

(再掲)関連研究2:テレビCMのインプレッションの予測 • ビデオ広告のインプレッションを推定し15秒のテレビCMのクリック率に影響を 与える要因を分析した事例があり、インプレッション及び感情へ与える 4つの影響要素(認識、好意、購入覚醒、関心)の予測をしている。 インプレッションの推定ではビデオとオーディオ、製品分類や放送パターンといった メタデータをマルチモーダルデータとして下図のような形のニューラルネットワーク で統合している。 37

38.

結果 - 詳細なアブレーション研究(サンプリングフレーム) • サンプリングフレームの数(n)が大きいほど視覚情報が多くなる。 大きすぎると同じ情報が含まれているフレームが多くなりモデルにも影響しかねない。 • モデルの性能はn =10から15で向上するが20に行くと低下してしまう。 ビデオの多くは15秒なので1秒あたり1フレームがちょうどいいということになる。 38

39.

結果 - 詳細なアブレーション研究(モーダル入力の有効性) • モーダル入力の有効性を検証すべくそういった特徴量を無視し訓練 • タイトルや説明といったテキストデータは他のモーダルデータよりも意思決定に及ぼす影響は少ない。 39

40.

結果 - 詳細なアブレーション研究(メタデータの入力を分離する効果) • 量的変数と質的変数を分離しバッチ正規化レイヤーで正規化 • 予測精度の比較で用いられたのは 7.未処理,8.事前に定量的メタデータを正規化,9.事前に正規化してメタデータを分離,15.提案手法でメタデータを分離 • 提案手法が数値データの前処理としてよく使用される正規化プロセスより優れているのが面白い点 40

41.

結果 - 詳細なアブレーション研究(メタデータの入力を分離する効果) • また、過学習を抑制するための層があった方がそうしていない10よりも精度が高い 41

42.

結果 - インプットの特徴と予測精度の相関関係 • 機能の効果を詳細に分析するため定 性的メタデータの相関率と 定量的メタデータの相関係数を測定 • プロモーションIDは結構相関関係が 強かった • サブジャンルやターゲットの年齢( 最大と最小で両方)での相関関係は かなり小さい。 • ほとんどの特徴量は非常に 小さかったりゼロもザラ。 42

43.

結果 - インプットの特徴と予測精度の相関関係 • 特定のメタデータやテキスト 入力の特徴量を無視すると精度 が上がるか調査。 • 入力から各メタデータを除外し 個別にCTRを予測をした結果とし てプロモーションIDを外した場 合の精度の下がり具合が一番大 きいので最も影響が大きいとい うことがわかる。 43

44.

結果 - インプットの特徴と予測精度の相関関係 • 各テキストの特徴量を入力から 除外しCTRを予測。 • 特定の特徴量を無視すると精度 が上がるようである。 • 注意点としてどれを無視 するか事前に指定できないので モデルをデータセットに最適化 するにはどの特徴量を無視 すればいいか調べなくては いけない。 44

45.

結果 • 上図は横軸は広告ID、縦軸はアテンションの 重みを表す積み上げグラフ 青は視覚、オレンジはメタデータ、 緑はテキストのアテンンションの重みを 表す。 • 下の表は各モーダル特徴量の重みの 平均が計算されたものを示している。 メタデータの平均が最も高く、 テキストのそれが最も低かった。 • アテンションの対象としてメタデータに 対する比重が高くCTRに大きく左右する ことがわかる。 45

46.

結果 - データの各モーダル特徴のアテンションの重みの可視化 • テストデータの各フレームの特徴量の アテンションの重みを視覚化 • 上の図で横は広告ID、縦はアテンション の重みをフレーム順に表している。 • 最初のフレームの重みが一番下、 最後のフレームの重みが上。 • 各フレームの特徴量の重みの平均が 計算され、下の表に示されている。 • アテンションがいく傾向が高いのは 1,2,3,7,最後。 • CTRはビデオの最初と最後に大きく左右 されると言える。 46

47.

まとめ • オンライン動画広告のクリック率を予測し何が影響を与えるか分析を する方法を提唱した • テレビCMのインプレッションを予測する方法を用いてネットワーク とパラメータをオンライン動画広告に最適化させている • FC層とBN層にそれぞれ入力する質的変数と量的変数を分離、過学習を 防ぐために正規化層を追加 • 結果として予測精度の観点から0.695の相関係数が得られた • メタデータがCTRに大きく影響しており特にビデオの最初と最後の方 が重要になる 47