【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search Engine Advertising.

129 Views

May 06, 22

#Deep Learning #Advertising Analysis #Aspect-based Analysis #Data Set Creation #CTR Prediction

スライド概要

2022/05/06
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 88.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 61.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 41.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 40.9K

各ページのテキスト

DEEP LEARNING JP “Aspect-based Analysis of Advertising Appeals for Search Engine Advertising. [DL Papers] (NAACL-HLT 2022)” Yoshifumi Seki http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● 投稿先 ○ NAACL-HLT 2022 ● 投稿者 ○ サイバーエージェントと東工大奥村研 ● 選定理由 ○ 広告の魅力に関する分析とモデル化をやっている、 ○

概要 ● ● ● ● ● 広告のテキストはユーザの関心を引くように作らなくてはならないが、業界によってどういうものが魅力的に移るかは変わるはずどうすれば魅力的な広告が作れるかが分かれば、広告作成者の支援になるはず広告のデータセットを作り、魅力的な部分とそのカテゴリのラベルづけをした既存モデルをベースに、推定をするモデルを作り、結果を分析して業界ごとに魅力が異なることを示した CTR予測に組み込んで、性能が向上することを明らかにした

● ● ● 検索連動型広告が対象赤線のところを特定して、そのカテゴリを選ぶ何が刺さるかは商材に依存するので、その違いも明らかにしたい

データセット作成 ● 2020.3.1 ~ 2021.2.28までの日本語の広告をGoogle Adsを通して集めた、 782,158件 ○ ● 広告にはタイトル、説明文、LPがあるので、それらを全てad textとして扱う ○ ● LPはHTMLのmeta-descriptionを採用 ■ これは個人的にはあんまり広告的なアピールしてなさそうなのでどうかな〜って思う広告主ごとの広告の量からなるバイアスを軽減するため、各広告主から5,000の広告をサンプリングした ○ ● ● どうやってとかは書いてないので、サイバーが事業で入稿したやつとかかもしれないめっちゃ広告出している広告主消したいぐらいかなと予想 15文字以下の広告と、200文字以上のを除いた 34,952のad textsを得た ○ めっちゃ減ってる

データセット作成 ● ● ● 編集距離使って、似てる広告テキストは外し2,738の広告テキストを得た最終的に666のタイトル、1532のdescription, 440のLP 13の産業カテゴリ ○ ○ EC, Media, Finance, VOD&eBook, Cosmetics, Human resources, Education, Travel, Automobile, Entertainment, Real estate, and Beauty&health カテゴリの定義どうやったかは書いてない、社内的なカテゴリか、 Google Adsの入稿時の設定かな

魅力のラベルを考える ● ● Aspect Labelを2つのstepで定義する事前分析で、大まかな8つのaspectを発見した。 ○ ● special deals, quality, problem solving, speed, user-friendliness, limited offers, product lineup, and trend. 次にエキスパートに、これらのラベルについて聞いた。 ○ ○ special dealとlimited priceのsubdivideを提案してくれた。 ■ 例えばspecical dealは割引、ポイント、無料、そしてプレゼントに分けられる。さらに、largetst/no1 のカテゴリを追加した。これも大事らしい。

アノテーション ● 広告代理店で働いている6人を雇う。 ○ ● 2,738の広告テキストを、1,100と1,638に分け、それぞれに3人割り当てた ○ ○ ● タスクとしては span(魅力的な区間）とそのラベルづけ一つのテキストは複数の spanを持ちうるラベルとアノテーションについて1時間のレクチャーをした ○ ○ ● ● ● おそらく社員、なのでクラウドソーシングとかをやるときに書かれるような時給とかセレクションの方法などの記載はなし最初30個annotationしてもらって、質問に答える時間を設けた。アノテーションの途中も難しいケースがあったときは追加の質問を受け付け、その回答は共有したが、ほとんどなかった 2人以上が一致したラベルだけ採用。全体で42時間かかった、平均で55.2秒一つの広告テキストに1.54のラベルがついてるアノテータ間の一致率をkappa相関係数とF1スコアでみた ○ k=0:612; F1 = 0:451、比較的高い

10.

ラベル推定モデル ● Span-Based Model ○ ○ Spanになる区間を推定して、そこにラベルをつける２段階のモデルラベルは複数持ちうるとしてマルチクラスになってる

11.

ラベル推定モデル ● Doc-Based Model ○ ○ シンプルなBERTによる文書分類モデル Spanの誤りが与えるインパクトがどのぐらいあるのかを検討したいため

12.

実験設定 ● Label推定タスク ○ ● 1,857 samples for training, 465 for development, and 410 for testing CTR分析 ○ ○ Google Adsのデータ ■ テキスト、入稿ワード、 CTR ● CTRのデータがあるので、まず間違いなく社内データ 168,412の広告とキーワードのペア

13.

ラベル推定 ● Span-basedにOracleモデルを追加 ○ ● 原則DocBaseの方が強い ○ ● spanが正しいものだったときと考えた場合のモデル span推定は難しいタスクである ■ おそらくデータセットの不足が大きそう No1とか無料とかは特定しやすい ○ ○ 一方で、problem solvingは特定できてない

14.

15.

産業カテゴリごとのCTRとの相関

16.

CTR予測 ● BERTのCTR予測 ○ ○ ● 入力するのは、広告テキスト、入稿した検索キーワード予測したラベルを入力に加える spanベース加えてもdocベース加えても性能向上、docベースの方が良い

17.

まとめ ● ● DL感少なくてすみません、、、言われれば当たり前っぽいところですが、ちゃんとデータ作って評価したのはえらい ○ ● 多分データ増やせばもう少しできること増えそうだけど、そのコストが高いので、その辺りをもっといい感じにできるといいんですかね。 ○ ○ ● 営業資料的には使えそう例えばspanで検索して一致するものはそのまま spanにしちゃうとか？そうなるとデータセット中の spanに現れているものに過学習して大変そう