【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search Engine Advertising.

>100 Views

May 06, 22

スライド概要

2022/05/06
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP “Aspect-based Analysis of Advertising Appeals for Search Engine Advertising. [DL Papers] (NAACL-HLT 2022)” Yoshifumi Seki http://deeplearning.jp/

2.

書誌情報 ● 投稿先 ○ NAACL-HLT 2022 ● 投稿者 ○ サイバーエージェントと東工大奥村研 ● 選定理由 ○ 広告の魅力に関する分析とモデル化を やっている、 ○

3.

概要 ● ● ● ● ● 広告のテキストはユーザの関心を引くように作らなくてはならないが、業界によって どういうものが魅力的に移るかは変わるはず どうすれば魅力的な広告が作れるかが分かれば、広告作成者の支援になるはず 広告のデータセットを作り、魅力的な部分とそのカテゴリのラベルづけをした 既存モデルをベースに、推定をするモデルを作り、結果を分析して業界ごとに魅力 が異なることを示した CTR予測に組み込んで、性能が向上することを明らかにした

4.

● ● ● 検索連動型広告が対象 赤線のところを特定して、そのカテゴリを選ぶ 何が刺さるかは商材に依存するので、その違いも明らかにしたい

5.

データセット作成 ● 2020.3.1 ~ 2021.2.28までの日本語の広告をGoogle Adsを通して集めた、 782,158件 ○ ● 広告にはタイトル、説明文、LPがあるので、それらを全てad textとして扱う ○ ● LPはHTMLのmeta-descriptionを採用 ■ これは個人的にはあんまり広告的なアピールしてなさそうなのでどうかな〜って思う 広告主ごとの広告の量からなるバイアスを軽減するため、各広告主から5,000の広 告をサンプリングした ○ ● ● どうやってとかは書いてないので、サイバーが事業で入稿したやつとかかもしれない めっちゃ広告出している広告主消したいぐらいかなと予想 15文字以下の広告と、200文字以上のを除いた 34,952のad textsを得た ○ めっちゃ減ってる

6.

データセット作成 ● ● ● 編集距離使って、似てる広告テキストは外し2,738の広告テキストを得た 最終的に666のタイトル、1532のdescription, 440のLP 13の産業カテゴリ ○ ○ EC, Media, Finance, VOD&eBook, Cosmetics, Human resources, Education, Travel, Automobile, Entertainment, Real estate, and Beauty&health カテゴリの定義どうやったかは書いてない、社内的なカテゴリか、 Google Adsの入稿時の設定かな

7.

魅力のラベルを考える ● ● Aspect Labelを2つのstepで定義する 事前分析で、大まかな8つのaspectを発 見した。 ○ ● special deals, quality, problem solving, speed, user-friendliness, limited offers, product lineup, and trend. 次にエキスパートに、これらのラベルに ついて聞いた。 ○ ○ special dealとlimited priceのsubdivideを提 案してくれた。 ■ 例えばspecical dealは割引、ポイン ト、無料、そしてプレゼントに分けられ る。 さらに、largetst/no1 のカテゴリを追加した。 これも大事らしい。

8.

アノテーション ● 広告代理店で働いている6人を雇う。 ○ ● 2,738の広告テキストを、1,100と1,638に分け、それぞれに3人割り当てた ○ ○ ● タスクとしては span(魅力的な区間)とそのラベルづけ 一つのテキストは複数の spanを持ちうる ラベルとアノテーションについて1時間のレクチャーをした ○ ○ ● ● ● おそらく社員、なのでクラウドソーシングとかをやるときに書かれるような時給とかセレクションの方 法などの記載はなし 最初30個annotationしてもらって、質問に答える時間を設けた。 アノテーションの途中も難しいケースがあったときは追加の質問を受け付け、その回答は共有した が、ほとんどなかった 2人以上が一致したラベルだけ採用。全体で42時間かかった、平均で55.2秒 一つの広告テキストに1.54のラベルがついてる アノテータ間の一致率をkappa相関係数とF1スコアでみた ○ k=0:612; F1 = 0:451、比較的高い

10.

ラベル推定モデル ● Span-Based Model ○ ○ Spanになる区間を推定して、そこにラベルをつける2段階のモデル ラベルは複数持ちうるとしてマルチクラスになってる

11.

ラベル推定モデル ● Doc-Based Model ○ ○ シンプルなBERTによる文書分類モデル Spanの誤りが与えるインパクトがどのぐらいあるのかを検討したいため

12.

実験設定 ● Label推定タスク ○ ● 1,857 samples for training, 465 for development, and 410 for testing CTR分析 ○ ○ Google Adsのデータ ■ テキスト、入稿ワード、 CTR ● CTRのデータがあるので、まず間違いなく社内データ 168,412の広告とキーワードのペア

13.

ラベル推定 ● Span-basedにOracleモデルを追加 ○ ● 原則DocBaseの方が強い ○ ● spanが正しいものだったときと考えた場合のモデ ル span推定は難しいタスクである ■ おそらくデータセットの不足が大きそう No1とか無料とかは特定しやすい ○ ○ 一方で、problem solvingは特定できてない

15.

産業カテゴリごとのCTRとの相関

16.

CTR予測 ● BERTのCTR予測 ○ ○ ● 入力するのは、広告テキスト、入稿した検索キーワード 予測したラベルを入力に加える spanベース加えてもdocベース加えても性能向上、docベースの方が良い

17.

まとめ ● ● DL感少なくてすみません、、、 言われれば当たり前っぽいところですが、ちゃんとデータ作って評価したのはえらい ○ ● 多分データ増やせばもう少しできること増えそうだけど、そのコストが高いので、そ の辺りをもっといい感じにできるといいんですかね。 ○ ○ ● 営業資料的には使えそう 例えばspanで検索して一致するものはそのまま spanにしちゃうとか? そうなるとデータセット中の spanに現れているものに過学習して大変そう