PH3-12 複数意図のエンティティクエリに対する絞り込み検索のためのクエリ生成法の提案

タグ nlp2022

スライド概要

言語処理学会第28回年次大会(NLP2022)

profile-image

Yahoo!デベロッパーネットワーク

@ydnjp

作者について:

エンジニア・デザイナー向けのヤフー公式アカウント。イベント/登壇情報/ブログ記事など、ヤフーの技術・デザインに関わる情報を発信します。

スライド一覧
シェア
埋め込む»CMSなどでJSが使えない場合

公開日

2022-05-11 19:41:00

各ページのテキスト

1. [beta]

PH3-12

複数意図のエンティティクエリに対する絞り込み検索のためのクエリ生成法の提案

はじめに

豊田 樹生, 齋藤 純, 小松 広弥, 熊谷 賢, 菅原 晃平
ヤフー株式会社
{itoyota, junsait, hkomatsu, kenkumag, ksugawar}@yahoo-corp.jp

提案手法

動機: ウェブ検索ではしばしば複数意図を持つエンティティクエリが発行される
意図に対応した絞り込み検索をできるようにして検索体験を向上させたい
ゆるキャン△ 検索

・・・
漫画

森麻季

クエリの組
(順位付け対象)

検索

・・・
歌手

アニメ

正例生成器

アナウンサー

生成器1

問題設定: 元クエリに対して、再検索クエリの順位付けされたリストを生成する

挑戦的課題:
①意図の絞り込みでない再検索の除外: GOOD: ディーゼル → ディーゼルエンジン BAD: 東京 → 東京タワー
②知識外の再検索候補の順位付け: 再検索候補が知識ベースに未登録の場合がある 例: RHP → バイトルRHP

…

順位付け用
検索ログ

ラベル未付与事例生成器

生成器M

生成器1

…

生成器N

■正例生成器:2種類のエンティティリンカー(EL)、CRRの差で設定
素性抽出用と順位付け用の2種類の検索ログを取得する
元クエリ・再検索クエリの組(発行時間差30秒以内)を取得する

 本研究の貢献点
• エンティティクエリに対する絞り込み検索のための再検索クエリの生成方法を提案
検索ログに蓄積された元クエリ・再検索クエリへの順位付け結果を利用する
• 訓練事例の自動生成法を提案
複数のラベル生成器を用いて訓練事例を自動生成し、PU学習を行えることを示す
• 単独のラベル生成器よりもF値が4.4ポイント向上したことを報告
Random Forestによる学習を行い順位付けをおこなう
クエリのCRR(Cumulative Reciprocal Rank)の差を単独利用した場合と比較を行う

元クエリ
検索
山頭火

ゲイツ
元クエリ

【知識ベース】ID=1000
正式名称: ビル・ゲイツ

回帰器

参照用
素性

ヴァンパイア 検索

予測結果

素性抽出用
検索ログ

検索

ヴァンパイア 歌詞 検索
検索

向陽高校 名古屋

② クエリの組へのELによる生成器

r(qb,d):qbに対する文書dの順位

(ゆるキャン△, ゆるキャン△ アニメ) の生成例

(天神, 福岡天神) の生成例

レガシー

検索

≦30秒

元クエリ
ID=5000

検索

スバルレガシー

?

■ 比較手法

参照用素性:2021年11月01日~30日の期間のログを利用
DCRR:素性抽出用ログの期間のΔCRRの値を適用
順位付け対象事例(R):2021年12月17日~23日の期間のログを利用
しきい値を1.5に設定
内製エンティティリンカー:2021年12月01日付のモデルを利用
RF:Random ForestによりPU学習を行った
評価事例:Rのうち元クエリがあいまいさ回避と対応し、
対応する再検索クエリの異なり数が50以上の事例
2022年1月5日にヤフー検索に対して元クエリを発行
対応する再検索クエリに対して1)クエリの要件を満たすか否か
2)検索結果の文書と対応するか否か の条件を考慮して
スコア1.0, 0.5, 0.0を付与した
例(下線部は元クエリ)
向陽高校 名古屋, 海鮮三崎港
ヴァンパイア 歌詞, ニャンコ先生 グッズ
再現率@3
0.298
0.421(+0.123)

 今後の課題

F値
0.394
0.438(+0.044)

■ラベル未付与事例生成器:3種類の生成器を設定
①‘ 元クエリがあいまいさ回避ページと対応する事例をラベル未付与とする生成器
②‘ ②で正例判定されず、IDが異なり、周辺語を含まない事例をラベル未付与とする生成器
③‘ ③で正例と判定されなかった事例をラベル未付与とする生成器

4. PU学習により順位付け
① ラベル未付与事例への確率付与

Embedding(qa):元クエリの分散表現
Embedding(qb):再検索クエリの分散表現
など

ShiftedPositivePMI(ヴァンパイア, ゲーム)
= max(PMI(ヴァンパイア, ゲーム) - logk, 0)

WSVD=U∑

クエリの組に対して抽出済みの素性を適用する
テスト用と訓練用に分割し、
ラベル未付与事例に確率を付与する(下図)
テスト用と訓練用を入れ替えて同じ操作を行う

未

X

U

∑

■ ΔCRR
Randomized SVD
DeltaCRR(qa, qb):ΔCRRのスコア
DeltaCRRRatio(qa, q b): ΔCRR算出時に利用した延べ文書数の比率
など

知識外の花鳥風月(ビール)を順位付けできた
周辺語を含まない部分一致の種田山頭火を順位付けできた
元クエリ 順位付け結果
花鳥風月 DCRR:“花鳥風月 意味”
RF:“花鳥風月 意味”, “花鳥風月 歌詞”, “花鳥風月 ビール”
山頭火
DCRR:“山頭火 ラーメン”
RF:“山頭火 ラーメン”, “山頭火 カップラーメン”, “種田
山頭火”

正

V*

テスト

訓練

正未の予測器(RF)生成後
正例だけを使って
定数cを求める

正

未

≈

P: 正例の集合
s: ラベルの有無
n: Pの事例数
0.6
1

0.1
0.8

1

定数cを利用して
“未”の事例に確率をつける

■ 検索補助の状況
Assist(qa):元クエリに対する検索補助の状況
Assist(qa, qb):元クエリと再検索クエリが連続して発行された時の検索補助の状況
など

・重要度が高い順にΔCRR, 検索補助の状況, クエリの分散表現
・クエリの分散表現は上位25件には入らなかった
・ ΔCRR自身より算出に要した延べ文書数の比率の方が重要だった

• 正例生成器から取得されうる偽陽性の事例の除外
クエリの種類(アトリビュートクエリ、タイプクエリなど)の判定との併用
意図的な絞り込みのための再検索と偶発的で絞り込みでない再検索の識別の改善 など
画像の出典:いらすとや(irasutoya.com)

値の条件、算出時の延べ文書数の比率など
複数条件を満たす

未

■ 実例

■ 評価手順・結果(適合率@3, 再現率@3, F値)

元クエリ 再検索クエリ
値の条件:
0 < ΔCRR(天神, 福岡天神) ≦ 1.5

再検索クエリ
ID=5002

IDが異なる、メディア作品間の遷移など
複数条件を満たす

クエリの分散表現、ΔCRR、検索補助の状況に基づく素性を抽出する

 素性の重要度の分析

天神 → 福岡天神

ゆるキャン△ → ゆるキャン△ アニメ

■ クエリの分散表現

■ データセット

Db:再検索クエリqbによってクリック
されうる文書の集合
r(qa,d):元クエリqaに対する文書dの順位

元クエリと正式名称が部分一致する

結果と今後の課題

手法 適合率@3
DCRR 0.581(+0.124)
RF
0.457

再検索クエリ
検索
山頭火 ラーメン

3. 素性抽出用検索ログから素性の抽出

 評価結果

③ CRRの差による生成器

① 元クエリへのELによる生成器
(ゲイツ, ビル・ゲイツ) の生成例

向陽高校

クエリの要件
適合
違反

2. 順位付け用検索ログから正例・ラベル未付与事例を生成

1. 検索ログを取得

② ①で確率付与後、回帰器を学習・適用
テスト用と訓練用に分割し、回帰器を学習・適用する
テスト用と訓練用を入れ替えて同じ操作を行う
各テスト用側に付与された確率を順位付けに用いる
検索窓
利用/非利用/不明

検索窓下
利用/非利用/不明

テスト
ユーザ履歴経由/それ以外

訓練