705 Views
March 18, 19
スライド概要
言語処理学会年次大会(NLP2019) F1-1 ウェブ検索クエリに対する周辺語を考慮した教師なしエンティティリンキング の資料です。 http://www.anlp.jp/nlp2019/program.html#day1
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
ウェブ検索クエリに対する 周辺語を考慮した エンティティリンキング 2019年3⽉6⽇ 豊⽥樹⽣, 夜久真也, ⽯川葉⼦, ⼟沢誉太, Kulkarni Kaustubh Bhattacharjee Anupam, 宰川潤⼆ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
⽬次 • はじめに -2つのRQ(リサーチクエスチョン)- • 提案⼿法 • • • • 実験結果 • • • • 概要 クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) エンティティ-周辺語モデル クエリ分類 (RQ1の結果) 評価⽤事例作成 再現率-適合率, F1値 (RQ2の結果) まとめと今後の課題 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2
はじめに -2つのRQウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは ガリレオ 競⾛⾺ 検索 ガリレオ 天⽂学者 検索 1. エンティティクエリ (エンティティ⾃⾝が回答になるようなクエリ) における周辺語の違いを考慮して 主要語(ガリレオ)のエンティティを判断 2. エンティティリンキングできると 知識パネルを提⽰できる Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ガリレオ・ガリレイ ガリレオ・ガリレイは、 イタリアの物理学者、天⽂学者、哲学者。 出⾝地: ピサ 死没⽇: 1642年 1⽉ 8⽇ 3
はじめに -2つのRQウェブ検索クエリに対する周辺語を考慮したエンティティリンキングとは 検索 ガリレオ 競⾛⾺ 全体のうちのどれだけのクエリで 知識パネルが提⽰できるんだろう? 検索 ガリレオ 天⽂学者 1. エンティティクエリ (エンティティ⾃⾝が回答になるようなクエリ) における周辺語の違いを考慮して 主要語(ガリレオ)のエンティティを判断 ガリレオ・ガリレイ RQ1: クエリ全体に占める ガリレオ・ガリレイは、 イタリアの物理学者、天⽂学者、哲学者。 エンティティクエリの割合はどの程度か? 2. エンティティリンキングできると 知識パネルを提⽰できる Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 出⾝地: ピサ 死没⽇: 1642年 1⽉ 8⽇ 4
はじめに -2つのRQ従来⼿法の課題: エンティティ-周辺語の類似度計算に word2vecを利⽤できない場合がある (Blanco 2015) ガリレオ 天⽂学 ガリレオ 天⽂学者 検索 類似度( , 天⽂学 検索 類似度( , 天⽂学者 形態素解析の精度によっては word2vecによる分散表現が得られない Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. )=0.5 )=? イタリア の 物理 学者 、 天⽂学 者 5
はじめに -2つのRQ従来⼿法の課題: エンティティ-周辺語の類似度計算に 形態素解析がなかったら word2vecを利⽤できない場合がある (Blanco 2015) どれだけ精度が良くなるんだろう? ガリレオ 天⽂学 検索 類似度( , 天⽂学 )=0.5 検索 類似度( , )=? RQ2: 形態素解析の必要のないモデルを⽤いることで 従来⼿法よりどの程度性能が改善されるか? 形態素解析の精度によっては ガリレオ 天⽂学者 word2vecによる分散表現が得られない Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 天⽂学者 イタリア の 物理 学者 天⽂学 者 6
⽬次 • はじめに -2つのRQ- • 提案⼿法 • • • • 実験結果 • • • • 概要 クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) エンティティ-周辺語モデル クエリ分類 評価⽤事例作成 再現率-適合率, F1値 まとめと今後の課題 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 7
提案⼿法 –概要クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 エンティティe1,e2… ガリレオ・ガリレイ クエリq ガリレオ 天⽂学者 (𝐞, 𝒔𝒔 , 𝒔𝒄 )∗ = eにおける周辺語scの仮想⽂書 検索 .∈𝐄1 ,(𝒔𝒔 ,𝒔𝒄 )∈21 𝐏 𝐞𝐪 × クエリqからエンティティe への関連の強さ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 名⾔ ・・・ バンド youtube ガリレオ・ガリレイ ・・・ argmax 天⽂学者 ・・・ ・・・ 𝐏 𝒔𝒄 𝐞 エンティティeから周辺語sc への関連の強さ 8
提案⼿法 –概要クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 エンティティe1,e2… クエリq 確率最⼤の候補: 検索 eにおける周辺語scの仮想⽂書 ガリレオ・ガリレイ ガリレオ 天⽂学者 (e= 天⽂学者 名⾔ ・・・ バンド youtube , ss=”ガリレオ”, sc=“天⽂学者”) ・・・ ガリレオ・ガリレイ ・・・ (𝐞, 𝒔𝒔 , 𝒔𝒄 )∗ = 確率の低い、バンドの⽅は選択されない argmax 𝐏 𝐞 𝐪 × 𝐏 𝒔𝒄 𝐞 ・・・ .∈𝐄1 ,(𝒔𝒔 ,𝒔𝒄 )∈21 クエリqからエンティティe への関連の強さ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. エンティティeから周辺語sc への関連の強さ 9
⽬次 • はじめに -2つのRQ(リサーチクエスチョン)- • 提案⼿法 • • • • 実験結果 • • • • 概要 クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) エンティティ-周辺語モデル クエリ分類 (RQ1の結果) 評価⽤事例作成 再現率-適合率, F1値 (RQ2の結果) まとめと今後の課題 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 10
再掲 提案⼿法 –概要- クエリ-エンティティモデル クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 エンティティe1,e2… ガリレオ・ガリレイ クエリq ガリレオ 天⽂学者 (𝐞, 𝒔𝒔 , 𝒔𝒄 )∗ = eにおける周辺語scの仮想⽂書 検索 .∈𝐄1 ,(𝒔𝒔 ,𝒔𝒄 )∈21 𝐏 𝐞𝐪 × クエリqからエンティティe への関連の強さ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 名⾔ ・・・ バンド youtube ガリレオ・ガリレイ ・・・ argmax 天⽂学者 ・・・ ・・・ 𝐏 𝒔𝒄 𝐞 エンティティeから周辺語sc への関連の強さ 11
クエリ-エンティティモデル クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの ガリレオ・ガリレイ ガリレオ・ガリレイ ガリレオ 天⽂学者 検索 ガリレオ ガリレオ・ガリレイ 実に⾯⽩い クエリ補完モデル FEL (Blanco2015) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ガリレオ (ドラマ) ・・・ 12
再掲 クエリ-エンティティモデル クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの ガリレオ・ガリレイ ガリレオ・ガリレイ ガリレオ 天⽂学者 検索 ガリレオ ガリレオ・ガリレイ 実に⾯⽩い クエリ補完モデル FEL (Blanco2015) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ガリレオ (ドラマ) ・・・ 13
クエリ補完モデル クエリ補完モデル: 主要語ssから正式名称sへの遷移確率を持つモデル クリックログcqでの(正式名称s,主要語ss,周辺語sc)の共起頻度 遷移のしにくさを決めるパラメータα 𝑷 𝒔 𝒔𝒔 , 𝒔𝒄 = α ⾼: “ガリレオ”から 遷移しにくい ガリレオ 天⽂学者 検索 𝒏 𝒔, 𝒔𝒔 , 𝒔𝒄 , 𝒄𝒒 + 𝜶𝑰(𝒔=𝒔𝒔 ) ∑𝒔@∈{𝒔𝒔 }∪𝑺(𝒔 𝒔 ,𝒔𝒄 𝑰(𝒔@=𝒔𝒔 ) ) (𝒏 𝒔′, 𝒔 , 𝒔 , 𝒄 + 𝜶 𝒔 𝒄 𝒒 ) α 低: “ガリレオ”から 遷移しやすい ガリレオ 天⽂学者 検索 ガリレオ・ガリレイ ・・・ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 14
再掲 クエリ-エンティティモデル クエリ-エンティティモデル: クエリ補完モデル と FEL を組み合わせたもの ガリレオ・ガリレイ ガリレオ・ガリレイ ガリレオ 天⽂学者 検索 ガリレオ ガリレオ・ガリレイ 実に⾯⽩い クエリ補完モデル FEL (Blanco2015) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. ガリレオ (ドラマ) ・・・ 15
FEL (Blanco 2015) FEL: 正式名称sがエンティティeを参照する確率を持つモデル 情報元(Wikipedia or クリックログ)の重要度 Commonness(CMNS) キーフレーズ度合い Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 16
FEL (Blanco 2015) 情報元(Wikipedia or クリックログ)の重要度 𝒏(𝒔, 𝒄) 𝑷 𝒄𝒔 = |𝑪| + ∑𝒄@ 𝒏(𝒔, 𝒄′) あるセグメントsが⽣起しやすい情報元はどちらか Commonness(CMNS) キーフレーズ度合い Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 17
FEL (Blanco 2015) キーフレーズ度合い 𝑷 𝒂𝒔 = 𝟏 𝒄, 𝒔 = ∑𝒔:𝒂𝒔=𝟏 𝒏(𝒔, 𝒄) 𝒏(𝒔, 𝒄) あるセグメントsにどれだけリンクがあるか ・・・ [[ガリレオ・ガリレイ]] にちなんで命名 されているが、それは彼がこの温度計が基礎を Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. Commonness(CMNS) 18
FEL (Blanco 2015) Commonness(CMNS) 𝑷(𝒆|𝒂𝒔 = 𝟏, 𝒄, 𝒔) = ∑𝒔:𝒂𝒔,𝒆 =𝟏 𝒏(𝒔, 𝒄) ∑𝒔:𝒂𝒔=𝟏 𝒏(𝒔, 𝒄) あるセグメントsが どれだけエンティティeを参照しているか クリックログの例 ガリレオ・ガリレイ 検索 セグメントs タイトルA - サイトA エンティティe Entity_A XXXXは、 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 19
⽬次 • はじめに -2つのRQ(リサーチクエスチョン)- • 提案⼿法 • • • • 実験結果 • • • • 概要 クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) エンティティ-周辺語モデル クエリ分類 (RQ1の結果) 評価⽤事例作成 再現率-適合率, F1値 (RQ2の結果) まとめと今後の課題 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 20
再掲 提案⼿法 –概要- クエリ-エンティティモデル と エンティティ-周辺語モデルを組み合わせ、確率最⼤の候補を選択 エンティティ-周辺語モデル エンティティe1,e2… ガリレオ・ガリレイ クエリq ガリレオ 天⽂学者 (𝐞, 𝒔𝒔 , 𝒔𝒄 )∗ = eにおける周辺語scの仮想⽂書 検索 .∈𝐄1 ,(𝒔𝒔 ,𝒔𝒄 )∈21 𝐏 𝐞𝐪 × クエリqからエンティティe への関連の強さ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 名⾔ ・・・ バンド youtube ガリレオ・ガリレイ ・・・ argmax 天⽂学者 ・・・ ・・・ 𝐏 𝒔𝒄 𝐞 エンティティeから周辺語sc への関連の強さ 21
エンティティ-周辺語モデル エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル LDAの推定したエンティティeにおける 周辺語scの⽣成確率 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 22
エンティティ-周辺語モデル エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 1. クリックログから周辺語を取得 ガリレオ 天⽂学 検索 ガリレオ 天才 検索 タイトルA - サイトA Entity_A XXXXは、 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 23
エンティティ-周辺語モデル エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2. 周辺語で構成される仮想⽂書を⽣成 天⽂学 天⽂学者 天才 温度計 名⾔ ピサ 天動説 地動説 … 24
エンティティ-周辺語モデル エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 3. LDAを適⽤し、トピックの分布を推定 天⽂学 天⽂学者 温度計 望遠鏡 天動説 地動説 … 25
エンティティ-周辺語モデル エンティティ-周辺語モデル: エンティティe における周辺語scの⽣起確率を持つモデル 周辺語のつきやすさを⽰す係数β 値の区間 [0.0, 1.0] Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 4. トピックの分布の類似度で確率算出 topic 1 topic 1 topic 122 topic 122 𝑃MNO 天⽂学者 “天⽂学者” = 0.30 26
⽬次 • はじめに -2つのRQ (リサーチクエスチョン)- • 提案⼿法 • • • • 実験結果 • • • • 概要 クエリ-エンティティモデル • クエリ補完モデル • FEL (Blanco 2015) エンティティ-周辺語モデル クエリ分類 (RQ1の結果) 評価⽤事例作成 再現率-適合率, F1値 (RQ2の結果) まとめと今後の課題 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 27
実験結果: クエリ分類 対象:2018年12⽉01⽇~12⽉14⽇にYahoo!検索に発⾏されたクエリ 1. 上記のうち9,542クエリ(10,000PVs)を抽出。 2. うち約23%の2,020(2,257 PVs)クエリをエンティティクエリと判定。 エンティティクエリの例: Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 28
実験結果: RQ1 RQ1: クエリ全体に占める エンティティクエリの割合はどの程度か? Answer: 約23% Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 29
実験結果: 評価⽤事例作成 1. 先ほど抽出したクエリのうち1,915例に対して、参照しうるエンティティを付与し組を⽣成 2. この組に対して関連度に応じてスコア(1.0, 0.5, 0.0)を付与。 クエリ エンティティ スコア 深田恭子 深田恭子 (女優) 1.0 フミヤ 藤井フミヤ (ミュージシャン) 1.0 ミッドランドスクエアシネマ 名古屋 ミッドランドスクエアシネマ (映画館) 1.0 ディスカウントドラッグコスモス コスモス薬品 (会社) 0.5 ブランドと運営会社の違い 有馬記念 2018 有馬記念 0.5 エンティティの範囲が広い 笠森 ユートピア 笠森寺 (寺院) 0 適切な回答は宿泊施設 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 備考 30
実験結果: 再現率-適合率 対象:前述の評価⽤事例を使⽤ 評価指標:各再現率点での重み付き適合率@1 総合○ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 総合○ 再現率○ 31
実験結果: F1値 対象:前述の評価⽤事例を使⽤ F1値: 提案⼿法が FELを+0.123上回った Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 32
実験結果: RQ2 RQ2: 形態素解析の必要のないモデルを⽤いることで 従来⼿法よりどの程度性能が改善されるか? Answer: F1値で+0.123 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 33
まとめと今後の課題 • 周辺語を考慮したエンティティリンキング⼿法を提案 • RQ1: エンティティクエリの占める割合は? • • RQ2: 形態素解析の必要のないモデルを⽤いることで従来⼿ 法よりどの程度性能が改善されるか? • • 約23%がエンティティクエリ 提案⼿法はF1値0.839(+0.123)を達成した 今後の課題:モデル毎の最適化ではなく全体で最適化する Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 34
画像提供元およびライセンス • • 画像提供元: アフロ • 画像の種類 • License: • ガリレオ・ガリレイ (天⽂学者) • アフロ社とヤフー社のライセンス契約に基づく 画像提供元: Twemoji( https://github.com/twitter/twemoji ) • 画像の種類 • License: • Thinking Face • Code licensed under the MIT License: http://opensource.org/licenses/MIT Graphics licensed under CC-BY 4.0: https://creativecommons.org/licenses/by/4.0/ • Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 35
画像提供元およびライセンス • 画像提供元: いらすとや( https://www.irasutoya.com/ ) • 画像の種類 • License • • • • • • • • ⾼いハードルのイラスト(男性) 低いハードルのイラスト(男性) バンドミュージシャンのイラスト ⼈差し指を⽴てた⼿のイラスト(掌・甲) 紙テープを読む科学者のイラスト “商⽤⽬的の場合、⼀つの作成物の中に20点までは無料でご利 ⽤いただけます。” https://www.irasutoya.com/p/faq.html https://www.irasutoya.com/p/terms.html Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 36