クエリログとスニペットの単語連接頻度に基づく Web検索クエリのセグメンテーション

>100 Views

March 29, 11

#クエリセグメンテーション #Web検索 #自然言語処理 #機械学習 #SVM

スライド概要

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 192.7K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.2K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 82K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 43.1K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.4K

各ページのテキスト

クエリログとスニペットの単語連接頻度に基づく Web 検索クエリのセグメンテーション三宅純平颯々野学塚本浩司ヤフー株式会社 {jmiyake, kotsukam, msassano}@yahoo-corp.jp 1 はじめにいる．クエリセグメンテーションにおいて最も簡潔な手法 Web 検索サービスでは，入力されるクエリが適切にセグメンテーションされていないことが原因で，検索としては，クエリを形態素解析で分割し，クエリカウ精度の劣化が起こることが観察されている．特にゲーいて分割位置を推定する手法が考えられる．しかしなム名などのカタカナ文字列は，連続した 1 語として扱がら，日本語は英語とは違い，分かち書きがされていわれることが多く，検索精度の劣化の原因となる．そないため，新語や流行語（複合語）などの未知語が多のため，クエリのセグメンテーション誤りの対策としく含まれる Web 検索クエリへの対応を考えると上記て，人手の精査により未知語や複合語の辞書更新で誤の方法では適切なセグメント位置の推定は難しい．ントやウェブカウントから求めた何らかの尤度に基づり訂正が行われることが多い．しかしながら，これらは非常にコストのかかる作業であり，クエリセグメンテーションの自動化への要求は高い．クエリログとスニペットの単語連 3 そこで，本稿では検索精度の改善を目的として，ク接に基づくクエリセグメンテーシエリログとスニペットの単語連接頻度に基づくクエリョンセグメンテーションの手法を提案する．また，セグメンテーションしたクエリコーパスを学習データとして SVM の点推定手法を用いたセグメンテーターの実用性に関しても評価した．ここではまず，クエリログにおけるアンド検索のスペース位置の分析結果について述べる，次に検索精度が改善するクエリのセグメンテーション手法を提案する． 2 関連研究 Bergsma ら [1] は，様々な二値の素性や単語および 3.1 ユーザが入力するクエリの傾向単語連接の対数頻度，境界前後の単語を素性として，クエリログの分析では，クエリログからデリミター SVM による意味の境界を推定する手法の提案をした．この手法は従来手法である相互情報量による境界推定を削除した時に同一となる異なりセグメント位置を持より大幅な精度改善が報告されており，現段階においト位置の傾向について分析した．デリミターは空白とて最も精度高い手法とされている．Tan ら [2] は大規中黒「・」とした．クエリセットの例を表 1 に示す．模な Web コーパスから構築した単語 5-gram 言語モデクエリログの分析より得た知見を以下にまとめる．ルを用いて意味の境界を推定する手法を提案した．まつクエリの抽出を行ない，ユーザが入力するセグメン最頻クエリの傾向た，Wikipedia のタイトルやアンカーテキストをコー最頻クエリには，「無料動画」などのようなクエリ特パスに含めることで大幅な精度改善が報告されている．有の複合語が多い．また，口語表現で使われるフレー Wang ら [3] は，Microsoft Web N-gram コーパスを用ズがそのまま入力されることがある．例えば，クエリいた言語モデルによる単語分割において，タイトルや「めざまし占い」は，実際の正式名称は「めざましテレアンカーテキストだけを用いたモデルが Web 全体のビ・今日の占い CountDown」であり，入力クエリとコーパスを用いることより精度が高いことを報告して

異なりセグメント位置を表 1: クエリログから抽出した異なりセグメント位置を持つクエリセットの例クエリ頻度占有率シェラトングランデ東京ベイ 0.915 シェラトン■グランデ■東京ベイ 0.03 0.02 0.013 シェラトングランデ■東京ベイシェラトン■グランデ■東京■ベイシェラトン・グランデ・東京ベイ ... 0.011 ... 持つクエリの抽出シェラトングランデ東京ベイシェラトン■グランデ■東京ベイクエリログシェラトン■グランデ■東京■ベイ頻度か言語モデルを基準に，スニペットの単語連接頻度に基づいて適切なセグメント数の多いクエリを選択するクエリのセグメント位置を推定シェラトン■グランデ■東京ベイシェラトン■グランデ■東京■ベイ図 1: 検索精度が改善するセグメント位置の推定要求する文書に含まれる表現とが異なることがある．カタカナ文字列における中黒「・」エリセグメンテーションが行われる．われわれは提案手法の 1 段目であるセグメント数カタカナ文字列は，複数の単語が繋がるものでも連続の多いクエリを選択する手法として，以下の 2 つの手した 1 語として入力される傾向が高い．また，デリミ法を用いた．ターとして空白の代わりに中黒「・」が挿入されてい最多セグメント数による選択ることが多く，これは正しいセグメント位置であるこ最多セグメント数による選択は，ヒューリスティックなとが多い．方法である．異なりセグメント位置を持つクエリセッ英数字文字列トから頻度占有率 0.1% 以上のものを対象に最もセグ英語文字列の最頻クエリは，正しくセグメントされてメント数の多いクエリを選択する．セグメント数の同いることが多い．また「iphone4，iphone 4」のようじクエリが複数ある場合は頻度占有率の高いクエリをな型番を含むクエリは，カタカナ文字列の場合と比べ選択する．て，スペース位置が検索ランキングに大きく影響する言語モデル尤度による選択ことが確認された．言語モデル尤度による選択では，クエリセットから文字 3-gram 言語モデルの尤度を用いて最尤のクエリをこれらの分析より，最頻クエリは必ずしも検索の精選択する．これは誤りセグメント位置の棄却に対応す度改善に適切なセグメント位置ではないことが確認さる他，アンド検索がされ易い単語が含まれるクエリ対れた．しかしながら，中頻度クエリは適切にセグメンしてはよりセグメント数の多いクエリを選択する効果トされているクエリも多く，適切なセグメント位置のがある．ただし，英数字文字列のみで構成されている手掛かりになると考えられる．そこで，われわれは異クエリに関しては最頻のクエリを選択している．これなりセグメント位置を持つクエリセットを用いて，検は，3-gram モデルでは適切なクエリ選択がされなかっ索精度を改善するセグメント位置を推定する手法を提たためであり，英数字文字列への対応にはより高次の案する． n-gram が必要であると考えられる．各クエリ q のクエリセットを Q，各クエリ q の文字 xi の長さを N と 3.2 3.2.1 クエリログとスニペットを用いたクエリセグメンテーションの提案クエリのセグメント位置の推定手法図 1 に提案手法を示す．提案手法は 2 段階に分かれている．1 段目では，クエリセットから誤りセグメント位置を含まず，よりセグメント数の多いクエリの選択を行なう．2 段目では，選択したクエリの Web 検おく． q = {x0 , x1 , x2 , ..., xN }， q∈Q この時，クエリ文字列に対する 3-gram 言語モデルの対数尤度の相加平均よりクエリセット Q における最尤の q を選択する． ∑N log P (xi |xi−2 , xi−1 ) max i=1 N −1 q∈Q 索結果のスニペットを取得し，各単語の頻度と単語連接頻度を算出し，シンプソン係数に基づいてクエリのセグメント位置の再判定を行なう．これにより，実際の Web ページに含まれるクエリの単語を考慮したク 3.2.2 提案手法による検索精度改善の検証提案手法 (言語モデル+スニペット，セグメント数+ スニペット) が検索精度を改善するものであるかを検証

表 2: クエリログとスニペットを用いたクエリセグメンテーションの実験条件正解データの期間エリを選ぶ傾向があるが，クエリに特化したモデルであるため，クエリ特有の複合語はセグメントされないままのクエリは選択されてしまう．言語モデルでより 2010 年 10 月 1 日〜31 日適切なクエリ選択を行うためには，クエリコーパス以 615 件外に Wikipedia など他コーパス資源とのマージが必要人手正解データの一致率 82.4 % であると考えられる．言語モデルの学習データ 2010 年 10 月 1 日〜31 日サンプル数検索結果取得数 20 SVM の点推定手法を用いたクエリセグメンテーターの実用性評価 4 表 3: 提案手法と比較手法のクエリセグメンテーションの実験結果 Qry-Acc Seg-Acc 前節の提案手法では，クエリログやウェブの頻度情 0.937 0.923 0.951 報に基づいてクエリのセグメンテーションを行なった言語モデル 0.645 0.617 0.731 セグメント数 0.732 0.953 こで，われわれはクエリコーパスを SVM の点推定に形態素解析+スニペット 0.739 0.952 よる単語分割手法に適用したクエリセグメンテーター言語モデル+スニペット 0.773 0.781 0.962 0.962 を実装し，実用性の評価を行なった．最頻クエリ形態素解析セグメント数+スニペットが，文字や文字種などの素性を用いることで精度の良いセグメンテーションができることも期待される．そ SVM の点推定による単語分割手法するために，人手で Web 検索に適切なクエリのセグメ 4.1 ント位置を付与した正解データを作成し，提案手法にとして，最頻クエリのセグメント位置と，最頻クエリを SVM の点推定による単語分割手法は Sassano[4] や Neubig ら [5] より提案されており，高精度に単語分割が行えることが報告されている．これらの手法は，各形態素解析1 し，スニペットの単語連接頻度に基づいて文字列間が単語境界であるかどうかの二値分類問題とセグメント位置を推定する手法 (形態素解析+スニペッしてとらえたものであり，注目している文字列間の前ト) を扱う．評価基準は，Bergsma らが用いた Query 後の文字 n-gram や文字種 n-gram，辞書単語の始端終よるセグメント位置との一致率を評価した．比較手法 Accuracy(Qry-Acc) と Segment Accuracy(Seg-Acc) 端であるかなどを素性として組み込み，SVM によるを用いる．Qry-Acc はクエリの完全一致率であり，Seg- 学習を行なっている． Acc は文字列境界の正解率である．シンプソン係数は精度が最高となる 0.9 を用いる．表 2 に実験条件を示す．正解データは，1ヵ月分のクエリログの上位 10 万件のクエリから頻度 2 以上の 4.1.1 素性異なりセグメント位置を持つクエリセットを抽出し， SVM で用いる素性は以下のものである．文字 n-gram 最頻クエリの頻度占有率の 100%から 5%で間隔でラセグメンテーションを識別する xi , xi+1 ンダムサンプリングを行ない，合計が 600 件に近くなるように均等に選んだ．正解データのタグ付与は 2 名で行ない，実験結果の正解率では平均をとった．表 3 の実験結果より，提案手法である「セグメンにおける窓幅前後それぞれ w 文字の文字列 xi−w+1 , .., xi , xi+1 , ..., xi+w の文字 n-gram 文字種 n-gram ト数+スニペット」が Qry-Acc と Seg-Acc において一上記の文字 n-gram における文字種（ひらがな，カ番精度が高い．「セグメント数+スニペット」ではカタタカナ，漢字，アルファベット，数字，その他）のカナ文字列の分割精度の改善が確認されている．言語 n-gram モデル尤度ではある程度多くセグメントされているク 1 Yahoo! Japan デベロッパーネットワーク日本語形態素解析 Web API と同等のもの http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html 辞書単語素性文字 n-gram において辞書に含まれる単語．ただし，

http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html

表 4: SVM の点推定手法の適用によるクエリセグメ表 5: SVM の点推定手法の適用によるクエリセグメンテーターの実験条件ンテーターの精度クエリログの期間 2010 年 10 月 1 日〜31 日サンプル数言語モデルの学習データ 10 万件 Qry-Acc Seg-Acc 言語モデル+スニペット 0.659 0.943 セグメント数+スニペット 0.667 0.945 2010 年 10 月 1 日〜31 日検索結果取得ページ数 SVM 学習器 20 5 おわりに liblinear 本報告では，入力クエリにおけるセグメント位置のセグメンテーションを識別する xi , xi+1 において，始端になっている単語には R，終端になっている単語には L，xi , xi+1 を跨いでいる単語には I のフラグも共に付与している．辞書単語には，ipadic-2.7.0-20070801 と日本語・英語 Wikipedia のアブストラクトから英数字単語のみをカウントして作成した辞書を用いた (日本語 Wikpedia: 頻度 2 以上，英語 Wikipedia:頻度 10 以上)．違いによる検索精度劣化への対策のため，クエリログのアンド検索のスペース位置とスニペットの単語連接頻度を用いて，Web ページに出現するクエリの単語を考慮したセグメント位置を推定する手法を提案した．実験結果より，クエリ選択として異なりセグメント位置を持つクエリセット内の最多セグメント数を用いたものが最も良い精度であった．また，クエリコーパスから SVM の点推定手法を用いたクエリセグメンテーターの実用性の評価を行なった．今後はクエリセグメンテーターの精度改善を目指すとともに未知語分割器 4.2 実験条件としての応用にも取り組む．評価実験では SVM の点推定手法よるクエリセグメンテーションと正解データとの一致率を評価した．SVM の学習データは，1ヵ月分の Web 検索のクエリログにおける上位 10 万件（正解データは含まない）を提案手法 (言語モデル+スニペット，セグメント数+スニペット) でセグメントしたクエリコーパスを用いた．表 4 に実験条件を示す．評価基準は，Qry-Acc と Seg-Acc を用いる．SVM の学習器としては，liblinear[6] を用いた．また，点推定手法の窓幅は 5，n-gram のサイズは 3 を用いた． 4.3 実験結果実験結果を表 5 に示す．前節同様に「セグメント数+ スニペット」の手法が最も良い精度を示した．点推定手法では局所的にセグメントの識別を行うため，クエリに対し多くセグメントされる傾向が見られる．先行研究よりクエリカウントやウェブカウントがセグメント位置推定に有効であるという報告が多くされている他，離れた単語の組み合わせによるセグメント位置の変化やクエリ全体から適切なセグメント位置の推定などを考慮することで更なる精度改善も期待できる．参考文献 [1] S. Bergsma and Q.I. Wang. Learning noun phrase query segmentation. In Proc. of EMNLP-CoNLL, 2007. [2] B. Tan and F. Peng. Unsupervised query segmentation using generative language models and wikipedia. In Proceeding of the 17th international conference on World Wide Web, pp. 347–356. ACM, 2008. [3] K. Wang, C. Thrasher, E. Viegas, X. Li, and B.P. Hsu. An overview of Microsoft web N-gram corpus and applications. In Proceedings of the NAACL HLT 2010 Demonstration Session, pp. 45–48. Association for Computational Linguistics, 2010. [4] M. Sassano. An empirical study of active learning with support vector machines for Japanese word segmentation. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pp. 505–512. Association for Computational Linguistics, 2002. [5] Graham Neubig, 中田陽介, 森信介. 点推定と能動学習を用いた自動単語分割器の分野適応. 言語処理学会第 16 回年次大会 (NLP2010), 東京, 3 2010. [6] R.E. Fan, K.W. Chang, C.J. Hsieh, X.R. Wang, and C.J. Lin. LIBLINEAR: A library for large linear classification. The Journal of Machine Learning Research, Vol. 9, pp. 1871–1874, 2008.