第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案

3.3K Views

October 28, 15

#solrjp #Lucene #Solr #形態素解析 #N-gram #情報検索

スライド概要

Apache Lucene Solrによる形態素解析の課題とN-bestの提案

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.5K

各ページのテキスト

大須賀稔 (おおすかみのる) ヤフー株式会社 CTO室 / Solr黒帯 Apacheソフトウェア財団 ManifoldCFプロジェクトコミッター / PMCメンバー Solrプロジェクトコントリビューター [改訂新版] Apache Solr入門 (技術評論社) 共著者 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

アナライザの仕組みアナライザー I came from Japan. 文字フィルタ文字単位での正規化処理を行う i came from japan. トークナイザ文章を単語に分かち書き i トークン came from japan 不要な単語の除去や単語の正規化処理などフィルタ i came japan Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

形態素解析による分割アナライザー私はﾆﾝｼﾞﾝを１本だけ買った文字フィルタ半角片仮名、全角数字などの正規化処理など私はニンジンを1本だけ買った日本語辞書トークナイザ日本語辞書を参照しながら文章を単語に分かち書き私はトークンフィルタニンジンを 1 本だけ買った検索に不要な単語の除去、類義語への展開など私ニンジン人参 1 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 本買う

形態素解析とN-gramの比較長所形態素解析 N-gram 短所 • インデックスサイズが小さい • インデックス作成に時間がかかる • 検索実行時の処理が速い • 辞書が必要 • 検索結果にノイズが少ない • 検索漏れが発生する • インデックスの作成が速い • インデックスサイズが大きい • 辞書を必要としない • 検索実行時の処理が遅い • 検索漏れがない • 検索結果にノイズが多い • 現在は、形態素解析による分割が一般的。 • N-gramは、形態素解析と併用して、検索漏れがないようにする目的で利用される。 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

10.

11.

12.

適合率 : Precision 検索結果のドキュメント中(N)に、どれだけ正解ドキュメント(R)を含んでいるかという正確性の指標。 R Precision = N 25 = 100 = 0.25 N R C N 検索結果のドキュメント検索できた正解ドキュメント検索結果としての正解ドキュメント Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. R C

13.

再現率 : Recall 検索結果としての正解ドキュメント(C)が、どれだけ検索できているかという網羅性の指標。 R Recall = C 25 = 100 = 0.25 N R C N 検索結果のドキュメント検索できた正解ドキュメント検索結果としての正解ドキュメント Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. R C

14.

F値 : F-measure 適合率、再現率の総合的な評価に用いられる。 2・Precision・Recall R F-measure = = 1 Precision + Recall (N + C) 2 25 = 1 (100 + 100) 2 = 0.25 N R C N 検索結果のドキュメント検索できた正解ドキュメント検索結果としての正解ドキュメント Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. R C

15.

16.

形態素解析とN-gramの課題長所形態素解析 N-gram 短所 • インデックスサイズが小さい • インデックス作成に時間がかかる • 検索実行時の処理が速い • 辞書が必要 • 検索結果にノイズが少ない • 検索漏れが発生する • インデックスの作成が速い • インデックスサイズが大きい • 辞書を必要としない • 検索実行時の処理が遅い • 検索漏れがない • 検索結果にノイズが多い現在は、形態素解析による分割が一般的。 N-gramは、形態素解析と併用して、検索漏れがないようにする目的で利用される。 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

17.

18.

19.

20.

21.

形態素とは形態素とは、言語学の用語で、意味を持つ最小の単位のこと。ある言語において、それ以上分解しては意味をなさなくなるところまで分解して抽出された、音素のまとまり。赤坂でランチを食べて元気になった赤坂ランチでて元気にになっ名詞名詞助詞助詞名詞助詞動詞赤名詞坂名詞を食べ動詞助詞気元名詞名詞 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. た助詞なっ動詞

22.

形態素辞書形態素辞書接続コスト表表層品詞･･･コスト赤坂赤坂でランチを食べて元気名詞名詞名詞助詞名詞助詞動詞助詞名詞 - 4 3 7 5 5 元気になっになった名詞名詞動詞助詞動詞助詞 - 3 7 5 3 5 6 10 4 5 5 右側左側名詞助詞動詞：名詞助詞動詞･･･ 1 3 7 - 4 6 3 - 20 6 19 - - ※ 形態素辞書、接続コスト表は Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 簡略化しています

23.

24.

単語生起コストカードローンの出現しやすいコスト小繋がりやすい 6 カード 1 名詞出現しやすい 6 コスト小ローン合計名詞 19 2 4 BOS の繋がりやすい助詞 4 カー名詞出現しやすいコスト小 1 6 ドローン合計名詞 37 24 繋がりやすい EOS 出現しにくいコスト大 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

25.

形態素解析の仕組み赤坂でランチを食べて元気になった 4 名詞 4 BOS 赤 4 5 名詞助詞動詞気 4 に 6 なっ元 1 赤坂 1 6 5 坂 4 5 5 3 7 でランチを食べ助詞名詞助詞動詞 3 4 6 5 名詞て 3 3 4 助詞 3 元気 3 20 20 5 た助詞になっ名詞名詞名詞動詞 3 7 3 10 EOS 3 連接コスト、単語生起コストの合計が小さいものが、より良い形態素の並びである。 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

26.

27.

N-gramの併用による解決新しいバッグが欲しいな革のショルダーバッグ q=field_ma:バッグ OR field_ng:バッグ field_ma (形態素解析) 革のユーザショルダーバッグ × バッグ field_ng (N-gram) 革ののシショョルダーーババッッグルダ ○ Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. バッッグ

28.

29.

辞書の登録による解決革のトートバッグトークナイザ日本語辞書文章を単語に分かち書き革の × トートバッグ「バッグ」で検索できない革のトートバッグ日本語辞書トークナイザ文章を単語に分かち書き革ユーザ辞書のトート「バッグ」で検索できる表層品詞・・・トート名詞・・・・・・・・・・・・新しいバッグが欲しいなユーザ Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. バッグ ○ バッグ

30.

31.

JapaneseTokenizerのモード設定による解決 1. normalモード • 登録されている辞書の単語で分割する。 2. searchモード (デフォルト) • normalモードと同様に単語に分割を行うが、辞書に登録されている単語の複合語で分割可能である場合、さらに細かく分割し、複合語も出力する。 3. extendedモード • searchモードと同様に複合語の処理を行うが、複合語は出力しない。また、辞書に登録ない未知語をUni-gram(1-gram)でトークナイズする。 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

32.

33.

JapaneseTokenizerのモード設定による課題 searchモード、extendedモードを使用することで手軽に再現率を向上させることが可能だが、全ての問題を解決できない。検索漏れ検索ノイズ N N R C 検索結果のドキュメント検索できた正解ドキュメント検索結果としての正解ドキュメント Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. R C

34.

JapaneseTokenizerの課題 • 形態素解析によって出力される単語は、連接コスト、単語生起コストを基に最適と思われる単語に分割されるが、意図しない分割がされる場合がある。 • 最良と思われる、1つの形態素の連結パターンしか出力できないため、複数の解釈が可能な文字列には対応できない。 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

35.

意図しない分割をされる例外国人参政権 ↓ 外国 / 人 / 参政 / 権 Voting rights for foreign residents. Some rights reserved by MDGovpics Carrot ? または外国 / 人参 / 政権 Some rights reserved by Max Braun The Carrot Administration of a foreign country. Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

36.

37.

複数の解釈が可能な例こちらは社長室長谷川です長谷川です谷川です ↓ Some rights reserved by A ONE-MAN ARMY RETURNS TO NO-MANS' LAND こちら / は / 社長 / 室 / 長谷川 / です This is Hasegawa, member of President’s Office. またはこちら / は / 社長 / 室長 / 谷川 / です This is Tanigawa, executive secretary of President’s Office. Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

38.

39.

40.

41.

N-best こちらは社長室長谷川です 5 8 1 社長名詞 BOS 5 4 こちらは名詞 4 助詞 3 3 7 1 10 社長名詞 1 名詞 9 1 室長名詞 1 4 7 1 10 室長助詞 3 名詞 3 複数の解釈が可能なテキスト対応したい 3 谷川名詞 1 1 11 11 谷川 1 名詞 8 名詞 1 長谷名詞 6 長谷川名詞 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 4 4 4 です 4 助動詞 EOS

42.

43.

44.

N-bestの実装仕様 • nbestCost、nbestExamplesパラメータの設定でN-best出力を制御する。 • 0 < nbestCostならN-bestを出力する。nbestCostはN-best出力として許容される最大のコスト差分(allowable cost difference for N-best)を示す。 • 適切なコスト差分を求めるために、nbestExamplesで例文を指定できる。 • 例文からコスト差分を求めることができれば、例文からのコスト差分と直接指定のコスト差分のうち大きな値が有効にする。 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

45.

N-bestの実装サンプル schema.xml <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"> <analyzer type=“index"> ... <tokenizer class="solr.JapaneseTokenizerFactory" mode="normal" nbestCost="2000" nbestExamples="/社長室長谷川-長谷川/社長室長谷川-谷川/" /> ... </analyzer> <analyzer type="query"> <tokenizer class="solr.JapaneseTokenizerFactory" mode="normal" /> ... </analyzer> </fieldType> Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

46.

47.

48.

49.

50.

N-bestの評価 • 評価用データアンパサンド言語日本語 • Wikipediaダンプから取得したタイトル (1,541,544タイトル) 地理学 EU (曖昧さ回避) 国の一覧 SandBox パリヨーロッパ • … 評価方法 • nbestCostを0から5000まで1000毎に変化させ、評価用データからトークンを出力 • 出力されたトークンの差分を目視で確認し、 Good、Neutral、Badの3段階でジャッジ Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. Good : 良い Neutral : 中立 Bad : 悪い

51.

N-bestの評価 nbestCost 総トークン数総トークン数 nbestCost=0比総出力文字数総出力文字数 nbestCost=0比 N-best 出現タイトル数 N-best 出現タイトル数 /全タイトル比 0 5,362,695 1.000 12,401,591 1.000 0 0 1,000 5,509,840 1.027 12,761,015 1.029 94,950 0.0616 2,000 5,677,682 1.059 13,222,013 1.066 187,636 0.1217 3,000 5,878.931 1.096 13,695,738 1.104 281,788 0.1828 4,000 6,168,215 1.150 14,198,753 1.145 392,367 0.2545 5,000 6,557,197 1.224 14,796,834 1.193 511,730 0.3320 ジャッジ数ジャッジ比 nbestCost N-best出力差分出 N-best出力差分出現タイトル数現タイトル比 0 0 0 0 0 0 - 1,000 94,950 0.0616 300 0.003160 1,000 - 2,000 100,452 0.0652 300 0.002987 2,000 - 3,000 109,397 0.0710 300 0.002742 3,000 - 4,000 140,501 0.0911 300 0.002135 4,000 - 5,000 180,897 0.1173 300 0.001658 ※JapaneseTokenizerのnormalモードで評価 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

52.

N-bestの評価指標 - Good • 複合語が正しい単語で区切られる title ヒルマン・ミンクス岡山県道69号西大寺備前線 (おかやまけんどう69ごうさいだいじびぜんせん) ドラッグマスターファイル nbestCost=0 ヒルマン / ・ / ミン / クス nbestCost=1000 ヒルマン / ・ / ミン / ミンクス / クス岡山 / 県 / 道 / 69 / 号 / 西大寺 / 備前 / 線岡山 / 県 / 県道 / 道 / 69 / 号 / 西大寺 / 備前 / 線ドラッグマスターファイルドラッグ / マスター / ファイル Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

53.

N-bestの評価指標 - Neutral • どちらも誤解析 title 鈴木里一郎 (すずきさといちろう) あしたまにあーな • nbestCost=0 nbestCost=1000 鈴木 / 里 / 一郎鈴木 / 里 / 一 / 一郎 / 郎あし / たま / に / あー / なあし / たま / たまに / に / あー / な元の結果でも問題ない title 山田温泉 (やまだおんせん) フィルムアウト nbestCost=0 nbestCost=1000 山田 / 温泉山田 / 山田温泉 / 温泉フィルム / アウトフィルム / フィルムアウト / アウト Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

54.

N-bestの評価指標 - Bad • ノイズが発生する title nbestCost=0 nbestCost=1000 ジャン・ピエール・ランパルジャン / ・ / ピエール / ・ / ランパルジャン / ・ / ピエール / ・ / ラン / ランパル / パル供御職 (くごしょく) 市川市立高谷中学校 (いちかわしりつこうやちゅうがっこう) 供御 / 職供 / 供御 / 御職 / 職市川 / 市立 / 高谷 / 中学校市川 / 市立 / 高 / 高谷 / 谷中 / 中学校 / 学校 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

55.

N-bestの評価結果 nbestCostの値の変更前と変更後で、出力に変化が見られたタイトル300件を無作為に抽出して評価。 nbestCost ジャッジ数 Good Neutral Bad (Good - Bad) / 300 0 - 1,000 300 190 30 80 0.37 1,000 - 2,000 300 133 82 85 0.16 2,000 - 3,000 300 109 60 131 -0.07 3,000 - 4,000 300 95 34 171 -0.25 4,000 - 5,000 300 87 48 165 -0.26 0.6 +0.16 0.45 -0.07 0.3 0.15 -0.15 -0.25 +0.37 0 0 1000 -0.26 2000 3000 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved. 4000 5000

56.

N-bestの比較とまとめ長所非N-best 短所 • インデックスサイズが小さい • インデックス作成に時間がかかる • 検索実行時の処理が速い • 辞書が必要 • 検索結果にノイズが少ない • 検索漏れが発生する • N-gramよりインデックスサイズが小さい • 非N-bestよりインデックスサイズが大きい • N-gramより検索結果のノイズが少ない • 非N-bestより検索結果のノイズが多い • N-gramより検索漏れが多い • 非N-bestより検索漏れが少ない • インデックスの作成が速い • インデックスサイズが大きい • 辞書を必要としない • 検索実行時の処理が遅い • 検索漏れがない • 検索結果にノイズが多い形態素解析 N-best N-gram • N-gramとの併用よりも意味のある単語でより細かく分割が可能。 • 複数の解釈が可能な文字列への対応が可能。 Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

57.

58.

59.

60.

N-bestパッチの適用 # パッチのダウンロード $ curl -L -O https://issues.apache.org/jira/secure/attachment/12766268/LUCENE-6837.patch # Lucene/Solrのtrunkチェックアウト $ svn co http://svn.apache.org/repos/asf/lucene/dev/trunk lucene-solr # パッチの適用 $ cd lucene-solr $ patch -p0 -E < ../LUCENE-6837.patch # ivyセットアップ $ ant ivy-bootstrap # コンパイル $ ant compile # テスト $ ant test Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

61.

N-bestパッチの適用 (続き) # Solrパッケージ作成 $ cd solr $ ant create-package # Solrパケージの展開 $ cd ../../ $ tar zxvf lucene-solr/solr/package/solr-6.0.0-SNAPSHOT.tgz # サンプルコレクションの準備 $ cp -r server/solr/configsets/sample_techproducts_configs server/solr/nbest_sample $ echo "name=nbest_sample" > server/solr/nbest_sample/core.properties $ vi server/solr/nbest_sample/conf/schema.xml <fieldType name="text_ja_normal_nbest_2000" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"> <analyzer> <tokenizer class="solr.JapaneseTokenizerFactory" mode="normal" nbestCost="2000"/> </analyzer> </fieldType> # Solrの起動 $ ./bin/solr start -p 8983 -s server/solr Copyright (C) 2015 Yahoo Japan Corporation. All Rights Reserved.

62.