LIFULL HOME'SのAI施策におけるSolr活用

8.1K Views

July 21, 22

#lifull #情報検索 #全文検索エンジン #solr #ai #ltech #ltech21 #Solr #ベクトル検索 #AI #reRank #機械学習

スライド概要

第27回 Lucene/Solr勉強会 #SolrJP で発表した資料です。
https://solr.doorkeeper.jp/events/138271

株式会社LIFULL

@LIFULL

スライド一覧

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

pmconf2023【プロダクトマネジメントで高速PDCA】アウトカムが激増したLIFULL HOME’Sのグロース事例

プロダクトマネジメントプロダクトマネージャー lifull

株式会社LIFULL 26.8K

CloudWatch LogsからGrafana Lokiにログ基盤を移行

lifull aws grafana ログ

株式会社LIFULL 25.5K

HNSWの内部構造

lifull hnsw search

株式会社LIFULL 23.2K

PrometheusとGrafanaで追求する、より良いアプリケーションの可観測性

lifull grafana ログ kuberentes

株式会社LIFULL 21.5K

100人超のエンジニア組織の統合、60以上のアプリケーションの基盤集約、日本最大級の不動産・住宅情報サイト『LIFULL HOME'S』を支え続けるエンジニアリング＿長沢翼

lifull lifull home's cto keel engineering technology

株式会社LIFULL 20.6K

#ED6103との付き合い方

アクセシビリティコントラスト wcag apca

株式会社LIFULL 15.3K

各ページのテキスト

LIFULL HOME'Sの AI施策におけるSolr活用株式会社LIFULL テクノロジー本部プラットフォームグループ宮崎泰輔

自己紹介 Solrを使ったAI施策の紹介ベクトルを使った並び替え目次課題解決策まとめ

自己紹介宮崎泰輔 imishinist ソフトウェアエンジニア @LIFULL 検索システムチームで LIFULL HOME’SのSolrの運用改善や機能追加を担当検索チームだが好きな言語はGoとBash

Solr9の話はありません 🙇🙇🙇

Solrを使ったAI施策の紹介

Solrを使ったAI施策の紹介(1/2) AIホームズくん対話から希望や細かなこだわりを理解し「ぴったり度」で理想の住まいを提案する https://lifull.com/news/22847/

https://lifull.com/news/22847/

Solrを使ったAI施策の紹介(2/2) AIスコア順 - AI並び順用のフィールドで並び替えフィールドの値は”AI”で計算 AIベクトル順 - ドキュメントごとにベクトルを付与し、クエリのベクトルとの内積でソート https://lifull.com/news/22847/

https://lifull.com/news/22847/

ベクトルを使った並び替え

背景 AIチームから相談ドキュメントごとにベクトルデータを格納してクエリでベクトルを指定してクエリごとに異なるスコアを計算して並び替えたい🙇🙇🙇 Solr9から入るKnnの機能を使えば実現できそう💡💡💡

10.

課題一覧 I. solr9から入るKNNとは違い検索ではなくソートに使用したい😨😨 A. topKクエリではない II. そもそもSolr8を使用している😰😰😰 A. Solr8にはベクトルのデータ型がない III. ベクトルデータをドキュメントに含まない場合も並び順をコントロールしたい😥😥 IV. 負荷がどうなるのか予測がつかない😱😱😱😱

11.

課題I - 解決策「solr9から入るKNNとは違い検索ではなくソートに使用したい」ソートに使用したいが、検索結果全てに計算するのは厳しい🤔🤔 （計算量が明らかにやばい） => ReRankで上位のみベクトル計算して並び替えれば良い🤗 reRankdDocsを検証して決めれば良い👏👏👏

12.

課題一覧 I. ✔solr9から入るKNNとは違い検索ではなくソートに使用したい😨😨 A. topKクエリではない II. そもそもSolr8を使用している😰😰😰 A. Solr8にはベクトルのデータ型がない III. ベクトルデータをドキュメントに含まない場合も並び順をコントロールしたい😥😥 IV. 負荷がどうなるのか予測がつかない😱😱😱😱

13.

課題II - 解決策「そもそもSolr8を使用している」ベクトルのプラグインを使う👏👏👏 https://github.com/DmitryKey/solr-vector-scoring

https://github.com/DmitryKey/solr-vector-scoring

14.

課題II - ベクトルプラグインの仕組み「solr-vector-scoring」の仕組みベクトルデータの保存 WhiteSpaceTokenizerで単語を空白区切りにトークナイズ DelimitedPayloadTokenFilterでtermPayloadにベクトルの要素を保存

15.

課題II - ベクトルプラグインの仕組みインデックスの中身 ※ 0|1.0 1|2.0 2|4.0 3|8.0 = [1.0, 2.0, 4.0, 8.0] ※ “|” の左側が配列のインデックス, 右側がその要素の値 WhitespaceTokenizerで単語に分割される DelimitedPayloadTokenFilterFactoryで、”|”で区切って左側をtext、右側をpayloadをに設定する ※デフォルトは “|”がデリミター

16.

課題II - ベクトルプラグインの仕組み termsハンドラへのリクエスト結果と中身のデータ

17.

[beta]

課題II - ベクトルプラグインの仕組み
ベクトルでのクエリ

q=*:*&ﬂ=id,foo*,score&
rq={!rerank reRankQuery=$rqq reRankWeight=1}&
rqq={!vp f=foo_vector base=foo_base
vector="1,1,1,1" cosine=false}

[1,1,1,1] というベクトルと、ドキュメントごとに
ベクトルの内積をとってスコアにする

18.

課題II - ベクトルプラグインの仕組み reRankのスコア計算式 score = score + reRankWeight * reRankScore [id:9001000004の例] q=*:* なので、 score=1 ※ const クエリベクトル : [1,1,1,1], ベクトルデータ : [1,2,4,8] 内積: 1 * 1 + 1 * 2 + 1 * 4 + 1 * 8 = 15 base=100なので、 reRankScore = 15 + 100 = 115 score = 1 + 1 * 115 = 116

19.

課題一覧 I. ✔solr9から入るKNNとは違い検索ではなくソートに使用したい😨😨 A. topKクエリではない II. ✔そもそもSolr8を使用している😰😰😰 A. Solr8にはベクトルのデータ型がない III. ベクトルデータをドキュメントに含まない場合も並び順をコントロールしたい😥😥 IV. 負荷がどうなるのか予測がつかない😱😱😱😱

20.

課題III - 課題整理「ベクトルデータをドキュメントに含まない場合も並び順をコントロールしたい😥😥」どういうこと？？ 🤔

21.

課題III - 課題整理ベクトルデータ生成はAIチーム担当で、API経由で行うが、全てのドキュメントを入れるために、それなりに高スループットで API呼び出しを行う。 => スケールアウトが間に合わずリクエストに失敗することがある🙄 リクエストに失敗すると「ベクトルデータをSolrに格納できない」

22.

Solrの現在の構成 API呼び出し

23.

課題III - 期待値整理期待した並び順について整理 i. APIリクエストに成功したデータ（ベクトルを取得できたもの） ii. APIリクエストに成功したが、今回の施策の対象外のデータ（ベクトルが無いのが正） iii. APIリクエストに失敗したデータ制約: ベクトル計算後の値の範囲: [-1, 1] スコアが負の値になったらSolr8の仕様で0になってしまう😥😥😥

24.

課題III - 解決策下駄を履かせ計算結果が負の値になってもプラスになるようにしつつ下駄を i と ii と iii で変えることで i > ii > iii になるようにする i. vector=[1,2,3,4,…], base=100 ii. vector=[], base=1 iii. vector=[],base= ↑のようにすれば、OK

25.

課題III - 実現のためのクエリベクトルのクエリは以下 rq={!rerank reRankDocs=2500 reRankQuery=$rqq reRankWeight=1}& rqq={!vp f=foo_vector vector="1,1,1,1" cosine=false} ただし、このままだとbaseを足せない（クエリも思いつかず）

26.

課題III - 解決策リポジトリのコードをforkしてbaseパラメータを追加😋😋 rq={!rerank reRankDocs=2500 reRankQuery=$rqq reRankWeight=1}& rqq={!vp f=foo_vector vector="1,1,1,1" cosine=false base=foo_base}

27.

課題一覧 I. ✔solr9から入るKNNとは違い検索ではなくソートに使用したい😨😨 A. topKクエリではない II. ✔そもそもSolr8を使用している😰😰😰 A. Solr8にはベクトルのデータ型がない III. ✔ベクトルデータをドキュメントに含まない場合も並び順をコントロールしたい😥😥 IV. 負荷がどうなるのか予測がつかない😱😱😱😱

28.

課題IV - 課題負荷がどうなるのか予測がつかない(遅くなることしかわからない) 負荷が高くなるということは台数を増やす、スケールアップする、設定値の変更など何かしらの対応が必要 reRankDocsを調整（計算量を減らす）してなんとかならないか？

29.

課題IV - 解決負荷検証 1. 本番環境のSolrへのクエリログからクエリを抽出 2. 検証用にクエリを変換 3. Solrへリクエスト 4. 分析

30.

課題一覧 I. ✔solr9から入るKNNとは違い検索ではなくソートに使用したい😨😨 A. topKクエリではない II. ✔そもそもSolr8を使用している😰😰😰 A. Solr8にはベクトルのデータ型がない III. ✔ベクトルデータをドキュメントに含まない場合も並び順をコントロールしたい😥😥 IV. ✔負荷がどうなるのか予測がつかない😱😱😱😱

31.

今後の話 - ベクトルデータを圧縮して持てないか模索中 - ベクトルのフィールドが1つ増えるだけで数GB増えているいくつもフィールドが増やしにくい - Solr9のKNNの機能を使って実現できないか模索中 - 今後も増えていくベクトルへの改善を取り込めないのは辛いとはいえ、HNSWのグラフデータで更に容量が増えそう

32.

まとめ - AI施策でのSolr活用事例の紹介 - Solr8でベクトルを使った際の課題と、その解決策について紹介 - reRankで上位のみ重い計算をするようにした要件を満たせなくて一部forkして機能追加した

33.

Q&A