LIFULL HOME'SでのSolrの構成と運用の変遷

12.3K Views

December 02, 21

#lifull #lifull home's #engineering #Solr #SolrCloud #Immutable Infrastructure #blue-green deployment #AWS

スライド概要

2021/11/30 第26回 Lucene/Solr勉強会 LIFULL HOME’SでのSolrの構成と運用の変遷
テクノロジー本部事業基盤ユニットプラットフォームグループ
磯野圭輔

株式会社LIFULL

@LIFULL

スライド一覧

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

pmconf2023【プロダクトマネジメントで高速PDCA】アウトカムが激増したLIFULL HOME’Sのグロース事例

プロダクトマネジメントプロダクトマネージャー lifull

株式会社LIFULL 26.1K

CloudWatch LogsからGrafana Lokiにログ基盤を移行

lifull aws grafana ログ

株式会社LIFULL 24.9K

HNSWの内部構造

lifull hnsw search

株式会社LIFULL 23K

PrometheusとGrafanaで追求する、より良いアプリケーションの可観測性

lifull grafana ログ kuberentes

株式会社LIFULL 20.6K

100人超のエンジニア組織の統合、60以上のアプリケーションの基盤集約、日本最大級の不動産・住宅情報サイト『LIFULL HOME'S』を支え続けるエンジニアリング＿長沢翼

lifull lifull home's cto keel engineering technology

株式会社LIFULL 19.6K

#ED6103との付き合い方

アクセシビリティコントラスト wcag apca

株式会社LIFULL 15K

各ページのテキスト

2021.11.30 第26回 Lucene/Solr勉強会 #SolrJP LIFULL HOME’Sでの Solrの構成と運用の変遷株式会社LIFULL テクノロジー本部プラットフォームグループ磯野圭輔 ©

1. 自己紹介・会社紹介 2. Solrの構成の変遷とバージョンアップ目次 3. バージョンアップで気をつけたいところ 4. バージョンアップをしてきてどうだったか

自己紹介自己紹介磯野圭輔 ikeisuke ソフトウェアエンジニア・エンジニアリングマネージャー at LIFULL Webサービス開発におけるインフラからサーバーサイドの構築がメインフィールドここ数年はLIFULL HOME‘SのSolrの運用改善を担当し、情報検索や自然言語処理などについては勉強中

会社データ (2021年9月30日現在) 会社名証券コード代表者沿革株式会社LIFULL 2120（東証第一部）代表取締役社長井上高志 1997年3月12日設立 2006年10月東証マザーズ上場 2010年3月東証一部へ市場変更資本金連結従業員数主な子会社 ( )は議決権比率 9,716百万円 1,483名（内、臨時雇用者数183名、海外子会社354名） LIFULL CONNECT,S.L.U. (100％）株式会社LIFULL Marketing Partners（100％)

コーポレートメッセージ自分らしく生きられる社会

解決すべき社会課題「住まい領域」日本最大級の不動産・住宅情報サービス https://www.homes.co.jp/

https://www.homes.co.jp/

本日の概要

本日の概要本日の概要 Solrが稼働しているだけだったところから、運用を整理し、機能開発などに着手できるようになるまでに取り組んできたこと、特にバージョンアップ周りについてのまとめと課題について紹介させていただきます。 1. Solrの運用の変遷とバージョンアップ 2. バージョンアップで気をつけたいところ 3. バージョンアップしてきてどうだったか

Solrの構成の変遷

10.

Solr構成の変遷当時の構成 AWS Cloud Auto Scaling group Availability Zone 1 SPOF replication post batch solr master node replication solr repeater node solr slave node Availability Zone 2 replication solr repeater node Application Load Balancer solr slave node

11.

Solr構成の変遷当時の構成 AWS Cloud Auto Scaling group Availability Zone 1 SPOF replication post batch solr master node replication solr repeater node solr slave node 1-2時間に１回程度の Optimize処理 Availability Zone 2 replication solr repeater node Application Load Balancer solr slave node

12.

Solr構成の変遷当時の構成 AWS Cloud Auto Scaling group Availability Zone 1 Optimize後のレプリケーション SPOF replication post batch solr master node replication solr repeater node solr slave node Availability Zone 2 replication solr repeater node Application Load Balancer solr slave node

13.

Solr構成の変遷当時の構成 AWS Cloud Auto Scaling group Availability Zone 1 SPOF replication post batch solr master node replication solr repeater node solr slave node レプリケーション高速化のためのリピーター Availability Zone 2 replication solr repeater node Application Load Balancer solr slave node

14.

Solr構成の変遷当時の構成 AWS Cloud Auto Scaling group Optimize後のレプリケーション Availability Zone 1 SPOF replication post batch solr master node １時間に１回程度の Optimize処理 replication solr repeater node solr slave node レプリケーション高速化のためのリピーター Availability Zone 2 replication solr repeater node Application Load Balancer solr slave node

15.

Solr構成の変遷何故Solrの構成をアップデートしたか • 設定変更などほぼ全て手動でのオペレーションであり、サーバーも1系統しかなく失敗したら大惨事という状況 • 構築当初サーバーの構成管理においてバージョン管理が徹底されておらず、稼働しているサーバーが正の状態だった • 機能拡張を対応するスキームがなく、機能追加をしたいチームのメンバーがインフラ担当と相談しながら個別に対応していた • • 単純にフィールドを追加したいだけのためにデータの反映が終わるまで1ー2週間待つ必要がある Solr4(nightly build)が稼働しており古すぎるだけでなく、正式版との乖離がどこまであるのか把握できていなかった • master-slave構成でmasterノードがSPOFとなっており大きな問題が起きた際に復旧できない、もしくは復旧に数日かかることが予想される¥ • 今後のサービス・データ量拡大を考慮してシャーディングも視野に入れた構成にしていきたかった

16.

Solr構成の変遷何故Solrの構成をアップデートしたか何をするにしても心理的コスト、対応コストが大きすぎて誰も変更したくない状態を解消する

17.

Solr構成の変遷何故Solrの構成をアップデートしたか LIFULL HOME’Sが掲げる「"あなたにピッタリ"の住まい探し」を提供していくためにも検索エンジンをもっと積極的に活用できるようにする

18.

Solr構成の変遷どうしたか 1. デプロイのたびに新たに作るImmutable Infrastructureな構成に変更 • その際にシャーディングを見据えてSolrCloudを導入 2. できる限りの構成をコード化し自動でデプロイされる仕組みの構築 3. 継続的に最新バージョンを適用するためのバージョンアップ運用体制の構築 4. 専任チームによる相談受付、一緒にプロジェクトを進める体制

19.

①Immutable Infrastructure

20.

Solr構成の変遷現在の構成 AWS Cloud event ( put / delete ) Amazon SNS Amazon S3 data bucket uploader 物件検索システム – Immutable構成な範囲 SolrCloud Cluster Amazon SQS replication 初回ロード tlog - leader pull - replica update AWS Lambda Auto Scaling group Application Load Balancer tlog - replica zookeeper select Application Load Balancer

21.

Immutable Infrastructure 物件検索システム – Immutable構成な範囲リソース説明 SQS S3の更新・削除通知を受け取る AWS Lambda SQSをイベントソースとしてS3のデータを Solrに書き込む ALB/Solr(tlogノード x2) AWS Lambdaからの書き込み処理を受け付け ALB/AutoScaling/Solr( 検索リクエストの受け付け pullノード) Zookeeper SolrCloudクラスタの管理

22.

Immutable Infrastructure この構成により解決したこと • • SPOFだったmasterノードではなくSolrCloudのtlogノードを複数置くことで書き込み側の可用性を向上した • tlogノードを増やすごとに書き込み性能が劣化するため現在はtlogを2台で稼働中 • データの特性とこれまでの安定性、後述のデプロイを考慮して1台でいいのでは？と考えている SNS – SQSを利用したファンアウトと初回ロード処理を利用することによりクラスタを同時に複数構築することができるようになった • Solrのバージョンやスキーマなどの違う複数のクラスタを立て比較することが容易になった • 初回ロードに時間がかかることが課題 • ほぼ全てを作るので構築したクラスタ分のコストがかかることも課題

23.

Immutable Infrastructure 構成変更・バージョンアップの副次的効果 • リピーターインスタンスなしでも遅延なくレプリケーションできるようになった • 当時はoptimize後にレプリケーションするように設定していたので全インデックス（数十GB）の転送に時間がかかっていた。（slaveの台数分ほぼ同時に転送） • インデックス効率の向上によりインデックスサイズは25%程度減った（と記憶している） • マージスケジューラーによるマージでの運用に変えたため差分のみ転送されることになり、一度に行われる転送データが減った • Optimizeしない状態＆短期間でsearcherが入れ替わる状態でも同等程度の性能が出るようになった • Solr7からSolr8に上げた際にも性能改善が見られたので、都度の検証は必要だが定期的なアップデートを視野に入れた運用体制を構築しておくことのポジティブな理由になり得る

24.

デプロイ方法 blue-green deployment

25.

Solrクラスタのデプロイ毎回新規デプロイするImmutableな範囲物件検索システム – Immutable構成な範囲 SolrCloud Cluster Amazon SQS replication 初回ロード update Auto Scaling group tlog - leader pull - replica AWS Lambda Application Load Balancer tlog - replica zookeeper 1.Solrクラスタを構築 2.データ投入用リソース（SQS/Lambdaの構築） 3.初回データロード処理により全データ投入 4.更新データ投入開始 Solrクラスタのデプロイ単位

26.

Solrクラスタのデプロイデプロイの手順1 – デプロイ前 AWS Cloud event ( put / delete ) Amazon SNS Amazon S3 data bucket uploader 旧クラスタ（稼働中） select Application Load Balancer

27.

Solrクラスタのデプロイデプロイの手順2 – デプロイ開始 AWS Cloud event ( put / delete ) Amazon SNS Amazon S3 data bucket uploader 旧クラスタ（稼働中） select Application Load Balancer 新クラスタ（構築中）

28.

Solrクラスタのデプロイデプロイの手順3 – リクエストの切り替え AWS Cloud event ( put / delete ) Amazon SNS Amazon S3 data bucket uploader 旧クラスタ（稼働中） select Application Load Balancer 新クラスタ（稼働中）

29.

Solrクラスタのデプロイデプロイの手順4 – 古いクラスタの削除 AWS Cloud event ( put / delete ) Amazon SNS Amazon S3 data bucket uploader 旧クラスタ（削除） select Application Load Balancer 新クラスタ（稼働中）

30.

Solrクラスタのデプロイデプロイ（blue-green deployment）運用上現実的な時間でサーバー構築、データの投入ができるようにしたことでbluegreen deploymentを実現できた • 1回のデプロイでImmutable構成の範囲を全てデプロイする • デプロイ時は初回ロードを行うので全てのデータが反映されている状態になる • デプロイ完了後ロードバランサの向き先を旧クラスタから新クラスタに切り替える • 切り替えが完了し、正常動作を確認したら旧クラスタは全て削除する

31.

Solrクラスタのデプロイこの構成の課題 • 新規に全て構築しデータ投入するため、運用上現実的な時間とはいえ通常のアプリケーションに比べて構築に多少の時間がかかる • 複数の構成が立ち上がるため、一時的ではあるが構成の維持コストがかかる

32.

Solrクラスタのデプロイこの構成により解決したこと • 稼働系を危険に晒すようなことなく安全に新しい設定を適用可能になった • 切り替え後に問題があった場合でも問題があった際にロードバランサの向き先を変えるだけで切り戻しが完了できるため、さらにリスクは少ない • インフラ構成から設定に至るまでバージョン管理されていることで特定バージョンへの切り戻しや微調整しての再デプロイが容易 • 古いクラスタ削除後に戻したい場合であっても、元の設定で再度デプロイして切り替えるだけのため、デプロイの手順をそのまま利用できる

33.

継続的なバージョンアップ運用

34.

継続的なバージョンアップ運用継続的なバージョンアップのために Solr 4(nightly build)を長期間運用し続けた結果、大きな技術的負債として抱えてしまった反省を生かし、継続的に新しいバージョンを適用していくための運用体制を構築した。大きく分けて3つの対応をしている。 1. 平日のLucene/Solrの更新情報の確認 2. マイナーバージョンリリースごとの動作確認 3. 動作確認後のデプロイ判断とデプロイ

35.

継続的なバージョンアップ運用平日のLucene/Solrの更新情報の確認毎朝9時に検知したLucene/Solrの差分チェックを行なっている。仕様変更と非推奨になった機能を主な監視対象としている。現在5人チームなので曜日毎に担当を決めて、 GitHub ActionsでGitHub issueとして自動登録している。

36.

Solrクラスタのデプロイマイナーバージョンアップ毎の動作確認 AWS Cloud event ( put / delete ) Amazon SNS Amazon S3 data bucket uploader Amazon CloudWatch Amazon S3 result bucket Amazon Athena 確認済みバージョンクラスタ Logs production solr.log Application Load Balancer 最新バージョンクラスタ Vegeta on AWS Fargate

37.

継続的なバージョンアップ運用マイナーバージョンアップ毎の動作確認 Fargate上にデプロイしたvegetaを利用して2つのクラスタにほぼ同時に指定のスループットで前日の本番のクエリを投げてパフォーマンスのテストを行う。リクエストの結果CloudWatchに記録されたレスポンスなどのメトリクスと、vegetaがS3に出力した結果ファイルを参照したAmazon Athenaを利用して問題ないかを判断している。

38.

継続的なバージョンアップ運用マイナーバージョンアップ毎の動作確認パフォーマンスの確認以外にも以下の観点で新旧クラスタを比較している • SolrのログとCloudWatchを利用した書き込み性能の比較 • 実際のクエリログをパターン毎に抽出して同一のレスポンスが返却されるかの確認 • 登録されているレコード数、レコード内容の同一性確認 • Zookeeper停止時の検索機能の継続稼働確認

39.

継続的なバージョンアップ運用動作確認後のデプロイ判断検証結果は右の図のようにまとめており、検証済みのバージョンは必要に応じてリリースできるようにしている。（リリース前に同様の内容で再テストを行う）次のリリースは8.11.x（8.11.0がまだ未検証）もしくは9.1以降で検討中

40.

サービスで活用してもらうために

41.

サービスで活用してもらうために活用できている状態にするために SolrはRDBやKVSのようなよく使われるデータストアとは構成が違うため、各自でがんばってもっと活用しようという話をしてもうまくいかない。サイト側で検索エンジンが必要な案件に対して検索エンジンチームの担当をアサインして一緒に実現に向けて進めるようにしている。 1. 案件ごとにヒアリングしてどのように実現するのか、分担はどのようにするのかを個別に決定している 2. 新しい処理の負荷検証というような軽い話であれば、デプロイの仕組みを使うことで必要に応じて専用の環境を提供して検証してもらっている

42.

バージョンアップで気をつけたいところ

43.

バージョンアップで気をつけたいとこと本番環境を数時間停止させた大障害新しい healthcheck endpoint（Solr8）の取り扱いについて PingRequestHandler HealthCheckHandler 対応バージョン全て 8以降 (SolrCloud) 用途ロードバランサのヘルスチェック用特定ノードが正常かどうかを確認する（＝特定ノードが正常に起動しているかどうかの確認用途）動作対象のcollectionが利用可能になったら • 指定のcollectionで検索できることノードが正常かどうか • Coreがアクティブなこと • Zookeeperと接続されていること • live_nodesに登録されていること • [OPTION] ローカルCoreがアクティブなこと • リクエスト転送されるのでレプリケーション終わっていなくてもHealthになる • [OPTION] healthcheckFileがあること 8にバージョンアップした際にローカルCoreがアクティブなことをチェックしたい要件があり、あまり細かく考えずエンドポイントを切り替えてしまった

44.

バージョンアップで気をつけたいとこと本番環境を数時間停止させた大障害時系列アラート内容障害半年以上前 - Solr 8.6.xへのアップデート ALBのヘルスチェックエンドポイントの差し替え（全停止の根本原因）障害２週間程度前 - Solr 8.8.xへのアップデート Zookeeperのディスクフル要因の変更リリース（全停止の起因埋め込み） 00:00:00 - ディスクフルによるZookeeperの停止 00:00:00 書き込みエラー検知書き込み処理停止 00:01:00 検索用インスタンス台数減少検知ヘルスチェックエラーによる検索用インスタンスの停止 00:10:00 検索用インスタンス全台起動不可ヘルスチェックエラーによって全ての検索用インスタンスが停止 Zookeeperが動作しておらず、Solrが起動できずサービス完全停止 03:00:00 - 新規クラスタ構築完了しサービス正常化完了 04:00:00 - Zookeeperの復旧が完了し旧クラスタも正常動作確認

45.

バージョンアップで気をつけたいとこと本番環境を数時間停止させた大障害の原因と対応 Zookeeperの管理が雑だったことに尽きる 1. 全台停止した原因はディスクフルだったため、監視とストレージの分割を追加 2. Zookeeperを全台停止してもヘルスチェックは成功し、検索はし続けられることを確認するテストを追加 • SolrCloud導入の際は確認していたがヘルスチェックの変更時に確認が漏れていた 3. リリース時のサーバーのログにエラーが記載されていないことのテストの厳密化

46.

バージョンアップで気をつけたいとことバージョンアップでつらかった仕様変更ネガティブブーストの廃止（Solr7→Solr8) Lucene８においてマイナスの重み付けができなくなる変更があった。特定の条件下において優先度の調整に利用していた。詳しく弊社ブログを参照ください https://www.lifull.blog/entry/2021/03/28/090000

https://www.lifull.blog/entry/2021/03/28/090000

47.

バージョンアップで気をつけたいとことその他の問題古いものも含めると • lucene-gosenからkuromojoへの変更 • Result groupingからCollapsing query parserへの変更による並びの変化 • ビルド済みの古い自作プラグインがそのままでは動かない • シャーディングは深いページングと相性が悪いなどメジャーバージョン更新・SolrCloud化によるアプリケーション側への影響は大きく、導入にはアプリケーションの大幅な仕様変更が必要になってくるものも多い。現在はバージョンアップ運用で説明した、非推奨・廃止機能を継続的に確認することで、先手を打って対応しこの問題を最小限に抑えていきたいと考えている。

48.

バージョンアップしてきてどうだったか

49.

バージョンアップしてきてどうだったか単体作業としてのバージョンアップは辛い手順や仕組みのない中でバージョンアップをときどきするというのはその都度、手間も時間もかかり、何よりも作業に対する心理的なハードルが高すぎる。 • デプロイや管理の運用を改善しすぐに同一の環境を構築できるようにすること • バージョンアップを見越して日々情報をキャッチアップすること • テストをコード化しできるかぎり小さい工数で検証できるようにすることこういった積み重ねもあって、今では実際のサービスで稼働しているSolrをアップデートし続けられる下地が整ってきていると感じている。

50.

バージョンアップしてきてどうだったか通常の運用にもポジティブに働くバージョンアップのテストのためにコード化、自動化をしてきたことで • 既存クラスタの負荷試験 • サーバー設定、スキーマ変更時の負荷・動作試験 • サーバースペック変更時の負荷試験など、想定していなかった範囲の改善にもつながっている。

51.

まとめ

52.

バージョンアップしてきてどうだったかまとめ何をするにしても心理的コスト、対応コストが大きすぎて誰も変更したくない状態

53.

バージョンアップしてきてどうだったかまとめ • 稼働しているものと同等の環境をいつでも構築できる • 変更時に既存と同等の利用方法で機能・パフォーマンスなどに影響ないことを確認できる • 次のバージョンの導入を見据えて運用している

54.

バージョンアップしてきてどうだったかまとめ追加・変更したい機能に集中して安心して開発できる状態に近づいている

55.

バージョンアップしてきてどうだったかまとめまた、これらの改善によりできるようになった機能開発・改善をコントリビュートできるようにしていきたい

56.