17.5K Views
February 22, 24
スライド概要
ウェルスナビ株式会社 技術広報チームの公式アカウントです。
監視SaaSが使えなくなった話 ウェルスナビ株式会社 和⽥ 雄樹 @ゆるSRE勉強会#4 LT 1
⾃⼰紹介 和田 雄樹(Yuki Wada) ウェルスナビ株式会社 / システム基盤チーム / インフラエンジニア > チーム規模: 5人(2024年1月時点) > 技術スタック: AWS/ECS/EKS/Terraform/Datadog/PagerDuty ウェルスナビでは ● SRE、FinOps、Containerization、Securityいろいろやってます ● ウェルスナビにおけるコンテナ化の取り組み という記事書きました ひとこと ● 最近、長野(松本)から上京してきました 2 @2024 WealthNavi Inc.
※⼀般社団法⼈⽇本投資顧問業協会「契約資産状況(最新版)(2023年9⽉末現在)『ラッ プ業務』『投資⼀任業』」を基にネット専業業者を⽐較 ウエルスアドバイザー社調べ (2023年12⽉時点) ※画⾯はイメージです。 3
1. 前提 2. PagerDutyが使えなくなった 3. Datadogが使えなくなった 4. まとめ 4 @2024 WealthNavi Inc.
前提: インシデント管理の仕組み あの障害どうだったかな?と振り返るのに便利な仕組みがある(今回は説明省略) ・SlackAppの操作に応じ てチケットに入力内容の 連携/ステータス更新 ・Slack App経由でチケットを起票 ・復旧/恒久対応/再発防止の入力 /承認依頼 オンコール 担当 Lambda Slack ・チャンネルの自動作成 ・関係者の自動 invite ・チャンネル名に含まれた 障害ステータス更新 コンプラ 担当 CS 担当 Webhook Jira ここに蓄積された記録を 掘り起こしてきました アライアンス 担当 障害内容に応じて召集される関係者 5 @2024 WealthNavi Inc.
前提: 当社における監視の重要性 ● ● 発注(NYSEに上場しているETFの売買)は夜間バッチで⾏われる 営業時間外(勤務時間外)のリアルタイム監視は超重要 完全自動化されている夜間 バッチの監視は超重要 ウェルスナビのサービスを支える外部サービスについて【概要編】 - ウェル スナビ開発者ブログ より https://tech.wealthnavi.com/entry/2023/ac/day12 6 @2024 WealthNavi Inc.
前提: システムの監視構成 弊社の標準的なシステムの監視構成はこんな感じ ログ出力 ログ連携 Buffering & Retry Subscription Filter 異常検知時 連携 架電 PagerDuty ECS CloudWatch Logs Firehose オンコール 担当 Datadog ログ アーカイブ 連携失敗 し続けたログ アーカイブされた ログの検索 S3 S3 7 Athena @2024 WealthNavi Inc.
1. 前提 2. PagerDutyが使えなくなった 3. Datadogが使えなくなった 4. まとめ 8 @2024 WealthNavi Inc.
PagerDutyが使えなくなった PagerDutyの障害によってシステム障害時の架電ができなくなった 架電不可に ログ出力 ログ連携 Subscription Filter 異常検知時 連携 架電 PagerDuty ECS CloudWatch Logs Firehose Datadog 9 オンコール 担当 @2024 WealthNavi Inc.
PagerDutyが使えなくなった 期間 ● 約6時間(2021/12/15 06:00 〜 12:00 JSTごろ) 影響 ● PagerDutyから従業員スマホへ架電できなくなった ● 他社も同様の影響を受けたかは不明 原因 ● DNSの問題(詳細不明) 10 @2024 WealthNavi Inc.
PagerDutyが使えなくなった 対応策として、Amazon Connect経由で架電する仕組みを追加した 重要なモニター (監視設定) に 連携設定を追加 Datadog 架電 Amazon SNS Lambda Amazon Connect オンコール 担当 架電したいだけなのであればAmazon Connectで事⾜りる? ● そうかもしれませんが、PagerDutyは架電するためだけのサービスではないです。詳しくは↓ https://www.pagerduty.co.jp/full-feature-comparison/ 11 @2024 WealthNavi Inc.
1. 前提 2. PagerDutyが使えなくなった 3. Datadogが使えなくなった 4. まとめ 12 @2024 WealthNavi Inc.
Datadogが使えなくなった Datadogの障害によって、ログやメトリクスによるシステム障害検知ができなくなった 障害発生 ログ出力 ログ連携 Subscription Filter 異常検知時 連携 架電 PagerDuty ECS CloudWatch Logs Firehose Datadog 13 オンコール 担当 @2024 WealthNavi Inc.
Datadogが使えなくなった https://www.datadoghq.com/ja/blog/2023-03-08-multiregion-infrastructure-connectivity-issue/ より 期間 ● 約24時間(2023/03/08 15:03 〜 03/09 17:58 JST) 影響 ● ブラウザや API を介してDatadogにアクセスできなくなった ● モニター(監視機能)も利⽤できず、アラートも出せなくなった 原因 ● k8sのノードOSの⾃動セキュリティアップデートによって、CNIプラグイン経由で管 理されていたルートテーブルがリセットされた ● アップデートタイミングが全リージョンで 06:00-07:00 UTC に固定されていたた め、全世界で同時多発的に発⽣した 14 @2024 WealthNavi Inc.
Datadogが使えなくなった 対応策として、⼀部ログの監視経路の冗⻑化を⾏なった Metrics Filter ログ出力 Amazon SNS 架電 PagerDuty ECS CloudWatch Logs Firehose オンコール 担当 Datadog ログ監視をしたいだけならCloudWatchで事⾜りる? ● そうかもしれませんが、Datadogはログ監視をするためだけのサービスではないです。詳しくは↓ https://www.datadoghq.com/ja/product/ 15 @2024 WealthNavi Inc.
1. 前提 2. Datadogが使えなくなった 3. PagerDutyが使えなくなった 4. まとめ 16 @2024 WealthNavi Inc.
まとめ 1. 受け⼊れる(あらゆる障害パターンを網羅することは難しい) ● 複数のクラウドプロバイダ、リージョンで構成されているシステムでも障害は起こり得ます 2. 備える(ただし作り込みすぎない) ● 冗⻑監視を安易に作り込むとその仕組みを維持していくコストも増えてしまいます ● ⾃社の監視要件に合わせた対策を考えましょう 3. リスペクトする ● ⻑時間におよぶ障害は焦りますが、それ以上に⽇々恩恵を受けているのも事実です ● ⾝近なサービスが公開するポストモーテムを読んでチームで語らう等、いい⽂化を醸成したいです 17 @2024 WealthNavi Inc.
ご清聴ありがとうございました 18 @2024 WealthNavi Inc.
【重要な注意事項】 ● 本資料は、断定的判断を提供するものではなく、情報を提供することのみを⽬的としており、いか なる種類の商品も勧誘するものではありません。最終的な決定は、お客様⾃⾝で判断するものと し、当社はこれに⼀切関与せず、また、⼀切の責任を負いません。 ● 本資料には将来の出来事に関する予想が含まれている場合がありますが、それらは予想であり、ま た、本資料の内容の正確性、信頼性、完全性、適時性等を⼀切保証するものではありません。本資 料に基づいて被ったいかなる損害についても、当社は⼀切の責任を負いません。また、当社は、新 しい情報や将来の出来事その他の情報について、更新⼜は訂正する義務を負いません。 ● 本資料を利⽤することによりお客様に⽣じた直接的損害、間接的損害、派⽣的損害その他いかなる 損害についても、当社は⼀切の責任を負いません。 商号等:ウェルスナビ株式会社 金融商品取引業者 関東財務局長(金商) 第2884号 加入協会:日本証券業協会 一般社団法人日本投資顧問業協会 19 @2024 WealthNavi Inc.