オンコール担当がインシデントコマンダーを担う仕組みづくり

16.4K Views

January 16, 24

#インシデントマネジメント #SRE #オンコール #障害対応 #PagerDuty

スライド概要

Incident Response Meetup vol.1での発表資料です
https://incident-response.connpass.com/event/304636/

Yuki Ando

@integrated1453

スライド一覧

経済ニュースアプリのCTOをしています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

3年間運用したCDKの失敗から学ぶCDK開発のプラクティス

Yuki Ando 141.1K

意外とマネージドなECS on EC2の運用

Yuki Ando 129.8K

SREチームがNew Relicを使って AWSコスト最適化に貢献した話

Yuki Ando 88.1K

AWSコストを全体で43.75%削減するためのコストモニタリング技術

Yuki Ando 71.9K

インフラエンジニア・SREを経てCTOになるために必要だったこと

Yuki Ando 57.2K

プロダクト開発エンジニア全員で取り組むオブザーバビリティ

Yuki Ando 56.8K

各ページのテキスト

オンコール担当がインシデントコマンダーを担う仕組みづくり株式会社ユーザベース安藤裕紀 Incident Response Meetup vol.1 - 2024.1.16(Tue)

01 NewsPicksのプロダクト開発組織、エンジニア体制ユーザベースグループ内にNewsPicks独自のプロダクト開発組織があり、70名ほどのエンジニアが在籍していますユーザベースグループ(約1,200名※業務委託含む) NewsPicks Product Domain (15Unit 約100名) プロダクトマネージャー NewsPicks Product Engineering Division(11Unit 約70名) Media Experience Unit Media Infrastructure Unit Subscription Product Unit NPEx Product Unit SBD Product Unit BDD Product Unit Stage Product Unit Web Platform Unit デザイナーカスタマーサポート ©Uzabase, Inc. All Rights Reserved. Mobile App Unit Analytics and Data Lab Unit SRE Unit 私はこのチームのリーダーをやりつつ、運用や障害対応の仕組みの改善に取り組んでいます

01 障害対応に関わる役割：運用当番 ● NewsPicksのエンジニアは全員がプロダクト志向で開発から運用までフルサイクルに関わる ● 経済ニュースのサービスなので、24h/365dのオンコールシフトを組んでいる (PagerDutyで管理) ● 運用当番は、障害が発生した際の一次切り分けとエスカレーション、状況報告を推進するモバイルアプリ担当1名、サーバー担当2名の3名が『運用当番』 ©Uzabase, Inc. All Rights Reserved.

01 ● 余談：障害対応に関わる単語の呼称 NewsPicksでは障害発生時に記者・編集者などビジネスサイドとのやりとりが発生するため、意味が通じやすい日本語の呼称になっている気がします。(ビジネス職メンバーは数百名在籍) ● 障害対応に関わる単語の呼称 ○ オンコール担当：『運用当番』 ○ ポストモーテム：『障害撲滅委員会』 ○ War Room：『障害対応優先スペース』障害報告・問い合わせチャンネルのリマインダー ©Uzabase, Inc. All Rights Reserved.

10.

11.

02 ● NewsPicksの障害対応の流れ ? 運用当番がアラートを受けて、暫定復旧までは対応するシステムのアラート (bugsnag->PagerDuty, New Relic) BizメンバーのSOS (Slack->PagerDuty) ©Uzabase, Inc. All Rights Reserved. 運用当番（オンコール担当）が一次切り分け・担当チームアサイン・暫定復旧作業障害撲滅委員会開催（ポストモーテム）担当チームで開発のバックログとして対応

12.

02 ● 運用当番のスキルとオーナーシップが人によって違っていた ? 運用当番がアラートを受けて、暫定復旧までは対応するシステムのアラート (bugsnag->PagerDuty, New Relic) BizメンバーのSOS (Slack->PagerDuty) ©Uzabase, Inc. All Rights Reserved. 運用当番（オンコール担当）が一次切り分け・担当チームアサイン・暫定復旧作業運用当番「担当チームがどこなのかわからない… 自分でログを見ようとしたけど時間がかかってわからなかった…」「担当チームにエスカレーションしたから後のことは任せよう」「俺が問題を解決する！→解決した！！」障害撲滅委員会開催（ポストモーテム）担当チームで開発のバックログとして対応

13.

02 障害対応は信頼性の要なので、「人による」をなくしたい SRE Bookの信頼性の階層「ユーザーがサービスを使えない時間」の内訳 ● 障害の検知までの時間がかかるとダウンタイムが伸びる（監視） ● 検知から適切なエンジニアのアサインまでの時間がかかるとダウンタイムが伸びる（障害対応） ● エンジニアのアサインから暫定復旧までの時間がかかるとダウンタイムが伸びる（障害対応） ©Uzabase, Inc. All Rights Reserved.

https://sre.google/sre-book/part-III-practices/

14.

02 ● インシデントコマンダー文化の導入で解決できるのではと考えた検知から適切なエンジニアのアサインまでの時間がかかるとダウンタイムが伸びる 👉基本的に運用当番が手を動かそうとすることはしない担当をアサインし、障害の状況をレポートし、関係者を巻き込むことに集中する ● 担当アサインから暫定復旧までの時間がかかるとダウンタイムが伸びる 👉「集合知」と「同期コミュニケーション」を活用する Slackでのやりとりから通話（Gatherの障害対応スペース）にすみやかに切り替える ©Uzabase, Inc. All Rights Reserved.

15.

02 参考：インシデントコマンダーについてのドキュメント PagerDutyのドキュメントがめちゃくちゃ参考になります https://ueokande.github.io/incident-response-docs-ja/training/incident_commander/ インシデントコマンダーとしての仕事は、他の背景情報や詳細情報を集約して明確な調整をするために、通話を聞きインシデントのSlackルームを見ます。インシデントコマンダーは、任意のアクションの実行や修正をしたり、グラフやログの調査をすべきではないです。それらのタスクは委譲すべきです。 > オンコールのインシデントコマンダーとして通話に参加した場合はアナウンスしてください。 > 議論を手放さないでください。会話は短くするようにしてください。 > 他の人からの意見に注意しつつ、あなたの判断が最終決定となります。 > もし議論の妨げになる人が通話に参加してきたら追い出してください。 > 通話の終了をアナウンスしてください。 ©Uzabase, Inc. All Rights Reserved.

https://ueokande.github.io/incident-response-docs-ja/training/incident_commander/

16.

17.

18.

02 インシデントコマンダー難しくありません。誰でもできるはず実はシステムの深いドメイン知識や技術力やログ調査は必要なかったです関係者とのコミュニケーションを取りまとめて、障害を解決するように推進するだけそのために『運用当番のお知らせ』のSlack通知に必要な心構えや対応を書くようにしましたオンコールを運用するSlack通知の実装の詳細は記事に書きました「PagerDutyのオンコールシフトをSlackでリマインドする〜TypeScriptとAWS CDKで実装〜」 ©Uzabase, Inc. All Rights Reserved.

https://qiita.com/yuki549/items/3a2a6beeb78a43401b97

19.

20.

03 ● インシデントコマンダーを、SREくらい有名にしたい運用当番（オンコール担当）にインシデントコマンダーの役割を担ってもらう期待を明文化した ○ プロダクト開発組織で運用当番がやるべき仕事についての解像度が上がってきた ■ ログ調査はメインの責務ではないので自分で手を動かしはじめない ■ とにかくGatherの障害対応優先スペース（枯山水）に人を集める ■ Slackの障害対応スレッドに状況をアップデートして、関係者とのコミュニケーションを取りまとめて障害対応を推進する ■ ● 障害撲滅委員会（ポストモーテム）の開催判断と、積極的な運営をするまずは「インシデントコマンダーは何をするの」に対して、「SREってなんとなくこういう役割だよね」というイメージのように、期待される役割のイメージを普及していきたい ○ その上で、必要なドキュメント・ツール・トレーニングを整備していきたい（これから） ©Uzabase, Inc. All Rights Reserved.

21.