非難なきポストモーテム文化が好き

2.8K Views

December 08, 23

スライド概要

ゆるSRE勉強会 #3の発表資料です。
https://yuru-sre.connpass.com/event/299001/

profile-image

経済ニュースアプリのSREの仕事をしています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

非難なきポストモーテム文化が好き 株式会社ユーザベース 安藤 裕紀 ゆるSRE勉強会 #3 - 2023.12.08(Fri)

2.

00 自己紹介 安藤裕紀 / あんどぅ NewsPicks事業 SRE Unit Leader SREチームのマネージャー 兼 テックリード 好きなSREのプラクティス:非難なきポストモーテム文化 ©Uzabase, Inc. All Rights Reserved.

3.

00 最近読んでよかったポストモーテム 『透明性の確保』のコミットメントを示すために公開、 めちゃくちゃ良いですね・・・! https://classmethod.jp/news/postmortem20231205-incident/ ©Uzabase, Inc. All Rights Reserved.

4.

00 ソーシャル経済メディア NewsPicksについて ©Uzabase, Inc. All Rights Reserved.

5.

00 目次 1. 障害対応の体制など 2. NewsPicksのポストモーテム(障害撲滅委員会) 3. まとめ ©Uzabase, Inc. All Rights Reserved.

6.

01 障害対応の体制など ©Uzabase, Inc. All Rights Reserved.

7.

01 NewsPicksのプロダクト開発組織、エンジニア体制 ユーザベースグループ内にNewsPicks独自のプロダクト開発組織があり、70名ほどのエンジニアが在籍しています ユーザベースグループ(約1,200名※業務委託含む) NewsPicks Product Division (15Unit 約100名) プロダクト マネージャー NewsPicksエンジニア (11Unit 約70名) App Reader Experience Unit Creator Experience Unit Base Reader Experience Unit Marketing Product Unit BizPremium Product Unit Topics Experience Unit BrandDesign Unit Web Experience Unit デザイナー カスタマーサポート ©Uzabase, Inc. All Rights Reserved. Mobile App Unit Data/Algorithm Unit SRE Unit (6名) 私はこのチームのリー ダーをやりつつ、運用や 障害対応の仕組みの改善 に取り組んでいます

8.

01 障害対応に関わる役割:運用当番 ● NewsPicksのエンジニアは全員がプロダクト志向で開発から運用までフルサイクルに関わる ● 経済ニュースのサービスなので、24h/365dのオンコールシフトを組んでいる (PagerDutyで管理) ● 運用当番は、障害が発生した際の一次切り分けとエスカレーション、状況報告を推進する モバイルアプリ担当1名、 サーバー担当2名の3名が『運用当番』 ©Uzabase, Inc. All Rights Reserved.

9.

01 障害対応に関わる役割:運用当番 ● 運用当番(オンコール担当)が、インシデントコマンダーとして障害を解決に導くことを期待 ● 障害に伴うコミュニケーションのとりまとめを行い、ポストモーテム(障害撲滅委員会)の 開催判断をする 運用当番になると、こんなSlack通知がきます ©Uzabase, Inc. All Rights Reserved.

10.

01 ● 余談:障害障害対応に関わる単語の呼称 NewsPicksでは障害発生時に記者・編集者などビジネスサイドとのやりとりが発生するため、 意味が通じやすい日本語の呼称になっている気がします。(ビジネス職メンバーは数百名在籍) ○ オンコール担当:『運用当番』 ○ ポストモーテム:『障害撲滅委員会』 障害報告・問い合わせチャンネルのリマインダー ©Uzabase, Inc. All Rights Reserved.

11.

01 NewsPicksのポストモーテム (障害撲滅委員会) ©Uzabase, Inc. All Rights Reserved.

12.

02 ポストモーテム(障害撲滅委員会) ● なんか怖そうな響きですが、怖くないです ● Notionドキュメントで共同編集しながら、 みんなでワイワイ埋めていくスタイル ● 開発から運用までフルサイクルに関わる エンジニアとしての知見共有と、 より品質の高いサービスを目指すための 再発防止策を考える機会 ● 監査のサンプリングで提出する用途も一応ある ©Uzabase, Inc. All Rights Reserved.

13.

02 2年以上続いて気づけばなんと第185回。200回が見えてきた 毎週のように追加されるので、毎週自社サービスのポストモーテムが読めます🥰 ©Uzabase, Inc. All Rights Reserved.

14.

02 開催後、エンジニア全体チャンネルに共有し学びのきっかけに 『ありがとうございます』『なるほど』 『勉強になる』などのスタンプがつく スレッドに『これ難しかったよね〜』 『こうした方がよかったかも』などの 他チームからのフィードバックもつく ©Uzabase, Inc. All Rights Reserved.

15.

02 各チームで輪読会のように読まれるケースも 『障害撲滅委員会の議事録を読む会』を定期開催しているチームのSlack投稿 チームで読むことで、『このチームで担当しているサービスで同様の状況になったら』 など、実践的な対策の議論に発展できる ©Uzabase, Inc. All Rights Reserved.

16.

02 アクションアイテムの消化状況をトラッキングする 議事録フォーマットのアクションアイテムの欄がNotionDBなので、ステータスがわかる🥰 ©Uzabase, Inc. All Rights Reserved.

17.

02 アクションアイテムの消化状況をトラッキングする 書籍『SREの探求』では、ポストモーテムのアクションアイテムの累積を 『修復負債』と捉えて返済していく考え方がありますが、近い形で棚卸しをしています。 ©Uzabase, Inc. All Rights Reserved.

18.

03 まとめ ©Uzabase, Inc. All Rights Reserved.

19.

03 ● ポストモーテムはいいぞ サービスの信頼性を高めるために、障害が発生した後の振り返りと再発防止策が重要なのは もちろんですが・・・ ○ 自社内のエンジニア同士での知見共有や、よりサービスの品質高めるための 改善の議論に発展するようなポジティブな空気感の醸成が重要だと思います ● ■ 共有してくれた人に『ありがとう』スタンプの連打 ■ スレッドに積極的にコメント、学びの感想の共有 ■ アクションアイテムを、プロダクト改善の自分ごととしてみんなで見ていく 非難なきポストモーテム文化は、学習と成長を繰り返すサイクルにつながっていいことしかない ©Uzabase, Inc. All Rights Reserved.

20.

ご清聴ありがとうございました! ©Uzabase, Inc. All Rights Reserved.