皆がSRE的な観点を持ったエンジニアになっていく仕組みとは

皆がSRE的な観点を持ったエンジニアになっていく仕組みとは @icchy_san 1

イントロダクション自己紹介伊藤友一 @icchy_san ● ● ● 株式会社ハイヤールー共同創業者の一人前職では某エンジニアQ&Aサイトや看護・介護職の方向けのサービスのインフラを触っていました最近はPlatform周りの業務に携わる事が多いです 2

3.

Agenda 1 スタートアップフェーズのSRE 2 ハイヤールーのSRE活動紹介 3 まとめ

4.

01 スタートアップフェーズのSRE

5.

スタートアップフェーズのSRE スタートアップでSRE活動が軽視されそうな理由機能が少ないユーザーも少ない問題が顕在化する可能性も低い安定性 << 機能開発 5

6.

スタートアップフェーズのSRE SRE的活動をしたほうがよいと考えられる理由スケールしていく企業の場合、信頼性の担保は必要不可欠 ● ● サービスのパフォーマンスが低いダウンタイムが長いサービスに対するマイナスの印象がつく。マイナスの印象はなかなか払拭できない自社サービスが他社サービスと比較された結果選ばれない 6

7.

スタートアップフェーズのSRE 一般的にSREがやること SREがやることって… ● トイル削減 ● ポストモーテムの実施 ● パフォーマンスチューニング ● SLI/SLOの設定 ● エラーバジェットの設定 ● ︙ 7

8.

スタートアップフェーズのSRE 一般的にSREがやること SREがやることって… ● トイル削減 ● ポストモーテムの実施 ● パフォーマンスチューニング ● SLI/SLOの設定 ● エラーバジェットの設定 ● ︙ とにかく多い！ 8

9.

スタートアップフェーズのSRE New! スタートアップでSRE活動が軽視されそうな理由全システムの管理を1人で行うと... ● ● ● ? 1人で全サービスを把握 ⇒ 負荷がかかる各サービスの理解が浅い ⇒ 難しい業務もいずれ限界が来る ⇒ スケールしないスタートアップでは1人運用は厳しい。フェーズ的に合わない活動内容も存在する。 9

10.

02 ハイヤールーのSRE活動紹介

11.

スタートアップフェーズのSRE 結論（再掲） SREがやることって… ● トイル削減 ● ポストモーテムの実施 ● パフォーマンスチューニング ● SLI/SLOの設定 ● エラーバジェットの設定 ● ︙ 11

12.

スタートアップフェーズのSRE 結論ハイヤールーのSREがやってること ● トイル削減 ● ポストモーテムの実施 ● パフォーマンスチューニング ● SLI/SLOの設定 ● エラーバジェットの設定 ● ︙ 12

13.

スタートアップフェーズのSRE ハイヤールーのSRE活動をする上での人員構成 – SREの区分大まかなSRE区分 Pure SRE いわゆるGoogle SREでサービス横断するSRE Role SRE 各開発チームのメンバーが開発をメインにしつつ、パフォーマンスチューニングなどを行う Embedded SRE 各開発チームに派遣されるSRE Platform SRE Center of Practiceを実装するSREで各チームにツールや環境の提供を行う ※他にもあると思うが、説明しやすいように一部抜粋 13

14.

スタートアップフェーズのSRE ハイヤールーのSRE活動をする上での人員構成 – SREの区分ハイヤールーでのSRE区分 Pure SRE いわゆるGoogle SREでサービス横断するSRE Role SRE 各開発チームのメンバーが開発をメインにしつつ、パフォーマンスチューニングなどを行う Embedded SRE 各開発チームに派遣されるSRE Platform SRE Center of Practiceを実装するSREで各チームにツールや環境の提供を行う ※他にもあると思うが、説明しやすいように一部抜粋 14

15.

スタートアップフェーズのSRE ハイヤールーのSRE活動をする上での人員構成 – 実際に行うこと SRE活動や開発をしやすくなるように基盤やツールの提供 Role SRE ● ● ● （メイン）開発所属チーム内のインシデント対応・管理パフォーマンスチューニング Platform SRE ● ● トイル削減ポストモーテム会の実施サービスのコンテキストを理解しているメンバーがインシデント対応や管理を行ったり、パフォーマンスチューニングをしたりするので、 SRE専任1名で対応するよりも低コストでSRE活動ができる。 15

16.

スタートアップフェーズのSRE ハイヤールーで行っていることハイヤールーのSREがやってること ● トイル削減 ● ポストモーテムの実施 ● パフォーマンスチューニング 16

17.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(1) – 何故やるのかサービスをリリースするまでにやることサービスの新規作成手作業が必要な処理モニタリングの設定本番・開発環境の両方に構築高頻度・多量新しいバージョンのリリース作業 ︙ 初期構築者のレビュー生産性の低下 & オペミスによるインシデント率増加リリースまでのリードタイム増加要望対応速度が遅くなり信頼が薄れる 17

18.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(2) – どう進めるか優先度（例）サービスの新規作成モニタリングの設定本番・開発環境の両方に構築新しいバージョンのリリース作業例 1 頻繁に行うことでヒューマンエラーを避けたい部分 2 頻繁に行うことではないが、ヒューマンエラーを避けたい部分本番・開発環境の両方でリソース作成 3 できればやりたい部分モニタリングの設定サービスの新規作成優先度ぎめ新しいバージョンのリリース作業 ︙ 18

19.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(2) – どう進めたか優先度（例）例 1 頻繁に行うことでヒューマンエラーを避けたい部分新しいバージョンのリリース作業 2 頻繁に行うことではないが、ヒューマンエラーを避けたい部分本番・開発環境の両方でリソース作成 3 できればやりたい部分モニタリングの設定サービスの新規作成 CI/CDによるワークフローの自動化 CI周りの話は「モノレポでマイクロサービスを開発するための戦略と運用」で書いています。 19

https://hireroo.io/journal/tech/mono-repo-for-microservices

20.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(2) – どう進めたか優先度（例）例 1 頻繁に行うことでヒューマンエラーを避けたい部分新しいバージョンのリリース作業 2 頻繁に行うことではないが、ヒューマンエラーを避けたい部分本番・開発環境の両方でリソース作成 3 できればやりたい部分モニタリングの設定サービスの新規作成 IaCによる宣言的なリソース管理 20

21.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(2) – どう進めたか優先度（例）例 1 頻繁に行うことでヒューマンエラーを避けたい部分新しいバージョンのリリース作業 2 頻繁に行うことではないが、ヒューマンエラーを避けたい部分本番・開発環境の両方でリソース作成 3 できればやりたい部分モニタリングの設定サービスの新規作成テンプレーティングやモジュール化 21

22.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(2) – どう進めたか優先度（例）例 1 頻繁に行うことでヒューマンエラーを避けたい部分新しいバージョンのリリース作業 2 頻繁に行うことではないが、ヒューマンエラーを避けたい部分本番・開発環境の両方でリソース作成 3 できればやりたい部分モニタリングの設定サービスの新規作成 22

23.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(3) – 最終的にできたものテンプレートからサービス初期化 IaCでリソース定義 CI ・単体テストの実行・成果物を生成（Docker Imageなど） CD ・IaCで管理されたリソースの適用・成果物を各環境へデプロイ 23

24.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(3) – 最終的にできたものテンプレートからサービス初期化 IaCでリソース定義 CI ・単体テストの実行・成果物を生成（Docker Imageなど） CD ・IaCで管理されたリソースの適用・成果物を各環境へデプロイ Platform SREから提供されたワークフローに則るだけで Role SREは開発を始める段階でSRE活動に必要なツール郡が揃う 24

25.

● ● ● スタートアップフェーズのSRE トイル削減ポストモーテムの実施パフォーマンスチューニングトイル削減(3) – 最終的にできたものテンプレートからサービス初期化 IaCでリソース定義 CI ・単体テストの実行・成果物を生成（Docker Imageなど） CD ・IaCで管理されたリソースの適用・成果物を各環境へデプロイ Platform SREから提供されたワークフローに則るだけで Role SREは開発を始める段階でSRE活動に必要なツール郡が揃うトイル削減にコストはかかるが、全員でSRE活動を行うマインドを構築する上で必要な投資 25

26.

スタートアップフェーズのSRE ハイヤールーで行っていることハイヤールーのSREがやってること ● トイル削減 ● ポストモーテムの実施 ● パフォーマンスチューニング 26

27.

● ● ● スタートアップフェーズのSRE パフォーマンスチューニングポストモーテムの実施トイル削減ポストモーテムの実施 (1) ポストモーテムを導入する上で重要なことロギング共有見返したり、インシデント対応者同士のコミュニケーションに利用ポストモーテム共有会を利用して社内全員でインシデントの共有・知識の蓄積ポストモーテム: インシデント内容と学びの共有を目的とした報告書のことポストモーテムインシデントの内容・影響範囲インシデントからの学び 27

28.

● ● ● スタートアップフェーズのSRE パフォーマンスチューニングポストモーテムの実施トイル削減ポストモーテムの実施 (2) – ロギングインシデントタイムライン（ロギング）を活用し、チーム内の作業のコンフリクトや不適切な対応を防ぐ NG OK A B A B Slack Slack Ale Ale rt rt 対応互いに知らぬ場所で対応 Ale rt Ale rt 方針の共有 vi a Sla ck 共通認識を持って対応インシデントの範囲が増加の可能性 UP 対応完了 28

29.

● ● ● スタートアップフェーズのSRE パフォーマンスチューニングポストモーテムの実施トイル削減ポストモーテムの実施 (3) – 共有ポストモーテム会までの流れインシデント対応・アラート確認・Slackで対応報告・恒久対応 or 一次対応ポストモーテム作成・Notionにポストモーテムを作成ポストモーテム会実施・ポストモーテムのレビュー・チームを横断した知見の共有オペレーション化（Optional）・再発する可能性があると判断されたものはオペレーションとして残す・属人化を防ぐ 29

30.

● ● ● スタートアップフェーズのSRE パフォーマンスチューニングポストモーテムの実施トイル削減ポストモーテムの実施 (3) – 共有ポストモーテム会までの流れインシデント対応・アラート確認・Slackで対応報告・恒久対応 or 一次対応ポストモーテム作成・Notionにポストモーテムを作成ポストモーテム会実施・ポストモーテムのレビュー・チームを横断した知見の共有オペレーション化（Optional）・再発する可能性があると判断されたものはオペレーションとして残す・属人化を防ぐ上記サイクルを回しながら知識を蓄積サービスが無くなってもポストモーテムで得た知識は消えない ⇒ 早めに始めると知識が多く貯まるのでオススメ 30

31.

スタートアップフェーズのSRE ● ● ● パフォーマンスチューニングポストモーテムの実施トイル削減ポストモーテムの実施 (4) – ハイヤールーで利用しているテンプレート ● ● ● ● インシデントの詳細 ○ 根本原因 ○ 影響範囲 ○ 一次対応方法 ○ 恒久対応方法インシデント対応のために行った（行う）アクションインシデントからの学び ○ うまく行ったこと ○ うまく行かなかったことインシデントタイムライン 31

32.

スタートアップフェーズのSRE ハイヤールーで行っていることハイヤールーのSREがやってること ● トイル削減 ● ポストモーテムの実施 ● パフォーマンスチューニング 32

33.

● ● ● スタートアップフェーズのSRE ポストモーテムの実施トイル削減パフォーマンスチューニングパフォーマンスチューニングサービスの規模 ∝ 負荷増減なるべく楽をして全員でパフォーマンスチューニングに取り組む環境を作りたい外部サービスの利用 & moduleで自動構築 Datadog ● ● APM、Tracingを利用してリクエストごとのパフォーマンス計測 Infrastructureを利用してシステムメトリクスの計測 Query Insights ● スロークエリや頻繁に実行されるクエリの計測 33

34.

● ● ● スタートアップフェーズのSRE ポストモーテムの実施トイル削減パフォーマンスチューニングパフォーマンスチューニング – システムメトリクスの可視化リクエスト数をモニタリングコンテナに割り当てられるCPUの使用率メトリクスを取っておくだけで因果関係が明確 34

35.

● ● ● スタートアップフェーズのSRE ポストモーテムの実施トイル削減パフォーマンスチューニングパフォーマンスチューニング – 実際に利用例 1 インシデント発生 & ログやAPMのチェック 2 調査結果の共有 & ソリューションの提案 3 ソリューションの実装とリリース収集前のデータとの比較はできないので、初期からメトリクスは収集したほうがよいデータがないデータが存在メトリクス収集開始 35

36.

03 まとめ

37.

● ● ● スタートアップフェーズのSRE ポストモーテムの実施パフォーマンスチューニングトイル削減 Platform/Role SREが改めて何をしているのか Platform SRE Role SRE トイル削減インシデント管理ポストモーテムパフォーマンチューニングトイル削減ポストモーテムインシデント管理パフォーマンスチューニング 37

38.

スタートアップフェーズのSRE 以上を踏まえてハイヤールーでのSRE活動全体サービス開発基盤やツールの提供メイン業務基盤を活用して開発を行うインシデント管理自分が管理しているサービスでインシデントが発生した際にライブインシデントレポート、ポストモーテムの作成を行うパフォーマンスチューニングサービス初期化時に構築されるオブザーバビリティを元にボトルネックになる部分を見つけ、チューニングを行う developers (Role SRE) platform SRE ポストモーテム会 38

39.

Take Away 全体のまとめ ● PoC後のサービス拡大フェーズでは開発速度だけでなく、信頼性も重要 ● SRE活動しようと動いている一人に負荷が集中しないよう、開発者全員が SRE的な動きを行いやすい環境を構築することが重要 ○ Platform SREとRole SREとして分離することで、全員が部分的に SREとしてサービスの信頼性の担保に寄与できる環境を作っている ● SRE活動をする上で最低限行ったほうが良いと考えていること ○ トイル削減 ○ ポストモーテム ○ パフォーマンスチューニング 39

40.

ご清聴ありがとうございました 40

41.

スタートアップフェーズのSRE ハイヤールーのSRE活動をする上での人員構成ハイヤールーでの SRE 区分 Pure SRE いわゆるGoogle SREでサービス横断する SRE Embedded SRE 各開発チームに派遣される SRE Role SRE 各開発チームのメンバーが開発をメインにしつつ、パフォーマンスチューニングなどを行う 41

42.

スタートアップフェーズのSRE ハイヤールーのSRE活動をする上での人員構成ハイヤールーでの SRE 区分 Pure SRE Embedded SRE いわゆるGoogle SREでサービス横断する SRE 各開発チームに派遣される SRE Role SRE 各開発チームのメンバーが開発をメインにしつつ、パフォーマンスチューニングなどを行うハイヤールーでの組織体制 Platform チーム ≒ Embedded SRE 開発チーム ≒ Role SRE 開発チーム ≒ Role SRE 開発チーム ≒ Role SRE 42

43.

スタートアップフェーズのSRE ハイヤールーのSRE活動をする上での人員構成 Platform チーム + Role SREという構成になっており、各サービスのメンバーは開発と Role SREとしての活動を行っている。そのため、各サービスのチームでは ● 各サービスにおけるインシデント管理 ● パフォーマンスチューニングを行っている。 SRE活動をメインとしたメンバーではないため、 CI/CDの構築や各サービスでオブザーバビリティを構築するための基盤となる部分の開発に関しては Platformチームで行っている。その結果、各サービスのコンテキストを理解しているメンバーがパフォーマンスチューニングだったり、インシデントの管理を行うことができるため、負荷を分散することができる。また、開発者側も、パフォーマンスチューニングを行うために必要な基盤が自動で Platformチームから提供されるため、その時間を開発に充てることができるため Win-Winな状態になっている。大まかにな僕のSRE区分 Pure SRE いわゆるGoogle SREでサービス横断する SRE Embedded SRE 各開発チームに派遣される SRE Role SRE 各開発チームのメンバーが開発をメインにしつつ、パフォーマンスチューニングなどを行う 43

44.

● ● ● スタートアップフェーズのSRE ポストモーテムの実施パフォーマンスチューニングトイル削減ポストモーテムの実施 (2) – ロギングインシデントタイムラインはインシデント発生から一次対応、あるいは恒久対応までのリアルタイムなログを関係者同士で共有する場であり、対応者それぞれが共通認識を持ってインシデント対応作業を実行する際に利用される。 NG OK A A B B Slack Slack Ale rt Ale rt Ale Ale rt 対応互いに知らぬ場所で対応インシデントの範囲が増加の可能性 UP rt 方針の共有 vi a Sla ck 共通認識を持って対応対応完了 44

45.

スタートアップフェーズのSRE ● ● ● ポストモーテムの実施パフォーマンスチューニングトイル削減 [WIP] ポストモーテムの実施 (1) ポストモーテムを導入する上で重要なこと 1. 2. 3. インシデントタイムライン（ログ）を取ること全員に対して共有する場を設けること人を非難しないことメモ：スライド全体コピーして別のスライドを作成して作業する（編集がぶつからないように） 45

46.

● ● ● スタートアップフェーズのSRE ポストモーテムの実施パフォーマンスチューニングトイル削減ポストモーテムの実施 (2) – インシデントタイムライン（ログ）を取ること各チーム（サービス）ごとにアラートが流れてくる Slack のチャンネルが存在し、その中でやり取りされる（ライブインシデントレポートとして活用）ため、どのようなインシデントがどのように解決されたかを知る機会が他のチームに無くなってしまう。ポストモーテム会を行うことで ● ● ● ● インシデントの解決と恒久対応のアクションが全員に共有できる根本原因の解決の放置を防ぐ機会になる対応方法によってはオペレーションに落とし込み、ドキュメントを作ることでアラート対応の属人化を防ぐことができるサービスの作成・削除をしても知見として残るといったメリットが挙げられる。 ※人ではなく仕組みに問題があるはずなので、ポストモーテムではそこを議論する事が重要 46

47.

● ● ● スタートアップフェーズのSRE ポストモーテムの実施パフォーマンスチューニングトイル削減ポストモーテムの実施 (3) – 全員に対して共有する場を設けること各チーム（サービス）ごとにアラートが流れてくる Slack のチャンネルが存在し、その中でやり取りされる（ライブインシデントレポートとして活用）ため、どのようなインシデントがどのように解決されたかを知る機会が他のチームに無くなってしまう。ポストモーテム会までの流れ 1 Slack上で対応についてのコミュニケーションを取る 2 恒久対応可能なら行う、時間がかかる場合は一次対応後にタスクを切る 3 対応後にインシデントレポートを Notion上に作成する 4 ポストモーテムの会で発生したインシデントの発表と恒久対応の進捗確認 5 継続して発生する可能性があるものに関してはオペレーションとしてドキュメント化し、属人化しないように対応ポストモーテム会を行うことで ● ● ● ● インシデントの解決と恒久対応のアクションが全員に共有できる根本原因の解決の放置を防ぐ機会になる対応方法によってはオペレーションに落とし込み、ドキュメントを作ることでアラート対応の属人化を防ぐことができるサービスの作成・削除をしても知見として残るといったメリットが挙げられる。 ※人ではなく仕組みに問題があるはずなので、ポストモーテムではそこを議論する事が重要 47

48.

スタートアップフェーズのSRE ● ● ● ポストモーテムの実施パフォーマンスチューニングトイル削減トイル削減日々の開発の中にある代表的なトイル ● ● ● ● ● デプロイビルドサービス初期化時の共通コード Terraformの適用 Kubernetesへの変更適用これらはリリースに必要で、毎回ほぼ同じことを繰り返す作業でありつまらない仕事であり、ヒューマンエラーによる事故が発生する部分でもある。かつて、手動でサービスの初期化を行った際に、サービス名をconfigに設定するコードに不備があり、サービス名が unnamed-go-serviceとなってしまい、正しくアラートできない危険性のあるコードが開発環境に出ていたことがある。 48

49.

スタートアップフェーズのSRE 現状のハイヤールーで採用していない項目について ● ● SLI/SLO ○ 指標（Latencyや成功したレスポンスの割合）と指標の数値目標エラーバジェット ○ 100%エラーのないサービスは無いという前提のもと、一定期間において事前に許容するエラー率 ○ エラーバジェットがない状態では新しいリリースは許容されない ○ 開発陣とSREとで対立しないために設定されることが多い ○ ハイヤールーではエラーバジェットによるリリースストップをしていない ■ 機能を拡充しないといけないフェーズでリリースができないとサービスの成長が止まってしまう ■ エラーが発生していることに素早く気づき、ユーザーが気づくよりも早く修正を行うことで、実質 SLO100％を保つことができる ■ エラーバジェットの設定はできる状態になっている機能Aがほしい HireRoo Error Budget 超えてるので NG SRE developers 49

皆がSRE的な観点を持ったエンジニアになっていく仕組みとは

HireRoo

関連スライド

TSKaigi 2024 TypeScript ASTを利用したコードジェネレーターの実装入門

フロントエンドリアーキテクチャの結果生じたワークフローの変化

TypeScriptで型定義を信頼しすぎず「信頼境界線」を設置した話

技術広報戦略の立て方

鋼の意思で実施した、技術的負債解消のためのリアーキテクチャ

ホットリロードの仕組みを知りたくて車輪の再発明をしてみた話

各ページのテキスト

皆がSRE的な観点を持ったエンジニアになっていく仕組みとは

HireRoo

関連スライド

TSKaigi 2024 TypeScript ASTを利用したコードジェネレーターの実装入門

フロントエンド リアーキテクチャの結果 生じたワークフローの変化

TypeScriptで型定義を信頼しすぎず「信頼境界線」を設置した話

技術広報戦略の立て方

鋼の意思で実施した、技術的負債解消のためのリアーキテクチャ

ホットリロードの仕組みを知りたくて車輪の再発明をしてみた話

各ページのテキスト

フロントエンドリアーキテクチャの結果生じたワークフローの変化