SREチームとしてSREしてみた話

347 Views

December 27, 18

スライド概要

4月にSREチームに配属されてからSREを意識して行った数々の奮闘を少しだけお話します。

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

SRE チームとしてSREしてみた話 Ryota Suginaga ( @transnano )

2.

Agenda Self-introduction Team-introduction What's SRE Our team's SRE Summary

3.

Self-introduction Key Value Name Ryota Suginaga Birth 2 Jun 1987 Hobby Job Note @transnano 生まれも育ち も福岡 テニス、バレー、自転 車、スノボ、 殿 通称: カメラ、ポケモンGo、ハ ッカソン Apr 2012~:SE SRE 部 Jan 2018~:Yahoo! JAPAN

4.

Questions 聞いたことある人? SRE 説明できる人? SRE やったことある人? SRE

5.

What's SRE サービスの運用をソフトウェアエンジニアリング の力で改善していく取り組み What's the Difference Between DevOps and SRE? を哲学とするならば、 はその哲学を達成す るための規範的な方法 DevOps class SRE implements DevOps SRE

6.

Introduction of SRE ⇒サービスを安定稼働させることが仕事 SRE チームの責任は以下に示すように多岐に渡る サービスの可用性、レイテンシ、パフォーマン ス、効率性、変更管理、モニタリング、緊急対 応、キャパシティプランニング 稼働率 100% は目指すな 、リスクを許容せよ トイルの撲滅:スケールを阻害するもの 運用業務 50% 以下 サービス障害を恐れず、コントロールする

7.

Our team's SRE トイルの撲滅、オーバーヘッドの削減 効率化、自動化、etc... モニタリング&アラート 強化、etc... 目標:運用業務時間 、開発業務時間

8.

Team-introduction として必要なツールやPFを提供している部隊 チーム 4 月にできたばかり、開発メンバー 7 名 プロダクト 他チームが持っていたものを引き継いだ x3 働き方 Scrum モブプログラミング/ペアプログラミング リモート開発(オフィス 自宅,福岡 東京) SRE

9.

効率化 なくしたもの/減らせたもの 属人化 会議 メール 一本化したもの 問い合わせ窓口(ツール) 手順書置き場 etc...

10.

会議室予約 福岡や東京の会議室の予約が週に7室分 悩み:取り忘れる、TV会議室少ない、バラバラ、etc... Microsoft Flow 使って、定期実行で予約 ⇒様々なサービスを連携してくれるもの 確実!漏れなし!予約後はチャットに通知

11.

PR 確認の効率化 チームで計 6 つのOrganizationを持つ ⇒PRの一覧を見るのがたいへーーん! 複数のOrgに跨るPRをチャットに集約

12.

PR 確認の効率化の偏移 朝会のタイミングで通知していた時代 1. Screwdriver(CI/CD) (定期実行) 2. FaaS (定期実行) 欲しい時に欲しい情報が手に入る時代 3. ChatOps ( message 駆動で上記 FaaS が起動) 4. GitOps ( PR 駆動で Danger-> 上記 FaaS が起動)

14.

の作法を形式化して指摘を自動化するツール レビュアーを自動で割り当てる テスト更新漏れがないか TODO/FIXME が残っていないか Base branch が間違っていないか これ、WIPだけどいいの?的な Webhook のみでは実現できない条件を Danger で実装 PR

15.

リリース&構成管理 トイル:全手動デプロイ環境もある、 のツラミ 1. 全手動から によるリリースに対応 2. 新機能分は で開発 3. から でデプロイする環境を整備 GitOps でテスト環境へはデプロイ出来た Chef Ansible Ansible Screwdriver Ansible

16.

モニタリング&アラート 悩み: だったり、やりたいことできない + + に移行 安定稼働やキャパシティプランニングのため以下監視 プロセス、リソース、異常ログ、外形、振る舞い 良くなった点 監視項目を柔軟に追加できるようになった サーバの異常にすぐに気付けるようになった Sensu Prometheus と nagios alertmanager grafana

17.

Summary として SRE 本の一部は実践できた 運用業務時間 、開発業務時間 は達成 スクラムとSREは相性がいい トイルを認識する→解消するサイクルができた まだまだ道半ばですよ この後の懇親会でSREについて語りましょう SRE

18.

Enjoy writing slides! https://github.com/yhatt/marp Copyright © 2016 Yuki Hattori This software released under the MIT License.