Stackdriver を利用した実戦的なサーバ監視・運用方法

1.7K Views

May 23, 23

#gcp #google #監視サーバー #cloud #Stackdriver #Server Monitoring #Operation Management #Google Cloud #AWS

スライド概要

2018/09/20 (木) 東京で開催された Google Cloud Next '18 in Tokyoで、代表取締役の原岡がセッション登壇したときのスライド資料です。

株式会社ビヨンド

@beyond24365

スライド一覧

日本・中国・カナダを拠点に、AWS や GCP・Azure などのマルチクラウドに対応した、クラウド / サーバーの構築・移行、24時間365日の運用保守 / 監視、負荷テスト、Webシステム開発、サーバーサイド / API 開発など、クラウド / サーバーに特化したサービスをご提供いたします。 ● コーポレートサイト https://beyondjapan.com ● YouTube https://www.youtube.com/c/beyomaruch ● X https://x.com/beyondjapaninfo ● Instagram https://www.instagram.com/beyondjapan_24365

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

AlmaLinux と Rocky Linux の誕生経緯＆比較

server linux os

株式会社ビヨンド 48.9K

RHEL(Red Hat) ソースコード一般公開停止騒動

rhel ソースコード

株式会社ビヨンド 25.5K

「AnsibleでSSL証明書を自動更新してみた」

ビヨ勉 ansibl ssl

株式会社ビヨンド 11.7K

ChatGPT を社内で活用するためにやったこと（仮）

ビヨ勉 chatgpt

株式会社ビヨンド 9.7K

「Azure Monitor のアラートを様々なコミュニケーションツールに通知する」

ビヨ勉 azure

株式会社ビヨンド 8.8K

マルチステージビルドでDockerイメージを最適化する方法

ビヨ勉

株式会社ビヨンド 8.8K

各ページのテキスト

Speaker 原岡昌寛株式会社ビヨンド代表取締役 Google Certified Professional Cloud Architect Oracle DBAから LINUXベースのインフラエンジニアへ

Agenda 1. 2. 3. 4. 会社紹介 Stackdriver について他の監視ツールとの違い Stackdriver と運用監視

1 会社紹介

ビヨンドについて会社紹介 ■ 会社名株式会社ビヨンド ■ 設立年月日 2007年4月4日 ■ 事業内容・サーバー事業・システム開発事業・Webサービス事業

主な事業内容主な事業内容（サーバ事業） ■ サーバー構築/24時間365日のサーバー監視と運用（MSP）

主な事業内容主な事業内容（システム開発事業） ■高負荷・高可用性・低レイテンシなど、ご要望に応じた API開発

主な事業内容主な事業内容主な事業内容（Webサービス事業）

2 Stackdriver について

10.

Stackdriver とは Google Cloud Platform（GCP）の運用監視ツールアプリケーションのモニタリングサービスマルチクラウド環境の監視エラー検知・分析、デバッグ

11.

Stackdriver の特長 GCP 環境でのネイティブ統合 GCP 、AWS の監視を統合して行える各種クラウドサービスとの連携（Slack、PagerDuty）モニタリングを数分で簡単に開始できるアプリケーション開発の効率化スマートなデフォルト設定

12.

Stackdriver が提供する機能機能概要 Stackdriver Monitoring メトリクス監視、指標・イベント収集、ダッシュボード、グラフ、アラート Stackdriver Logging ログデータ・イベントの検索・分析・モニタリング・通知、公開API Stackdriver Error Reporting クラッシュをカウントして、分析と集計を実施、エラー管理インターフェース、エラー詳細 Stackdriver Trace 分散トレースシステム、レイテンシデータ収集、パフォーマンス分析 Stackdriver Debugger リアルタイムアプリケーションデバッグ、本番環境のコード分析

13.

Stackdriver のアカウント管理

14.

Stackdriver の使いどころ GCP 環境・Google プロダクトのネイティブ統合 BigQuery、Cloud Pub/Sub、etc AWS とのマルチクラウド環境・可用性向上のためのバランシング・適材適所によるパフォーマンス向上 BigQuery、Cloud Bigtable ・コスト削減

15.

インフラエンジニアから見たいいところ・GCP / AWSの両方が監視可能・WEB/Applicationの外形監視のレイテンシが世界各国から見える・BigQuery と連携（BQ利用状況を視覚化）・Kubernetes ネイティブである（Kubernetesのノード、ポッド、デプロイメントのメトリクスを収集する）・advanced logs filter （高度なログフィルター）

16.

3 他の監視ツールとの違い

17.

ビヨンドで主に利用している監視ツール Stackdriver CloudWatch Mackerel Zabbix Nagios

18.

Cloudwatchとの違い ■ CloudWatch ・対象：AWS ・メトリクス：死活、ログ・通知方法： Amazon SNS ・データ保持期間：2週間 ■ Stackdriver ・対象：GCP / AWS ・メトリクス：死活、プロセス、Web、ログ、トレース、デバッグ・通知方法：メール、Webhook、Slack、PagerDuty等・データ保持期間：6週間

19.

mackerel との違い ■ Mackerel ・対象：AWS/クラウド/オンプレミス・メトリクス：死活、プロセス、Web、ログ・料金：1ホスト1800円～ Trial 14日間・通知：メール、Webhook、Slack、PagerDuty、TypeTalk、ChatWork ・データ保持期間：460日 ■ Stackdriver ・対象：GCP / AWS ・メトリクス：死活、プロセス、Web、ログ、トレース、デバッグ・料金：無料プラン/有料プラン・通知方法：メール、Webhook、Slack、PagerDuty等・データ保持期間：6週間

20.

Zabbixとの違い ■ ZABBIX ・対象：クラウド/オンプレミス・サーバ：必要・通知方法：メール（カスタムで多種の連携も可能）・料金：サーバ費用・データ保持期間：特に制限なし（指定した分だけDBに蓄積） ■ Stackdriver ・対象：GCP / AWS ・サーバ：不要・料金：無料プラン/有料プラン・通知方法：メール、Webhook、Slack、PagerDuty等・データ保持期間：6週間

21.

Webサイト監視サービスアプミル ● ● ● ● GCP 環境で構築 Webの外形監視のみのシンプル設定エンジニア以外の利用を想定 URL設定だけで通信、コンテンツ、セキュリティのチェックが行える https://appmill.work image

https://appmill.work

22.

GCP でのアプミルシステム構成 Cloud Datastore Cloud Storage Cloud Pub/Sub Cloud Load Balancing Cloud Functions Compute Engine Cloud SQL Monitoring Error Reporting Logging

23.

4 Stackdriver と運用監視

24.

Stackdriver でのアプミル監視設定監視項目間隔閾値 CPU使用率平均90％以上 CPU LoadAverage 平均5以上 Memory使用率平均90％以上 1分 Swap使用率平均20％以上ディスク使用率平均80％以上 DB接続数 1分当たりの平均100以上 OSログ syslog ミドルウェアログアプリケーションログ常時 Nginx プログラムエラーログ

25.

運用監視のポイント 1. 2. 3. 4. 対応速度コミュニケーション対応スキル情報共有

26.

１．対応速度アラートにどれだけ素早く対応できるか・サーバへの素早いアクセス・関係者への連絡・サービスの動作確認・切り分け・一次対応

27.

アラート内容のカスタマイズ・素早い対応はアラート内容の工夫から・メール文言のカスタマイズで障害箇所への素早いアプローチ Alerting / Policies / Create / 3Documentation マークダウン方式

28.

アラートノイズを減らす・重要でないアラートが増える ⇒オペレーション担当者の疲弊 ⇒重要なアラートに気付かない・まめなメンテナンス閾値の変更 Alerting / Policies / Edit 時間の調整

29.

サードパーティ連携主要なオープンソースをサポートエージェントをインストールしミドルウェア設定とエージェント再起動 Apache Nginx MySQL Memcached Redis Elasticsearch

30.

２．コミュニケーション・関係者との素早いレスポンス（チャット）・日々のやり取りで安心感を持ってもらう・電話を恐れない・顔の見える環境で信頼関係を作る

31.

チャット連携アラート対応にはチャットの通知が有効 Slack 連携でログを残す過去データの検索対応速度のアップ Pagerduty との連携も

32.

アプリケーションログログエージェントのインストール install-logging-agent.sh アプリケーションログからエラー検知するためには開発者の協力が必要緊急度の高いエラー、対応の流れなどを事前に決めておく

33.

３．対応スキル・サービスの動作確認サービスを知ること、コンテンツを見る・切り分けネットワーク？OS？ミドルウェア？ログ、グラフを読み取る・一次対応正しい根本原因解決より、素早い暫定対応・二次対応再発に備え根本原因を解決する

34.

監視フローの作成

35.

４．情報共有・24時間365日は一人では見れない・対応のばらつきをなくす ⇒ マニュアル化、訓練・アラートをためておく ⇒ 過去の事例の共有、検索・正確なデータを保つ ⇒ データのメンテナンス

36.

アラートのレベル分け Aランクサービスが止まっている可能性が高いため最優先で対応 Bランクこのまま放置しておくとサービスが止まる可能性が高いため優先的に対応 Cランクすぐにサービスに影響が出る可能性はないが対処が必要

37.

アラート発生頻度を集計する監視項目別 Ping監視ポート監視 URL監視ロードアベレージ監視 CPU監視メモリ監視プロセス監視 SWAP監視ディスク使用量監視合計ランク A A A B B B B C C 件数 9 152 145 6 310 4 114 35 51 826 割合 1% 18% 18% 1% 38% 1% 14% 4% 6% 37% 53% 10% （2018/某月の実績）

38.

上位アラートの発生頻度アラート別統計総計上位10件合計割合（％） A B C 306 434 86 82 204 0 26.7% 47.0% 0% （2018/某月の実績）

39.

上位アラートの解決・発生数の多いアラート10件は全体の7割以上になることも・月ごとに統計を取り上位アラートから優先順位を上げて根本解決していく

40.

41.