Prometheusをざっくり解説

114 Views

July 24, 21

スライド概要

yassy

@yassy

スライド一覧

インフラ系エンジニアやってるJK。

関連スライド

mRNA-Seq入門【第四回】

バイオインフォマティクス mrna-seq edger

膝栗毛之男 64.8K

mRNA-Seq 入門【第五回】

バイオインフォマティクス mrna-seq trinity blast de novo

膝栗毛之男 50.5K

第一原理計算と密度汎関数理論

物理学量子力学量子化学量子化学計算計算化学

dc1394 36.6K

不変性に基づく転移学習:理論と方法

転移学習ドメイン適応不変性

松井孝太 35.7K

mRNA-Seq入門【第三回】

バイオインフォマティクス mrna-seq star

膝栗毛之男 24.6K

OSPRayで可視化してみた

opencae paraview ospray

Youhei Takagi 13.7K

各ページのテキスト

Prometheusをざっくり解説 @yassy

2 自己紹介 SIerで働くインフラ系エンジニア Kubernetes/OpenShift Skull The Mind etc...

3 01 Prometheusとは？ 02 Prometheusを構成する要素 03 各コンポーネントをざっくり説明

4 Prometheus is 何？ ⚫ 音楽共有サービスのSoundCloud社が開発した新しい監視システム ⚫ 各監視対象に監視エージェントを導入する必要がある ⚫ Prometheusが監視エージェントからメトリクスを取得する、いわばPull型のモデル ⚫ 監視データをメトリクスという形で管理している

5 メトリクスのサンプル ⚫ curlで取得したメトリクス(抜粋) [root@prometheus ~]# curl http://prometheus:9090/metrics # HELP go_gc_duration_seconds A summary of the pause duration of garbage collection cycles. # TYPE go_gc_duration_seconds summary go_gc_duration_seconds{quantile="0"} 1.6331e-05 go_gc_duration_seconds{quantile="0.25"} 4.7408e-05 go_gc_duration_seconds{quantile="0.5"} 5.4744e-05 go_gc_duration_seconds{quantile="0.75"} 6.4862e-05 go_gc_duration_seconds{quantile="1"} 0.00176476 go_gc_duration_seconds_sum 0.003404667 go_gc_duration_seconds_count 31 # HELP go_goroutines Number of goroutines that currently exist. # TYPE go_goroutines gauge go_goroutines 38 # HELP go_info Information about the Go environment. # TYPE go_info gauge go_info{version="go1.16.5"} 1

6 ⚫ 昨今のクラウド/コンテナ環境においては、動的なサーバのスケールが当たり前になっている ⚫ 上記のように監視対象が動的に変化するシステムにおいては、既存の監視ツール(例：Zabbixなど)は不向き ⚫ Prometheusでは、サービスディスカバリと呼ばれる機能で対象の情報を自動的に取得可能監視対象監視対象 Zabbix 動的な監視対象の追加が難しい

8 Prometheus serverについて ⚫ Prometheusの本体。監視対象にメトリクス取得要求(GET)を投げて情報を収集する ⚫ バイナリを実行するだけで起動するため、インストール作業は不要。べんり GETリクエスト監視対象 (exporter) Prometheus server メトリクス取得

9 exporterについて ⚫ Prometheusが監視対象のメトリクスにアクセスするためのインタフェース ⚫ Prometheusの代わりに、各監視対象の情報を取得/加工する役割がある ⚫ 収集した情報はHTTPを通じて取得できる監視対象ホスト監視対象(ノード、アプリケーション) ごとに専用のexporterを導入する必要がある exporter GETリクエスト Prometheus server exporter メトリクス取得

10.

10 サービスディスカバリ ⚫ 監視対象がスケールした際、自動的に監視対象を追加する仕組み ⚫ 対応したAPIを使用することで、監視対象の増減を取得できるため、自動的に対象を増減させることができる頻繁にスケールしがちなコンテナやクラウドと相性が良い監視対象 (exporter) 監視対象 (exporter) Prometheus server 追加されたサーバに対しても自動で監視追加 APIでサーバ一覧を取得しているため、サーバの増減状況を確認できる

11.

11 Alertmanagerについて ⚫ Prometheusで検知したアラートを発報するための管理システム ⚫ 通知先としては以下に対応している − メール − Slack − RestAPI etc... ⚫ PromQL(Prometheusで使用されるクエリ言語)でアラートの条件を指定する ⚫ Alertmanagerは発火(fire)したアラートを任意のツールに通知する ⚫ アラート大量発生を防ぐため、アラートの重複排除や、グルーピングも可能

12.

12 Alertmanagerでアラートをメール送信してみる ⚫ 監視対象がダウンした場合にアラートを発火させるサンプル(rules.yml) groups: - name: alertexample rules: - alert: InstanceDown expr: up == 0 # up==0で監視対象が停止していることを示す for: 1m # 間欠障害を考慮し、1分障害が発生していた場合にアラートを発火 GETリクエスト監視対象 (exporter) Prometheus server メトリクス取得 Alertmanager メール送信

13.

13 Alertmanagerでアラートをメール送信してみる ⚫ アラートをメール送信するサンプル(alertmanager.yml) global: resolve_timeout: 5m smtp_from: ‘prometheus.test@example.com’ smtp_smarthost: ‘192.168.33.1:25’ route: receiver: ‘mailtest’ receivers: - name: 'mailtest' email_configs: - to: ‘root@localhost.localdomain’ require_tls: false # 送信元メールアドレス # SMTPサーバ # アラートの通知先振り分け # 宛先メールアドレス

14.

14 Prometheus画面アラート情報

15.

15 Alertmanagerメール通知テストアラートの内容と対象メッセージは変更可能

16.

16 Grafanaについて ⚫ Prometheusで取得した情報を可視化するツールとしてよく使用される ⚫ Prometheusのみでなく、ElasticSearchやZabbixにも対応

17.

17 Grafanaダッシュボード

18.

18 注意点とか ⚫ Prometheusは100%のデータ保持を担保しない 100%を求めるのであれば、他の監視ツールを推奨 ⚫ Prometheus自体の冗長構成はサポートされていない同じ設定を別のPrometheusに入れることで、同じデータが取得できるそのため、同一設定のPrometheusを用意した上で、LBもしくは、名前解決で切り替える等の構成となる監視対象 (exporter) Prometheus server ＝ Prometheus server LB

19.