Ses_01_いまさら聞けない監視＆流行りのオブザーバビリティ

いまさら聞けない監視＆流行りのオブザーバビリティ 2025/10/31(金) yamapan 20分 2

スライドのみ撮影可＆SNS投稿可（人物はNG） #すきやねんAzure

Azure の監視と言えば Azure Monitor  Azure Monitor は Azure の監視系サービスの総称  Azure Monitor Agent  Log Analytics Workspace  Container Insights  Network Insights  VM Insights  Network Watcher などなどこれ全部 Azure Monitor 4

4.

おしながき  そもそも、なんで今このテーマ？？  監視とは  オブザーバビリティとは  Appendix : Azure における監視とオブザーバビリティ 5

5.

監視とオブザーバビリティの違いって？シグナル？アラート発報的なやつやろ！そもそもメトリックとログってなんやねん？メトリックとログって？あとテレメトリってなんやねん？ Azure Monitor って Zabbix みたいなやつやろ！しらんけど 6

6.

そもそも、なんで今このテーマ？？  システムの変化モノリシックからマイクロサービスへ Kubernetes、クラウドネイティブ環境の複雑化要するに、最近旬なテーマの１つ。  運用課題従来型監視では「エラーが出たこと」はわかるが「なぜそうなったか」が見えにくいアラートの氾濫による「アラート疲れ」  ビジネス要請サービスの継続性・信頼性が直接売上や顧客満足に影響する SREやDevOps文化の普及で「迅速なトラブルシュート」が必須になった  トレンド OpenTelemetry など標準化の進展 AI/ML を活用した異常検知の実用化 7

7.

監視とは 8

8.

監視とは監視とは？ •システムやサービスが「正常に動いているか」を確認する活動 •あらかじめ決めた指標や閾値で状態をチェックし、異常を早期に検知する仕組み例：CPU使用率 > 80% → アラート発報監視は「症状の早期発見」に強いが、なぜ起きたかまでは見えにくい。監視対象例 • インフラ（サーバー/VM/コンテナ）：CPU、メモリ、ディスク、ネットワーク帯域 • アプリケーション：レスポンスタイム、エラー率、スループット、ユーザー操作ログ • ネットワーク：レイテンシ、パケットロス、帯域利用率、接続可否 • サービス：全体SLA 達成率、稼働率、依存サービスの稼働状況昔は「サーバー監視」が中心 → 今は「アプリ・ネットワーク・クラウドサービス全体」まで広がっている。 9

9.

代表的な監視指標リソース系  CPU 使用率  メモリ使用量  ディスク I/O / 空き容量パフォーマンス系  レイテンシ（応答時間）  スループット（処理件数/秒） SLIやSLO にもつながる指標 SLI は「利用者の体験やサービスの健全性を測るための実際の具体的な数値」監視の中で使うメトリック（CPU使用率やエラー率など）のうち、ユーザーにとって意味があるものを指す。 ※SLOは目標値、SLAは契約信頼性系  エラー率（HTTP 5xx, DBエラー数）  稼働率（Uptime）  可用性（Ping/ヘルスチェックの応答） 10

10.

ログとメトリック ➢ Logs（ログ）システムやアプリで発生した個々のイベントの記録例：エラー発生時の詳細、ユーザー操作履歴、状態遷移など特徴：トラブル時に「何が起きたのか」を細かく追跡できる ➢ Metrics（メトリック）数値化された指標を一定間隔で収集したもの例：CPU使用率、メモリ消費量、ネットワーク遅延時間特徴：グラフ化しやすく、傾向やパターンの把握に強い 11

11.

(従来型)監視の限界- Limitations of Monitoring サイロ化（インフラ・アプリの監視）障害が起きたときに「どこが原因か」を突き止めるのに時間がかかる運用負荷とアラート疲れ閾値を細かく設定するとアラートが大量に発生運用者がアラートメールに慣れてしまい、本当に重大な通知を見逃すリスク異常検知はできるが「なぜ？」がわからないはい！！！！そんなあなたにオブザーバビリティ！！！閾値監視で検知可能しかし「なぜCPUが急増したか」「どの操作が原因か」という因果関係までは追えない 12

12.

クイズ  なぜオブザーバビリティが必要になってきたか、正しい理由はどれか？ 1. 監視が常にすべての原因を自動特定できるようになったため 2. 従来監視では異常検知はできても「なぜか」が分かりにくいから 3. アラートが減りすぎて運用者の仕事がなくなったため 4. インフラとアプリが一体化し監視が単純になったため 5. AIの発達した現代では監視が不要になったため理想的な未来 13

13.

クイズ  SLA, SLO, SLI それぞれについて正しいのはどれか？ 1. SLI は契約書に記載されるサービス保証内容のことを指す 2. SLO は監視で収集された生データそのものを意味する 3. SLA はサービス提供者と利用者の契約、SLO は目標、SLI は指標を示す 4. SLA, SLO, SLI はすべて同じ意味で使われている 5. SLI はサービスの目標値、SLO は実測データである逆 14

14.

クイズ  ログとメトリックについて正しい記述はどれか。 1. ログは必ず数値データとして保存され、グラフ化前提で扱われる 2. メトリックは障害の詳細原因を特定できる高精度データである 3. ログはイベントや処理内容の記録、メトリックはCPUやメモリ使用率などの時系列サンプリング数値 4. メトリックは必ずストレージに長期間保存される履歴データである 5. ログは決められた間隔(1秒など)ごとの数値を必ず時系列で収集するデータである 15

15.

オブザーバビリティとは 16

16.

オブザーバビリティとは- Observability  可観測性ともよばれる。英語でいうと、Observability！  かっこよく書くと O11y 「システムがどのような状態になったとしても、それがどんなに斬新で奇妙なものであっても、どれだけ理解し説明できるかを示す尺度です。」（by オブザーバビリティ・エンジニアリング) 「オブザーバビリティ」という言葉の起源は、1960年代の制御理論までさかのぼる。1960年代初頭に、ルドルフ・カルマンは動的なシステムの内部状態を外部からの観測データに基づいて推定する概念を提唱。この概念が「可観測性（Observability）」と呼ばれ、「オブザーバビリティ」の語源。その後、システム工学、情報科学、社会科学など、様々な分野に広がる。 17

17.

オブザーバビリティとは- Observability オブザーバビリティの定義：システム内部の状態を、外部から得られるデータ（テレメトリ）を通じ把握できる性質 → 「ただ監視する」ではなく「なぜそうなっているか」を理解できるようにする監視との違い：監視：症状を見張る（CPU高い、エラーが出ている）オブザーバビリティ：原因を理解する（どのコンポーネントが遅延を引き起こしているかテレメトリの３本柱！ • Metrics（メトリック）：数値化されたデータ（CPU使用率、レイテンシなど） • Logs（ログ）：個別イベントの記録（エラー、操作、状態遷移など） • Traces（トレース）：分散システム内でリクエストが辿った経路を可視化（どこで遅延や失敗が起きたかを追跡）この3つを統合して原因がわかるようになる 18

18.

ログとメトリックとトレースとテレメトリとシグナル ➢ Logs（ログ） ➢ Telemetry（テレメトリ）システムやアプリで発生した個々のイベントの記録システムから収集される観測データ全般を指す総称例：エラー発生時の詳細、ユーザー操作履歴、状態遷移な Logs / Metrics / Traces をすべて含む広い概念ど特徴：監視やオブザーバビリティを支える「生データ」特徴：トラブル時に「何が起きたのか」を細かく追跡できる ➢ Metrics（メトリック）数値化された指標を一定間隔で収集したもの例：CPU使用率、メモリ消費量、ネットワーク遅延時間特徴：グラフ化しやすく、傾向やパターンの把握に強い ➢ Signals（シグナル） Telemetry の中で分析・解釈に使う代表的なデータの種類（軸）主に Logs / Metrics / Traces の3つを指す。テレメトリに比べてあんまり有名じゃないかも。特徴：オブザーバビリティの「三本柱」 ➢ Traces（トレース）分散システム内でリクエストがどの経路を通ったかを追跡したデータ例：ユーザーリクエストがフロント → API → DB へ到達する流れと遅延特徴：「どこで遅延や失敗が起きたか」を明確にできる ➢Telemetry は「集めたデータ全体」 ➢Signals は「Telemetryを分類する主要な軸（Logs / Metrics / Traces）」 ➢実際は同じような意味で使われている場面もある 19

19.

オブザーバビリティのメリット ➢因果関係の把握例)CPU使用率上昇とDBクエリ遅延の関連を発見できる ➢根本原因分析（RCA: Root Cause Analysis）単なる「エラー発生」から「どのサービスが原因か」まで掘り下げ可能 ➢予測・予防過去データや傾向をもとに将来の障害や性能劣化を予測アラート疲れの軽減にもつながる 20

20.

3rd Party オブザーバビリティ製品を使うメリット（Elastic , Datadog, New Relic, Dynatrace , AppDynamics, Grafana など） ➢ マルチクラウド / ハイブリッド環境対応の一元監視 Azureだけ、AWSだけではなく、オンプレや複数クラウドを横断して一元的に可視化できる（しやすい） ➢ 高度な可視化と分析ダッシュボードやトレース解析のUIが洗練されている APM（Application Performance Monitoring）の機能が強力で、コードレベルまで深掘りできる ➢ AI/MLを活用した異常検知しきい値ではなく「普段と違う動き」を自動で検知する機能があるアラート疲れの軽減や予兆検知に有効 ➢ SRE / DevOps向け機能の充実 SLA/SLI/SLO のモニタリング機能が整備されているチームコラボレーション機能（アラートをSlackやTeamsに連携、TEL、インシデント管理ツールと統合など） 21

21.

オブザーバビリティとSREの関係 そもそも SRE → Google が提唱した「ソフトウェアエンジニアリングの手法を運用に適用する考え方」 ➢ SREのないとき：開発チームが作ったものを運用チームが「動かし続ける」 ➢ SREのあるとき：SREエンジニアが「信頼性を設計・構築・改善する」 ➢ SREエンジニアは、単にサーバーを監視するだけでなく、コードを書いて自動化し、システムアーキテクチャを改善し、障害を予防する仕組みを作る。 ➢ 目的はサービスの信頼性(Reliability)を高めること。重要な概念として SLI/SLO/SLA がある。 SRE の核となる考え方(余談) ➢ エラーバジェット例えば99.9%の可用性目標(SLO)なら、月約43分のダウンタイムが「予算」として許容される。この内なら新機能リリースを積極的に行い、予算を超えそうなら信頼性向上を優先する、というバランス感覚が重要です。 ➢ トイル（Toil）の削減手動での繰り返し作業を「トイル」と呼び、これを自動化で削減することに力を入れます。「夜中にアラートで起こされる」ような運用から脱却することを目指します。 22

22.

オブザーバビリティが SRE を支える理由 SLI の測定に必須 ➢ SLI（例：可用性99.9%、レイテンシ95%<200ms）を数値化するには Logs / Metrics / Traces などのテレメトリが必要 SLO の達成度確認に活用オブザーバビリティなしに SREなし！ ➢ 「SLOを守れているか？」を可視化し、違反リスクを早期に発見 エラーバジェットの運用 ➢ SLOを満たせなかった期間を「エラーバジェット」として管理 → 開発スピードと安定性のバランス調整に利用 インシデント対応 ➢ オブザーバビリティがあることで、根本原因分析（RCA）が迅速にできる 23

23.

クイズ  オブザーバビリティの定義として正しいものはどれか？ 1. 2. 3. 4. 5. システムを監視しCPUが高いかどうかを見るための仕組み監視対象を自動修復する仕組み監視対象をサーバーのみにフォーカスした考え方セキュリティアラートのみを対象とする仕組みシステム内部の状態を外部から得られるデータ（テレメトリ）を通じて理解する性質 24

24.

クイズ  オブザーバビリティのメリットとして正しいものはどれか？ 1. 監視アラートをすべて無効化できる 2. 因果関係の把握や根本原因分析、将来の障害予測につながる 3. すべての障害を事前に99%以上防止できる 4. 監視対象を必ずサーバーのみに絞り込める 5. 通知をメール以外に制限できる 25

25.

クイズ  次のうち、Logs / Metrics / Traces / シグナル / テレメトリについて誤って説明しているものはどれか？ 1. Logs: アプリケーションやシステムのイベント・エラー情報をテキスト形式で記録 2. Metrics: CPUやメモリ使用率など、数値データを時系列で収集・保存 3. Traces: マイクロサービス間のリクエストフローを追跡し、分散システムの処理経路を可視化 1. 2. テレメトリ: 監視対象システムから自動収集される全ての観測データの総称 2. シグナル: テレメトリの中でも特定の意味を持つ構造化されたデータ（Logs/Metrics/Traces など） 3. Metrics: システムの状態を数値で表現し、時系列で保存される定量的データ 1. 3. Traces: 分散システムでのリクエスト追跡に使用される重要なデータ 2. シグナル: 監視システムにおけるアラート通知機能の総称 3. テレメトリ: システムから自動収集されるデータだが、主にダッシュボード表示に特化した形式 1. 26

26.

Appendix: Azure における監視・オブザーバビリティ 27

27.

Azure におけるオブザーバビリティ概要 Azure Monitor：全体の監視プラットフォーム（メトリック/ログ収集、アラート、ワークブック）ログ Log Analytics メトリック Azure Monitor Metrics  KQLによるログ分析  標準リソースメトリクス Container Insights Managed Prometheus  K8sのログ/メトリクス収集  Kubernetesネイティブメトリック収集  Prometheus互換の完全マネージドサービス VM Insights  VMのパフォーマンス＋依存関係ログ/メトリクスダッシュボード Azure Workbooks トレース Application Insights  インタラクティブなカスタムレポート  パラメータ化による動的ダッシュボード  分散トレーシングでマイクロサービス間の処理フロー可視化  エンドツーエンドのリクエスト追跡 /ボトルネック自動検出 Azure Managed Grafana  高度な可視化・豊富なテンプレート,プロフェッショナルな見た目  データ相関分析: 異なるシステムのメトリックを関連付けて表示  Prometheus / Azure Monitor 統合表示これらの組合せで「最新トレンドのオブザーバビリティ」を Azure 上で実現 28

28.

Azure Monitor における AIOps Azure Monitor にも AI を駆使した機能が実装されつつある例） ➢ アプリケーションマップのインテリジェントビュー: サービス間の依存関係をマッピングし、パフォーマンスのボトルネックや障害のホットスポットを特定。 ➢ スマート検出（Smart Detection） Application Insights がアプリのパフォーマンスを監視し、通常と異なる遅延や失敗率を自動検出 ➢ アラートの動的しきい値（Dynamic Thresholds）固定値ではなく、AIが適切な値を設定 ➢ インシデントの相関分析(Azure Monitor の問題と調査 ) バラバラに出るアラートをまとめて、「根本的な原因はこれかも」と関連づけてくれる ➢ VMSS予測自動スケーリング過去の使用率パターンに基づいてCPU要件を予測し自動的にスケールアウト Azure Monitor での AIOps と機械学習 - Azure Monitor | Microsoft Learn Azure Application Insights のアプリケーションマップ - Azure Monitor | Microsoft Learn Application Insights のスマート検出 - Azure Monitor | Microsoft Learn Azure Monitor issues and investigations (preview) 29

29.

余談）生成 AI アプリケーションを監視したい  Azure AI Foundry Observability ってものがあります！ Generative AI アプリケーションを監視する - Azure AI Foundry | Microsoft Learn Microsoft も Opentelemetry に結構コントリビュート！ Application Insights × Opentelemetry が今後熱そう！ 30

https://learn.microsoft.com/ja-jp/azure/ai-foundry/how-to/monitor-applications

30.

参考  【Azure のアラート設計ベースライン】Azure Monitor Baseline Alerts の紹介  Azure Monitor と Prometheus の概要 - Azure Monitor | Microsoft Learn  Azure Workbooks の概要 - Azure Monitor | Microsoft Learn  Azure Monitor での AIOps と機械学習 - Azure Monitor | Microsoft Learn  Generative AI アプリケーションを監視する - Azure AI Foundry | Microsoft Learn 31

31.

監視とオブザーバビリティの違いって？シグナル？アラート発報的なやつやろ！そもそもメトリックとログってなんやねん？メトリックとログって？あとテレメトリってなんやねん？ Azure Monitor って Zabbix みたいなやつやろ！しらんけど 32

Ses_01_いまさら聞けない監視＆流行りのオブザーバビリティ

yamapan

関連スライド

LT_07_俺的GitHub Copilot for Non-deve

20260531_PLUG_GitHub Copilot 育成のススメ_やまぱん！

Office Agent_AzureVPN

Office Agent_Office Agent

LT_市民開発ツールとしてのGitHub Copilot

LT05_EasyDocsFixRequest

各ページのテキスト