deep dive distributed tracing

3.6K Views

March 10, 22

#observability #distributed tracing #Distributed Tracing #Observability #Tanaka Takayoshi #Monitor Systems #Software Deployment

スライド概要

2022年3月開催のObservability Conference 2022での発表資料です。
https://event.cloudnativedays.jp/o11y2022/talks/1373

Takayoshi Tanaka

@tanaka_733

スライド一覧

New Relic株式会社、Technical Support Manager.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ASP.NET Core 8でNative AOTを試してみよう

.net nativeaot

Takayoshi Tanaka 35.9K

Rust for C#/.NET DevelopersでRustに入門しよう！

.net rust

Takayoshi Tanaka 14.7K

.NET Aspire概略

.net aspire

Takayoshi Tanaka 8.7K

OpenTelemetry .NETの追加コード不要な計装ライブラリの最初のリリースが出たので試してみた

observability .net opentelemetry

Takayoshi Tanaka 6.2K

20240326_NET Aspire概要

.net aspire

Takayoshi Tanaka 5.7K

ASP.NET (.NET Framework) 製アプリをリビルドせずにOpenTelemetryで計測しよう

observability opentelemetry .net

Takayoshi Tanaka 5.3K

各ページのテキスト

Deep Dive Distributed Tracing Observability Conference 田中孝佳 @tanaka̲733 資料は公開済です(セッション概要にリンクあります) 質問はカンファレンスのQ&AあるいはTwitterまで

登壇者紹介田中孝佳 (@tanaka̲733) New Relic K.K. Lead Technical Support Engineer 好きな言語はC#。C# Tokyoコミュニティの運営メンバー OpenTelemetry .NETハンズオンなどを開催 Microsoft MVP for Azure, Development Technologies Microsoft Certified Cloud Solution Architect Expert Certified Kubernetes Administrator/Application Developer(CKA/CKAD)

https://tech.tanaka733.net/entry/2022/02/opentelemetry-dotnet-handson1_1

本日のゴール • オブザーバビリティにおけるトレースの重要性 • 分散トレースでなければわからないことを知る • 分散トレースの構造の把握 • なぜつながるかを理解し、つながらない問題に対応できる • 多数のトレースから注目すべきトレースを選ぶことの重要性 • 分散トレースのオーバーヘッドを理解し、適切なサンプリング方法を設計できる

今日話さないこと • メトリクス、ログとの連携 • 分散ツールの各計装ツールの固有の機能 • 個別のツールや言語における分散トレースの詳細 OpenTelemetryやW3C Trace Contextといったオープンなプロジェクトを中心に多くのツールで共通している概念をお話します

目次 • オブザーバビリティと分散トレース • 分散トレースの概念と整理 • （分散）トレースとはなにか • トレースの概念と用語を整理する • 分散トレースをつなげる仕組み=伝搬 • 分散トレースをつなげる課題 • W3C Trace Context • 多数のトレースから注目すべきものを見つける =サンプリング • グルーピングとサンプリング • ヘッドベースサンプリングとテールベースサンプリング

オブザーバビリティと分散トレース

なぜ監視するのか HWの迅速なプロビジョニング SWの迅速なデプロイ重大な問題を迅速に検出する監視マイクローサビスを採用ときに考慮すべき3つの能力 Fowler, Martin. 2014. “Microservice Prerequisites.” MartinFowler.com. August 28, 2014. https://martinfowler.com/bliki/MicroservicePrerequisites.html

https://martinfowler.com/bliki/MicroservicePrerequisites.html

オブザーバビリティとは問題問題問題根本原因

オブザーバビリティーの3本柱トレース (特に分散トレース) • • サービスのボトルネックを分析するリクエストの通過したパスと構造を把握メトリクス • • サービス全体の傾向を分析数値化したテレメトリーデータを集約するログ • • 詳細なデバッグ情報を分析プロセスから出力したテキスト情報

10.

分散トレースが生まれた背景原因と結果が離れるひとつひとつの要素は壊れやすい (単体のSLAは低い) 何百、何千のホスト（コンテナ）

11.

分散トレースが必要な理由「インシデントが発生している最中（一刻を争う時）に根本原因を発見するために必要です。」メトリクスでは全体の傾向がわかっても少数の異常な振る舞いが埋もれがちログで詳細はわかるものの、多数の要素のどのログを見ればいいのかわからない

12.

分散トレースが目指すもの • システム内を流れるリクエストをテレメトリーデータで取得し、分散システムのプロファイリングとモニタリングを可能に • 少数の異常な振る舞いを検知可能に • アプリケーションのパフォーマンス問題の検出と解決にかかる時間を短縮可能に • 多くの言語/フレームワーク/ランタイムで適用可能に (今日はふれない内容)

13.

分散トレースの概念と構造

14.

トレースの構造トレース内の作業の単位をスパンとし、スパンのDAG(有向非巡回グラフ)として表現 Span A root Span (必ず1つだけ存在) AのChild Span Caller Span (呼び出しスパン) Span B Span C Span E Span D サービスA Callee Span (呼び出されたスパン) Span P サービスB

15.

スパンの属性スパンに必要なデータは属性としてもたせる • • • • • TraceID: 所属するトレースを一意に識別 SpanID: 自身のスパンをトレース内で一意に識別 ParentID: 自分の親スパンへの参照 Name: スパンを表現する名前 Start/End Time: 作業の開始・終了時刻から経過時間を算出 • Tags: キー値のペアで表現される追加の情報 • Events: トランザクション内での出来事を表現

16.

トレースの表現方法 • スパンの親子関係に着目 • ボトルネック（経過時間）に着目 • サービスの依存関係に着目

17.

スパンの親子関係に着目した表現方法 DAG Span A Span B Span C Span E Span D サービスA Span P サービスB

18.

ボトルネックに着目した表現方法 time Span A Span B C Span D Span E Span P ボトルネック（どこで経過時間がかかっているか）を見つけるためには、横軸を実時間にしたこのような表現が使われることが多い。上の図では、SpanP、つぎにSpanDがボトルネックだとわかる

19.

Notifi cation サービスの依存関係に着目した表現方法 Ext Client Purchase API Client API Purchase DB DB Notification User DB User 分散システムにおいては、トレースからどのように呼び出されたか（システムの依存関係）を見つけることもできる。 Ext

20.

トレースの活用 • 有用なトレースを見つける è 最後の章へ • 属性でクエリする • 経過時間や数値型の属性をメトリクス化し、異常値を見つける • ボトルネックを見つける • エラーや例外状態のスパン • 経過時間などの数値が異常値なスパン • 正しく計測できているか確認すべきケース • calleeとcallerの時間がずれているスパン • 断片化されたスパン

21.

エラーや例外状態のスパン • アプリケーション例外がスローされた（予期せぬ例外） • エラー状態とマークされたスパン（予期された例外） • 応答コードがエラーのスパン • HTTP呼び出しで4xxや5xxステータスレスポンスだった • DB呼び出しでエラーが起きた Span A Span B C DB エラー status code=502エラーアプリケーション例外

22.

呼び出し側と呼び出された側の時間ずれ caller span callee span ネットワーク、キューロードバランサーなどさまざまな要素での遅延 caller caller callee サーバー時刻のずれ非同期処理 callee サーバー時刻のずれ

23.

断片化されたスパン子スパンが見えない（大きな1つのスパンしか見えない）呼び出されたスパンがないつながっていないスパン (Orphaned Span) がある Span A Span A サービスY呼出 Span サービスYのSpan サービスZのSpan 親スパンが見えない Span

24.

断片化されたスパンへの対処（一例） • みたいトレースがどのトレースでも見えない • 計測コードが正しく実装されているか • 同じトレースでも見えるときと見えないときがある • サンプリングの問題 è 最後の章へ • サービスを超えたトレースがつながらない • 呼び出したトレースが独立している è 次の章へ • 呼び出したトレースがみえない è 計測されている? • その他考慮すべきこと • スパンデータが到着していない • 時刻のずれ • バックエンドツール側の制約（UI上の制約など）

25.

トレース計測のプラクティス「名前」 • 名前は集約可能 • POST /api/v1/users/12345 • ○ POST /api/v1/users/{id} id=12345はタグとして記録 • 名前はリソースではなく、アクションを表すべきリソースの種類はタグとして記録 • ReadBooksFromFile • ○ ReadBooksを名前 storage=Fileをタグとして記録

26.

トレース計測のプラクティス「タグ」 • カーディナリティの高いデータは名前ではなく、タグとして使用する • List?color=blue • ○ Listが名前、color=blueはタグ • 複数のシステムで共通化する • bookidなのかbookIdなのかbook̲idなのか統一 • わかりやすい名前 • lengthよりもlength̲mm • スパンが生成されたインフラの情報をタグに追加する • サービスの名前、バージョン、ホスト、コンテナ、ランタイム、地域・リージョンなど

27.

トレース計測のプラクティス「スパン」 • ログよりも子スパンやタグ • スパンでの処理がエラー状態であるならばスパンの状態もエラーとする • 回復不能なエラーであってもできる限りスパンを停止させる • スパンは意味のある作業の単位で作成する 10:00:00 処理X開始 color=blue 10:01:23 処理X完了スパン Span X (color=blue)

28.

分散トレースをつなげる仕組み =伝搬

29.

サービス境界と分散トレース • 呼び出した側と呼び出された側の対応づけが必要 • HTTP呼び出しのケースが多い • trace idと呼び出した側のspan idの引き渡し Span E trace id:1234 span id: abcd trace id=1234 parent span id=abcd と設定しないといけない Span P

30.

ベンダー固有の実装と課題 • テキスト形式でフォーマットしたデータを HTTPヘッダー経由でやり取り • ヘッダー名やフォーマットが固有 vendoer̲y: {trace̲id:1234, parent̲id:abcd} Span E trace id:1234 span id: abcd Span P

31.

異なるツール間でもトレースをつなげたい Span Span P vendor̲x: xxx̲format Span T vendor̲y: yyy̲format vendor Yの計測ツールは vendor̲xフォーマットを認識できないため Span Pが親となる新規のトレースとして記録される

32.

W3C Trace Context 分散トレースのためのHTTPヘッダーのフォーマットの標準規格 https://www.w3.org/TR/trace-context/ traceparent: トレースIDと呼び出しスパンIDを識別 tracestate: ベンダー固有の情報

https://www.w3.org/TR/trace-context/

33.

W3C Trace Contextの詳細 traceparent: バージョン(2バイト)-トレースID(16バイト)-スパンID(8バイト)-トレースフラグ(8ビット) 例) 00-07b4bf1339212a6e634ede07e21e8a72ded04c84c8082456-01 tracestate: トレースを記録するベンダーツールごとに利用例: New Relicの場合アカウント、親スパンの種類、アプリケーションID、スパンID、トレースID、サンプリング有無、優先度など

34.

W3C Trace Contextでのトラブルシューティング • 呼び出し側がtraceparentヘッダーを送出しているか？ • 呼び出された側が同じtraceparentを受け取っているか？ • プロキシやLBなど中間要素が除去・改変していないか確認 • 両者のスパンが同じTraceIdを持つことを確認 • 異なる場合は呼び出された側のトレースの計装を確認 (traceparentのTraceIdを適用する方法)

35.

W3C Trace Contextの課題 • job queue/pubsubなどHTTP以外での依存関係 • HTTPヘッダーのようなデータをやり取りできる標準機能がない • 技術的にはtraceparentをやり取りできれば繋げられる • 分散トレースの定義上、1つに表現しづらいパターン • 例えばfork-joinパターン • トレースやスパンの属性を使って、関連する複数のトレースをまとめられるようにする traceid=123, jobid=abc traceid=789, ex̲jobid=abc traceid=456, jobid=abc

36.

多数のトレースから見るべきトレースに注目する方法

37.

藁の山から針を見つけるために • 山の量をへらす è サンプリング • 山を束に分けて見つけやすくする è グルーピング

38.

多数のトレースの表現方法 • 詳細な実装はツール依存ではあるが、その概念は共通になりつつあるので整理したい • 計測ツールのどこで行うかがポイントアプリバックエンド（トレースの保管・可視化）計測ツールアプリ計測ツールコレクター

39.

グルーピング • トレースやスパンの属性ごとに分類する • トレースの名前ごと • DBの操作ごと • 分類した中で異常値を見つける • エラー状態のスパンを含むもの • 経過時間が平均から外れたもの必要な属性を計測ツールやコレクターで付加しバックエンドの可視化機能として提供することが多い

40.

サンプリング • 多数あるものから注目したいものだけを選ぶ • 事前にメトリクスで集約することで全体の傾向はつかめる • 異常な、問題を含んでいるトレースを選択したいエラー異常値

41.

トレースの収集方法とサンプリングアプリ計測ツールサービスごとのサンプリングコレクターサービス全体でのサンプリングバックエンド（トレースの保管・可視化）保管時の制約 UI表示上の制約

42.

ヘッドベースサンプリングあるいはアップフロントサンプリングトレースの開始時点でサンプリングするかどうか決める • 親スパンから先のすべてのスパンにサンプリングされたことを伝える必要がある • 事前に決定するため、経過時間が長かったりエラーが起きたりしたトレースを見逃す可能性がある

43.

テールベースサンプリングあるはレスポンスベースサンプリングサービスX サービスY サービスZ トレースが完了してから、サンプリングするかどうか決める

44.

テールベースサンプリングが注目される理由 • トレースの全体像を見て判断できるため、少数のエラースパンや経過時間の長いスパンを見逃さず選択できる • エラーのあるスパンは100%、その他のスパンは10% のような選択ロジックも可能

45.

テールベースサンプリング実装する仕組みと課題 • 自社サービス全部のトレースを処理する必要性 • 完了していないすべてのスパンをバッファし、サンプリング判定する必要性 • ネットワーク転送量、コレクターの可用性、バックエンドツールの保存コストなどの運用が必須 • 最近ではマネージドなコレクターを提供するSaaSもアプリ計測ツールコレクターアプリ計測ツール

46.

確率的サンプリング適用型サンプリング(adaptive sampling)など近い概念も親スパンがサンプルされたかとサンプリングの確率を伝搬させ、子スパンごとに再度計算した確率でサンプリングを行うサービスX サービスY サービスZ OpenTelemetryではtracestateを使って確率的サンプリングを行う仕様がExperimentalで検討中 https://opentelemetry.io/docs/reference/specification/ trace/tracestate-probability-sampling/

https://opentelemetry.io/docs/reference/specification/trace/tracestate-probability-sampling/

47.

まとめ

48.

まとめ • 分散トレースによりサービス全体のボトルネックを分析 • 分散トレースは作業の単位であるスパンのDAGで表現 • ボトルネックを見つけやすくするようスパンの名前やタグづけを考える • W3C Trace Contextにより計測ツールが異なっても分散トレースがつながるようになった • 少数のエラーや異常なスパンを見つけるにはテールベースサンプリングという手法がある