可観測性を超えた3つの柱についてお話ししましょう

可観測性を超えた3つの柱についてお話ししましょう

可観測性は、多くの場合、ログ、メトリック、トレースの 3 つの柱のコンテキストで定義されます。最新のクラウドネイティブ アプリケーションは複雑かつ動的です。予期せぬ事態やパフォーマンスの問題を回避するには、強力な可観測性スタックが必要です。しかし、可観測性はログ、メトリック、トレースの収集だけに限定されるのでしょうか?

SigNoz ブログの「Three Pillars of Observability [And Beyond]」からの翻訳です。リー・フィンチ著。

監視ツールは過去 25 年間、あらゆるビジネスにとって重要な要素であり、インフラストラクチャやアプリケーションの問題が顧客に影響を与える前に、その問題に関する高度なアラートを提供してきました。時間の経過とともに、監視対象のシステムに関するより深い洞察を得るために、監視システムのメトリックの数が増えてきました。

しかし、ソフトウェア システムが複雑になるにつれて、監視のために指標のみに依存することには限界が生じます。エンドユーザーに影響を与えるデジタル エクスペリエンスの問題を引き起こす可能性のある未知の変数を特定できないことがよくあります。

最近、業界では「可観測性」という概念が注目され、従来の監視からの転換が進んでいます。事前定義されたメトリックに重点を置く後者とは異なり、可観測性は、先行サービス レベル インジケーターと後続サービス レベル インジケーターを含め、任意の時点でのシステムの状態を理解することを重視します。このアプローチにより、特定のメトリックに制限されることなく、パフォーマンスの問題やエラーをリアルタイムで把握できます。たとえば、SigNoz などの可観測性ツールを使用して Web リクエストをトレースすると、リクエストのプロセス全体と内部操作が表示され、サーバーの応答時間を測定するだけの場合よりも包括的なビューが提供されます。特定のリクエストのコンテキストで実行されている作業の詳細 (メソッド、クラス、データベース クエリ) が含まれます。

可観測性の 3 つの柱は通常、メトリック、トレース、およびログです。

索引

メトリックを調べる場合、メトリックは通常、特定の時点における特定のメトリックの状態を表します。これは、CPU 使用率の時系列グラフに見られるような、時間の経過に伴う変化を理解するために重要です。

K8s Pod CPU 使用率を表示する SigNoz ダッシュボード

時系列グラフは、MRTG (Multi-Router Traffic Grapher) と呼ばれる最も古い監視ツールの 1 つから生まれました。 MRTG は通常、 SNMP (Simple Network Monitoring Protocol) を使用して5 分ごとにデータを収集し、ルーター インターフェイスの使用状況をグラフィカルに表示します。その後、定期的なポーリング間隔でさまざまなメトリックを収集するために、SNMP が Linux (さらには MS Windows) で普及しました。 SNMP は依然として人気がありますが、OTEL コレクター、REST API、ストリーミング テレメトリを使用したエージェント ベースの監視などの新しいアプローチに比べると、もはや好ましい選択肢ではありません。

一般的な 2 種類のメトリックは、使用率と飽和度に関連しています。使用率メト​​リックは、CPU やメモリの使用率、またはアプリケーション サーバー ワーカー スレッドの使用率などのリソース使用率のパーセンテージを示します。同時に、飽和指数はリソースの競合の度合いを反映します。たとえば、ディスク キューの長さは、指定された間隔でディスクが処理するには作業量が多すぎることを示します。ここでは、使用率は 100% と表示されますが、飽和状態はシステムが処理できる以上のワークロードを示します。

追跡

トレースにより、時間の経過とともに発生するイベントに関する洞察が得られます。 APM および OpenTelemetry のコンテキストでは、通常、コードにライブラリを埋め込むか、プロファイラー/エージェントを使用してアプリケーションとランタイムをインストルメント化します。 Spring Boot を OpenTelemetry および SigNoz と統合して可観測性の 3 つの柱を実現する方法の詳細については、Spring Boot モニタリングに関する記事を参照してください。

典型的なトレースの例としては、Web フロントエンドへの HTTP 要求が挙げられます。この要求では、複数のタスクを完了して応答を返す必要があります。飼い主のプロフィールに新しいペットを追加するための HTTP POST リクエストを検討します。このリクエストには 25 個のスパンが含まれており、各スパンにはスパン、SQL ステートメント、スレッド ID、およびサービス詳細に関する詳細なプロパティが含まれています。

サンプル HTTP トレース

この情報の一部はログから推測できますが、トレースではこれらの作業単位がコンテキストに基づいた標準化された形式で表示されます。 Flamegraphs やGanttチャートなどのトレースを使用すると、複雑な分散設定でさまざまなコンポーネントを通過するリクエスト全体を簡単に視覚化できます。このアプローチにより、単一のリクエストを追跡するために複数のサーバー、コンテナ、ログ ファイルを検索する必要がなくなり、膨大な作業時間を節約できます。

ログ

3 つの可観測性の柱の中で最も古いロギングは、基本的な「print」ステートメントから複雑な構造化形式へと進化してきました。当初は、固有の柔軟性と非構造化の性質により分析が困難でしたが、最新のログ ライブラリ、フレームワーク、標準により、使いやすさが大幅に向上しました。 SigNoz などのツールは、クエリや集計のニーズに合わせてログを変換するためのログ パイプラインを提供します。

トレースID別に集計されたログの例

コンテキストによるログ記録の強化

Logback や Log4J などのフレームワークによりログの変更が簡素化され、OpenTelemetry や SigNoz がログを簡単に使用できるようになり、個別のログ パイプラインが不要になりました。たとえば、Logback の構造化フィールド、プロパティ、値を SigNoz でクエリして、無関係なデータをフィルタリングしたり、特定のトレースまたはスパン ID に関連するログを分離したりできます。

トレースIDとスパンIDを示すログの例

3つの柱を超えて - コンテキスト

可観測性は、ログ、メトリック、トレースの 3 つの柱を収集して分析するだけから進化しました。 「コンテキスト」は、従来の 3 つの柱であるメトリック、ログ、トレースを補完する、複雑な分散システムのデバッグにおける重要なコンポーネントとしてますます認識されています。

コンテキストは、さまざまなシグナルを相関させ、観測可能性の 3 つの柱にさらに多くの情報を提供する、観測可能性の 4 番目の柱と言えます。

可観測性におけるコンテキストの役割

トラブルシューティングでは、コンテキストが重要です。メトリック、ログ、トレースからのさまざまな情報を接続します。この相互接続性により、問題を迅速に特定し、その影響を理解し、より効果的な解決策を開発できるようになります。

コンテキストを可観測性の 3 つの柱と統合します。

  • 相関ログとトレース: トレース識別子とスパン識別子を挿入することで、ログとトレースを相関させることができます。トレースを使用して、問題のあるリクエストのフローを理解し、問題が発生した段階を特定します。次に、特定のスパンまたはサービスのログをドリルダウンして、詳細なエラー情報を取得します。
  • コンテキストのあるメトリクス: メトリクスは、単なる定量的データよりもコンテキストと組み合わせると、より意味のあるものになります。たとえば、リソース使用量の急増は、どのデプロイメントまたは変更によって急増が引き起こされたかがわかっていると、より有益な情報になります。

可観測性の今後のトレンドは、学習したパターンに基づいて AI を活用し、迅速なデータ解釈を行って、サイト信頼性エンジニアリング (SRE) と可観測性チームにとって重要な情報を優先し、重要度の低いデータを除外することです。このアプローチにより、最も影響力のある問題に焦点を絞ることが容易になります。さらに、AI を使用すると、関連するデバッグ情報の収集やサービスの再起動など、標準イベントに対する日常的な応答を自動化できます。この自動化により、サービスの復旧における人的介入の必要性が減り、チームは根本原因分析 (RCA) と予防戦略に集中できるようになります。

データの可視化 - 可観測性の重要な要素

可観測性においては、視覚化が重要であり、データをさまざまな対象者が理解できるストーリーに変換します。ダッシュボードは、専門家だけでなく、あらゆるスキル レベルと専門知識を持つユーザーに重要な情報を伝達する必要があります。

組織が直面する最大の課題の 1 つは、すべての情報を 1 つのビューに表示するダッシュボードを作成することです。ダッシュボードを理解するためにそれを読む必要がある場合、それはダッシュボードではなくレポートです。

ダッシュボードを簡単に理解できるようにする

効果的なダッシュボードには、ターゲット ユーザーに対する共感が必要です。たとえば、経営者はサービスが利用可能で、適切に機能しているかどうかだけを知りたい場合があります。その場合、必要なのは 1 つの信号機だけかもしれません。対照的に、サービス所有者は、ユーザー数、平均パフォーマンス、外れ値を識別するための p95 値と p99 値などのより詳細なメトリックからメリットを得ることができます。

「効果的なダッシュボードの鍵は、シンプルで読みやすく、ユーザー中心のデザインです。」

SigNoz のシンプルな CPU とスレッドのダッシュボード

組織における可観測性の成熟度をナビゲートする

成熟度指数は、アプリケーションやサービスの使用方法をベンチマークし、デジタル エクスペリエンスにおけるリスクを軽減するためにどのような手順を踏めばよいかを理解するための効果的な方法です。成熟度を評価するには、サービスに関連する人材、プロセス、テクノロジーを評価する必要があります。

まず人的側面から始め、チームの可観測性スキルと、可観測性の実践を組み込むための組織の取り組みを評価します。

プロセスにより、特定の個人への依存を減らし、ビジネスまたはサービスの回復力を高める必要があります。たとえば、サービス低下計画では、一時的なイベント中に 3 つの柱から情報を収集する手順の概要が示される場合があります。

テクノロジーは単なるツールではありません。これらのツールを活用してサービスを完全に計測することが重要です。この記事では、Spring Boot モニタリングを例に、3 つの柱を使用したインストルメンテーションについて説明します。

これらの各要素について、成熟度指数を使用して現在の状態と望ましい状態を比較し、どのサービスに投資するかに焦点を当てます。

結論は

最新のクラウドネイティブ アプリケーションにおける可観測性の進化の状況を包括的に紹介します。これは従来の監視の範囲を超え、コンテキストを第 4 の柱の一部として組み込むことで、可観測性をより動的かつ接続性の高いものにする方法を強調しています。可観測性の将来は、複雑なデータを理解可能かつ実用的なものにするために、人工知能と効果的なデータ視覚化にますます依存するようになると考えられています。

デジタル エクスペリエンスとシステムの信頼性を強化したい組織にとって、可観測性のこうした進化する側面を受け入れることは非常に重要です。重要なのは、これらのプラクティスを運用文化に組み込み、強力で応答性が高く、回復力のあるテクノロジー エコシステムを確保することです。

<<:  Kubernetes プローブから DevOps へ

>>:  Dewu クラウドネイティブコンテナテクノロジーの調査と実装

推薦する

ワンダ電子商取引が明らかに:O2Oモデルの採用はリソース統合の課題に直面

テンセントテクノロジーの王克新が1月5日に報じた。万達グループはかつて、電子商取引業界に参入するため...

vpsao、安価な VPS、年間支払いはわずか 3.5 米ドル、x プロフェッショナル アカウント?

昨夜、vpsao からプロモーション メールを受け取りました。OpenVZ ベースの仮想 VPS が...

検索エンジンアルゴリズムの開発に関するいくつかの推測

昨年から現在に至るまで、検索エンジンのアルゴリズムは大規模な変更を受け続けています。アップデートのた...

ローカルビジネスがローカルSEOサービスから得られるメリット

今日の企業は、製品マーケティングにおいて、もはや従来のメディア宣伝だけに頼っていません。インターネッ...

ドメイン名とSEO

.edu ドメインと .org ドメインが信頼できるドメインとしてリストされていることに加えて、ドメ...

Huobi.comは、18日までにICBCの口座を解約するよう求める通知を受けたと発表した。

さらに読む:国内ビットコイン取引ネットワークBtcTradeは、銀行が15日前に口座を閉鎖するよう同...

#BlackFriday# alphavps: 5 つのオプション データ センター、VPS は年間 9.99 ユーロから、AMD+NVMe シリーズ、専用サーバーは月額 30 ドルから

Alphavps はブルガリアでは本当に古いブランドであり、2018 年のブラック フライデーには ...

madcityservers: 年間 18 ドル、ロサンゼルス/シカゴ/マイアミ VPS、AMD Ryzen 3900X/5900x/5950x、1Gbps 帯域幅、無制限トラフィック

VPS ベンダーの Madcityservers は、元のシカゴ データ センターをベースに、ロサン...

効率的な運用とイノベーションの加速により、SAP は Yongtai Biopharmaceuticals が患者にデジタルケアを提供できるよう支援します。

[51CTO.com からのオリジナル記事] 健康は常に国民が最も懸念する問題の 1 つです。 Yo...

Renren Videoは閉鎖の噂に対して次のように反応した。ウェブサイトは更新中で、後日オンラインになる予定だ。

さらに読む: Renren Videoが再びダウン、同じタイプのウェブサイトへのアクセスは正常Ren...

tmhhost: 春節期間中20%割引、米国3ネットワークcn2 gia(+200g高防御)、日本ソフトバンク100M、200M香港BGP、鎮江BGP高防御

tmhhost の 20% オフの春節プロモーションが始まりました: (1) ロサンゼルス VPS、...

最近百度が目撃した奇妙な現象のいくつかを詳しく見てみる

過去には、2012 年は世界の終わりだとよく言われていましたが、SEO の世界では、2012 年は多...

ウェブマスターの洞察: 検索エンジン最適化を別の視点から見る

私は何年もウェブサイトの最適化に取り組んできました。私の意見では、Baidu の最適化は長期的な粘り...

#推薦# hostens - 信頼できる業者、大容量ハードドライブ、大容量トラフィック、大容量ストレージ VPS

リトアニアで非常に有名で信頼できる販売業者である Hostens が、超割引価格を開始しました。この...