クラウドネイティブの可観測性データに溺れないようにする方法

クラウドネイティブの可観測性データに溺れないようにする方法

従来のアプリケーション パフォーマンス監視 (APM) は、規模とデータ量に根本的な違いがあるため、新しいクラウド ネイティブ スタックでは必ずしもうまく機能するとは限りません。さらに、すべてがコンテナ内で実行される場合、データの時間的性質に合わせて監視を設計および最適化する必要があります。

クラウド ネイティブのパフォーマンスを理解することで、サイト信頼性エンジニア (SRE) とプラットフォーム エンジニアは、問題が発生したときに迅速に対応するためのリアルタイムの分析情報を得ることができます。その結果、近年では、インシデントの根本原因を明らかにするためのメトリクス、ログ、トレースを含むクラウドネイティブのフルスタック可観測性への関心が高まっています。

Chronosphere の共同創設者兼 CEO である Martin Mao 氏は、可観測性の重要な目標は平均復旧時間 (MTTR) を短縮することだと述べています。しかし驚くべきことに、この指標は多くの企業で実際に増加しており、大量の通知を処理する際にアラートを識別するのが難しいため、エンジニアはデータ疲労を経験する可能性があります。 Mao 氏は、クラウド ネイティブの可観測性データを管理する方法を分析して説明し、企業が可観測性データの海の中で冷静さを保つために役立つヒントをいくつか紹介しました。

可観測性のトレンド

まず、クラウド コンピューティング プロバイダーやコンピューティング環境に依存しないクラウド ネイティブの可観測性タスクをサポートするオープン ソース ツールが数多く登場しています。 Cloud Native Computing Foundation の調査により、エンジニアが OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex、OpenMetrics などのオープンソース ツールを積極的に使用していることがわかりました。

以前 Uber で可観測性チームを率いていた Martin Mao 氏は、今日のプラットフォーム運用のニーズを深く理解しています。 Uber の開発者は、アプリケーション パフォーマンス モニタリング (APM) の欠点に気づき、独自のツールの開発を試み、オープン ソース メトリクス プラットフォーム M3 やオープン ソース分散トレース システム Jaeger などのプロジェクトが生まれました。

しかし、こうした派手なクラウドネイティブ テクノロジーに投資することには欠点もあります。同氏は、これらのツールが生成する膨大な量のデータに対する懸念が高まっていると述べた。観測データの増加はビジネスとインフラストラクチャの増加をはるかに上回っています。つまり、解析が困難なだけでなく、過剰な観測データによって新しいデータ レイクが作成され、データの保存と統合に関する新たな問題が発生する可能性があります。

「生成されるデータが増えるにつれて、精査すべきアラートも増え、それらのアラートが問題の解決方法を見つける妨げになり始めます」とマオ氏は語った。

ソリューション: 保持と解像度の最適化

マオ氏は、企業はデータの保持と解決に制限を設けることでこれらの問題に対処できると述べた。これらの概念が何を意味するのかを詳しく見てみましょう。

(1)データの保持

多くのツールがますます多くのデータディメンションを生成するため、企業の観測可能性データは急速に蓄積される可能性があります。データの蓄積を防ぐ最初の方法は、データが収集されるタイミングと保存される期間を制限することです。

たとえば、単一のデプロイメント中に収集されたすべてのデータを無期限に保持する必要がありますか?今日の反復的な開発サイクルでは、これらのポイントを永久に保存することは賢明ではないかもしれません。これは、デフォルトの保存期間を短縮することを意味する場合があります。

さらに、データ収集の時間に制限を設けないと、観測データが爆発的に増加する可能性があります。たとえば、デバッグ エンドポイントのリアルタイム ログ記録は、アクティブにデバッグしている場合にのみ意味があり、それ以外の場合はデータを収集する必要はありません。

(2)データ解像度

データ解像度とは、記録された時系列データの粒度を指します。 Mao 氏が指摘するように、1 秒ごとにデータを記録するのと、1 時間ごとにデータを記録するのでは、本質的に 3,600 倍も異なります。したがって、高価なストレージ デバイスの使用を減らすには、データ収集の解像度を最適化することが重要です。

観測可能性データのデータ解像度の調整は、主に現在のユースケースによって異なります。 CI/CD の例に戻ると、ロールバック中にデプロイメント データを収集している場合、重要なのはその瞬間であるため、毎秒の高解像度が求められます。一方、企業が 1 年間の容量計画を行っている場合は、細かすぎるため、2 年目まで容量履歴情報を保持する必要がない場合があります。

その他のヒント

データの保持と解像度を最適化すると、記録されるデータの量を制限できます。これにより、フットプリントが小さくなり、精査するデータ ポイントが少なくなります。解像度を調整すると、多くのユーザーにとって不満となる可能性のある、生産艦隊の 10% のみを記録するなどの他の監視方法よりも妥協策となることがよくあります。

データ収集プロセスに動的に参加したり参加しなかったりする方法があれば、事前の作業の一部を軽減できます。これは、よりスマートなデフォルトを自動的に適用するものと考えることができます。何が効果的かがわかれば、企業全体で共有できる可観測性データの収集と保存プロセスに関する共通パターンを設定できます。

マオ氏は、データ処理能力を向上させるには、チームが収集したデータを変更し、視覚化するためのツールが必要になると指摘した。さらに、デバッグ時に作業者がすべてのデータ ポイントのディメンションを必要とするわけではないため、必要な回答を事前に計算するメカニズムが役立つ場合があります。

結論

可観測性のトレンドは、デジタル プラットフォームの運用の最適化に大きなメリットをもたらします。可観測性により、問題への対応時間を短縮し、エンドユーザー エクスペリエンスを向上させることができます。 「可観測性は、こうした取り組みが機能しているかどうかについての洞察を提供し、この点で重要な役割を果たします」と彼は述べた。

しかし、クラウドネイティブ アーキテクチャへの移行が加速するにつれ、新たな警告やシグナルが次々と発生しています。対処しないと、このデータは急速に蓄積され、データ自体の可視性を高める必要性が生じます。 「もたらされた価値は評価される必要がある」と毛沢東氏は語った。

世界では大量のデータが生成されており、データはより多くのスペースを占めています。蓄積され、大規模に保管するにはコストがかかります。しかし、人々は依然としてデータは無料であると考えており、データのライフサイクルを計画していないことがよくあります。 「可観測性のバックエンドを担当する人々の考え方は、データレイクを作成することではなく、ある程度何かを行う必要があるということです」とマオ氏は語った。

この傾向に対抗するために、オペレーターはすべてのデータ部分を同じように扱うことはできません。要約すると、可観測性データ レイクでデータが溺れないようにするには、不要なデータ収集を制限し、データがいつ収集されるか、どのような粒度で収集されるか、どのように視覚化されるか、どのくらいの期間保存されるかなど、よりスマートな最適化を実装する必要があります。

<<:  オープンソースはイノベーションの可能性を刺激し、RHEL 9 は「イノベーション センター」を定義します

>>:  Nvidia CTO: クラウドからメタバースへ

推薦する

Cloud Custodian を使用してクラウド ガバナンスをコードとして実装する方法

[51CTO.com クイック翻訳] Cloud Custodian を使用するユーザーは、シンプル...

慧想がSEOを重視するのは賢明な動きだ

ロビンはインターネットであてもなく検索していたところ、SEO に関する実施条項を含む Huicong...

JD.comは最大16億9000万ドルを調達し、5月22日に上場する予定だ。

概要: JD.com は IPO 価格が 16 ~ 18 ドルの間になると予想しており、調達額は最大...

セルフメディア担当者であるあなたを会社に留めておく意味は何ですか?

近年、セルフメディアグループが台頭しており、私の友人は家族の反対にもかかわらず、頑固にセルフメディア...

Google アナリティクスのトラフィック ソースとその実装方法

ウェブマスターの友人ならご存知のとおり、訪問者がウェブサイトにアクセスする主な方法は、直接トラフィッ...

LoveVps - 600M メモリ/KVM/25G ハードディスク/2 データセンター/月額 6.99 USD

Lovevps は 2010 年に設立された企業です。現在は XEN KVM ベースの VPS とサ...

中国聯通:コアシステムの全面的なクラウド再構築が完了

6月9日、中国聯通IT研究開発センター総経理、党委員会書記、聯通ソフトウェア研究所所長の耿祥東氏は、...

openitc-$6.7/8コアCPU/1gメモリ/13g SSD/42Tトラフィック

2008 年に設立され、英国に登録されている openitc (サブブランド XenVZ もあります...

ショッピングモールのウェブサイト運営でトラフィックを集める方法

立ち上げたばかりのショッピングモールのウェブサイトを運営するのは少し難しいです。ショッピングモールの...

ウェブサイトのトラフィックを増やすには細部に注意を払ってください

トラフィックは現金を意味し、ウェブサイトが存続するにはトラフィックが必要です。そのため、ほとんどのウ...

hosthatch: 米国 VPS、40% 割引 + トラフィック 4 倍、AMD シリーズ VPS - 年間 26 ドル、1T 大容量ハードディスク VPS - 年間 33 ドル

Hosthatchは、米国(ロサンゼルス、シカゴ、ニューヨークのみ)の通常のAMDシリーズおよび大容...

5Gとエッジコンピューティングの発展の展望

技術革新に伴い、5G とエッジ コンピューティングへの関心が高まっていますが、IT リーダーは決定を...

ウェブサイトの優先ドメインの問題について簡単に説明します

最近、グループ内の何人かの友人とコミュニケーションを取っていて、何人かの友人から質問を受けたのですが...

友好的なリンクの売買に対抗するための百度のアルゴリズムに関する推測

ここ数カ月、インターネット上のウェブマスターにとって最も心配なことは、Baidu のアルゴリズム更新...

ウェブマスターとして成功するための第一の選択肢:時代の流れに乗り、自分自身を向上させること

木は静かになりたいのに、風は止まない。ウェブマスターたちは百度からの攻撃に次から次へと直面し、対処に...