クラウドネイティブの可観測性データに溺れないようにする方法

クラウドネイティブの可観測性データに溺れないようにする方法

従来のアプリケーション パフォーマンス監視 (APM) は、規模とデータ量に根本的な違いがあるため、新しいクラウド ネイティブ スタックでは必ずしもうまく機能するとは限りません。さらに、すべてがコンテナ内で実行される場合、データの時間的性質に合わせて監視を設計および最適化する必要があります。

クラウド ネイティブのパフォーマンスを理解することで、サイト信頼性エンジニア (SRE) とプラットフォーム エンジニアは、問題が発生したときに迅速に対応するためのリアルタイムの分析情報を得ることができます。その結果、近年では、インシデントの根本原因を明らかにするためのメトリクス、ログ、トレースを含むクラウドネイティブのフルスタック可観測性への関心が高まっています。

Chronosphere の共同創設者兼 CEO である Martin Mao 氏は、可観測性の重要な目標は平均復旧時間 (MTTR) を短縮することだと述べています。しかし驚くべきことに、この指標は多くの企業で実際に増加しており、大量の通知を処理する際にアラートを識別するのが難しいため、エンジニアはデータ疲労を経験する可能性があります。 Mao 氏は、クラウド ネイティブの可観測性データを管理する方法を分析して説明し、企業が可観測性データの海の中で冷静さを保つために役立つヒントをいくつか紹介しました。

可観測性のトレンド

まず、クラウド コンピューティング プロバイダーやコンピューティング環境に依存しないクラウド ネイティブの可観測性タスクをサポートするオープン ソース ツールが数多く登場しています。 Cloud Native Computing Foundation の調査により、エンジニアが OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex、OpenMetrics などのオープンソース ツールを積極的に使用していることがわかりました。

以前 Uber で可観測性チームを率いていた Martin Mao 氏は、今日のプラットフォーム運用のニーズを深く理解しています。 Uber の開発者は、アプリケーション パフォーマンス モニタリング (APM) の欠点に気づき、独自のツールの開発を試み、オープン ソース メトリクス プラットフォーム M3 やオープン ソース分散トレース システム Jaeger などのプロジェクトが生まれました。

しかし、こうした派手なクラウドネイティブ テクノロジーに投資することには欠点もあります。同氏は、これらのツールが生成する膨大な量のデータに対する懸念が高まっていると述べた。観測データの増加はビジネスとインフラストラクチャの増加をはるかに上回っています。つまり、解析が困難なだけでなく、過剰な観測データによって新しいデータ レイクが作成され、データの保存と統合に関する新たな問題が発生する可能性があります。

「生成されるデータが増えるにつれて、精査すべきアラートも増え、それらのアラートが問題の解決方法を見つける妨げになり始めます」とマオ氏は語った。

ソリューション: 保持と解像度の最適化

マオ氏は、企業はデータの保持と解決に制限を設けることでこれらの問題に対処できると述べた。これらの概念が何を意味するのかを詳しく見てみましょう。

(1)データの保持

多くのツールがますます多くのデータディメンションを生成するため、企業の観測可能性データは急速に蓄積される可能性があります。データの蓄積を防ぐ最初の方法は、データが収集されるタイミングと保存される期間を制限することです。

たとえば、単一のデプロイメント中に収集されたすべてのデータを無期限に保持する必要がありますか?今日の反復的な開発サイクルでは、これらのポイントを永久に保存することは賢明ではないかもしれません。これは、デフォルトの保存期間を短縮することを意味する場合があります。

さらに、データ収集の時間に制限を設けないと、観測データが爆発的に増加する可能性があります。たとえば、デバッグ エンドポイントのリアルタイム ログ記録は、アクティブにデバッグしている場合にのみ意味があり、それ以外の場合はデータを収集する必要はありません。

(2)データ解像度

データ解像度とは、記録された時系列データの粒度を指します。 Mao 氏が指摘するように、1 秒ごとにデータを記録するのと、1 時間ごとにデータを記録するのでは、本質的に 3,600 倍も異なります。したがって、高価なストレージ デバイスの使用を減らすには、データ収集の解像度を最適化することが重要です。

観測可能性データのデータ解像度の調整は、主に現在のユースケースによって異なります。 CI/CD の例に戻ると、ロールバック中にデプロイメント データを収集している場合、重要なのはその瞬間であるため、毎秒の高解像度が求められます。一方、企業が 1 年間の容量計画を行っている場合は、細かすぎるため、2 年目まで容量履歴情報を保持する必要がない場合があります。

その他のヒント

データの保持と解像度を最適化すると、記録されるデータの量を制限できます。これにより、フットプリントが小さくなり、精査するデータ ポイントが少なくなります。解像度を調整すると、多くのユーザーにとって不満となる可能性のある、生産艦隊の 10% のみを記録するなどの他の監視方法よりも妥協策となることがよくあります。

データ収集プロセスに動的に参加したり参加しなかったりする方法があれば、事前の作業の一部を軽減できます。これは、よりスマートなデフォルトを自動的に適用するものと考えることができます。何が効果的かがわかれば、企業全体で共有できる可観測性データの収集と保存プロセスに関する共通パターンを設定できます。

マオ氏は、データ処理能力を向上させるには、チームが収集したデータを変更し、視覚化するためのツールが必要になると指摘した。さらに、デバッグ時に作業者がすべてのデータ ポイントのディメンションを必要とするわけではないため、必要な回答を事前に計算するメカニズムが役立つ場合があります。

結論

可観測性のトレンドは、デジタル プラットフォームの運用の最適化に大きなメリットをもたらします。可観測性により、問題への対応時間を短縮し、エンドユーザー エクスペリエンスを向上させることができます。 「可観測性は、こうした取り組みが機能しているかどうかについての洞察を提供し、この点で重要な役割を果たします」と彼は述べた。

しかし、クラウドネイティブ アーキテクチャへの移行が加速するにつれ、新たな警告やシグナルが次々と発生しています。対処しないと、このデータは急速に蓄積され、データ自体の可視性を高める必要性が生じます。 「もたらされた価値は評価される必要がある」と毛沢東氏は語った。

世界では大量のデータが生成されており、データはより多くのスペースを占めています。蓄積され、大規模に保管するにはコストがかかります。しかし、人々は依然としてデータは無料であると考えており、データのライフサイクルを計画していないことがよくあります。 「可観測性のバックエンドを担当する人々の考え方は、データレイクを作成することではなく、ある程度何かを行う必要があるということです」とマオ氏は語った。

この傾向に対抗するために、オペレーターはすべてのデータ部分を同じように扱うことはできません。要約すると、可観測性データ レイクでデータが溺れないようにするには、不要なデータ収集を制限し、データがいつ収集されるか、どのような粒度で収集されるか、どのように視覚化されるか、どのくらいの期間保存されるかなど、よりスマートな最適化を実装する必要があります。

<<:  オープンソースはイノベーションの可能性を刺激し、RHEL 9 は「イノベーション センター」を定義します

>>:  Nvidia CTO: クラウドからメタバースへ

推薦する

友情の連鎖構築の全プロセスの簡単な分析

ウェブサイトが開設されたら、外部リンクの宣伝に力を入れ、さまざまな方法で外部リンクを公開する必要があ...

#新しいコンピュータルーム: hostus-$10/年/768m メモリ/20g ハードドライブ/2T トラフィック/ロサンゼルス/ダラス

Hostus は、ロサンゼルスの新しいデータ センターにサーバーを設置しました。ロサンゼルスで VP...

百度はドメイン名のサフィックスを差別していたことを認める

序文最近、Baidu Webmaster Platformは「【公式声明】これらの珍しいドメイン名サ...

モバイル検索とデスクトップ検索の違いの例

ワイヤレス技術とモバイルスマートデバイスの急速な発展により、PCデバイスの代わりにモバイルデバイスを...

中央宣伝部と他の9つの部門は、ニュースの強要とフェイクニュースを厳しく取り締まるだろう

新華社、北京、3月27日。このほど、中国共産党中央宣伝部、工業情報化部、公安部、国家税務総局、国家工...

Rushmail: メールマーケティングにおけるメールテンプレートの互換性の問題を解決する方法

月給5,000~50,000のこれらのプロジェクトはあなたの将来ですインターネット時代の急速な発展に...

ホット検索はWeiboのトラフィックを束ねるロープですか?

「ハイキングに連れて行ってあげるよ」は他人をあざけるためによく使われるキャッチフレーズになった。 「...

Baidu Green Dream Algorithm 2.0は、本物のソフト記事を識別する方法を教えます

みなさんこんにちは、シャオシです。2009年にSEOの仕事を始めたばかりの頃を覚えています。当時は外...

エッジ コンピューティングについて: あなたのビジネスに適していますか?

新たな IT トレンドのほとんどと同様に、「エッジ コンピューティング」は革命ではなく、むしろ進化で...

インターネット上にゲームレビューのための UGC コミュニティはありますか?

同様の試みは多くの人が行っていますが、推進や運用の過程で問題や困難が生じたため、実際に実行した人はい...

複数のWeChatパブリックアカウントのパスワードが盗まれた。当局はまだ反応していない

最近、WeChatパブリックアカウント所有者数名が、自分たちが運営するWeChatパブリックサブスク...

ソーシャルQ&AサイトQuoraは勢いを増し続けており、主なトラフィックの牽引役はGoogle

Quora のブランド認知度はまだ、ユーザーが質問する際の第一選択肢になるほど高くはありませんが、ト...

インターネットが海外進出して10年!

20年前のビジネス環境と比べると、インターネットは今やユーザー獲得競争に熱心になっています。「トラフ...

装飾業界の最適化プロセスにおけるいくつかの大きな誤解を説明する

4 大ポータルがほぼ独占状態にある中、業界別の垂直ポータルが雨後の筍のように次々と誕生しています。各...

図: 2012 年の中国の共同購入市場の運営データ

Tuan800が発表した最新データによると、2012年の総取引額は213.9億元に達し、2011年に...