クラウドネイティブの可観測性データに溺れないようにする方法

クラウドネイティブの可観測性データに溺れないようにする方法

従来のアプリケーション パフォーマンス監視 (APM) は、規模とデータ量に根本的な違いがあるため、新しいクラウド ネイティブ スタックでは必ずしもうまく機能するとは限りません。さらに、すべてがコンテナ内で実行される場合、データの時間的性質に合わせて監視を設計および最適化する必要があります。

クラウド ネイティブのパフォーマンスを理解することで、サイト信頼性エンジニア (SRE) とプラットフォーム エンジニアは、問題が発生したときに迅速に対応するためのリアルタイムの分析情報を得ることができます。その結果、近年では、インシデントの根本原因を明らかにするためのメトリクス、ログ、トレースを含むクラウドネイティブのフルスタック可観測性への関心が高まっています。

Chronosphere の共同創設者兼 CEO である Martin Mao 氏は、可観測性の重要な目標は平均復旧時間 (MTTR) を短縮することだと述べています。しかし驚くべきことに、この指標は多くの企業で実際に増加しており、大量の通知を処理する際にアラートを識別するのが難しいため、エンジニアはデータ疲労を経験する可能性があります。 Mao 氏は、クラウド ネイティブの可観測性データを管理する方法を分析して説明し、企業が可観測性データの海の中で冷静さを保つために役立つヒントをいくつか紹介しました。

可観測性のトレンド

まず、クラウド コンピューティング プロバイダーやコンピューティング環境に依存しないクラウド ネイティブの可観測性タスクをサポートするオープン ソース ツールが数多く登場しています。 Cloud Native Computing Foundation の調査により、エンジニアが OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex、OpenMetrics などのオープンソース ツールを積極的に使用していることがわかりました。

以前 Uber で可観測性チームを率いていた Martin Mao 氏は、今日のプラットフォーム運用のニーズを深く理解しています。 Uber の開発者は、アプリケーション パフォーマンス モニタリング (APM) の欠点に気づき、独自のツールの開発を試み、オープン ソース メトリクス プラットフォーム M3 やオープン ソース分散トレース システム Jaeger などのプロジェクトが生まれました。

しかし、こうした派手なクラウドネイティブ テクノロジーに投資することには欠点もあります。同氏は、これらのツールが生成する膨大な量のデータに対する懸念が高まっていると述べた。観測データの増加はビジネスとインフラストラクチャの増加をはるかに上回っています。つまり、解析が困難なだけでなく、過剰な観測データによって新しいデータ レイクが作成され、データの保存と統合に関する新たな問題が発生する可能性があります。

「生成されるデータが増えるにつれて、精査すべきアラートも増え、それらのアラートが問題の解決方法を見つける妨げになり始めます」とマオ氏は語った。

ソリューション: 保持と解像度の最適化

マオ氏は、企業はデータの保持と解決に制限を設けることでこれらの問題に対処できると述べた。これらの概念が何を意味するのかを詳しく見てみましょう。

(1)データの保持

多くのツールがますます多くのデータディメンションを生成するため、企業の観測可能性データは急速に蓄積される可能性があります。データの蓄積を防ぐ最初の方法は、データが収集されるタイミングと保存される期間を制限することです。

たとえば、単一のデプロイメント中に収集されたすべてのデータを無期限に保持する必要がありますか?今日の反復的な開発サイクルでは、これらのポイントを永久に保存することは賢明ではないかもしれません。これは、デフォルトの保存期間を短縮することを意味する場合があります。

さらに、データ収集の時間に制限を設けないと、観測データが爆発的に増加する可能性があります。たとえば、デバッグ エンドポイントのリアルタイム ログ記録は、アクティブにデバッグしている場合にのみ意味があり、それ以外の場合はデータを収集する必要はありません。

(2)データ解像度

データ解像度とは、記録された時系列データの粒度を指します。 Mao 氏が指摘するように、1 秒ごとにデータを記録するのと、1 時間ごとにデータを記録するのでは、本質的に 3,600 倍も異なります。したがって、高価なストレージ デバイスの使用を減らすには、データ収集の解像度を最適化することが重要です。

観測可能性データのデータ解像度の調整は、主に現在のユースケースによって異なります。 CI/CD の例に戻ると、ロールバック中にデプロイメント データを収集している場合、重要なのはその瞬間であるため、毎秒の高解像度が求められます。一方、企業が 1 年間の容量計画を行っている場合は、細かすぎるため、2 年目まで容量履歴情報を保持する必要がない場合があります。

その他のヒント

データの保持と解像度を最適化すると、記録されるデータの量を制限できます。これにより、フットプリントが小さくなり、精査するデータ ポイントが少なくなります。解像度を調整すると、多くのユーザーにとって不満となる可能性のある、生産艦隊の 10% のみを記録するなどの他の監視方法よりも妥協策となることがよくあります。

データ収集プロセスに動的に参加したり参加しなかったりする方法があれば、事前の作業の一部を軽減できます。これは、よりスマートなデフォルトを自動的に適用するものと考えることができます。何が効果的かがわかれば、企業全体で共有できる可観測性データの収集と保存プロセスに関する共通パターンを設定できます。

マオ氏は、データ処理能力を向上させるには、チームが収集したデータを変更し、視覚化するためのツールが必要になると指摘した。さらに、デバッグ時に作業者がすべてのデータ ポイントのディメンションを必要とするわけではないため、必要な回答を事前に計算するメカニズムが役立つ場合があります。

結論

可観測性のトレンドは、デジタル プラットフォームの運用の最適化に大きなメリットをもたらします。可観測性により、問題への対応時間を短縮し、エンドユーザー エクスペリエンスを向上させることができます。 「可観測性は、こうした取り組みが機能しているかどうかについての洞察を提供し、この点で重要な役割を果たします」と彼は述べた。

しかし、クラウドネイティブ アーキテクチャへの移行が加速するにつれ、新たな警告やシグナルが次々と発生しています。対処しないと、このデータは急速に蓄積され、データ自体の可視性を高める必要性が生じます。 「もたらされた価値は評価される必要がある」と毛沢東氏は語った。

世界では大量のデータが生成されており、データはより多くのスペースを占めています。蓄積され、大規模に保管するにはコストがかかります。しかし、人々は依然としてデータは無料であると考えており、データのライフサイクルを計画していないことがよくあります。 「可観測性のバックエンドを担当する人々の考え方は、データレイクを作成することではなく、ある程度何かを行う必要があるということです」とマオ氏は語った。

この傾向に対抗するために、オペレーターはすべてのデータ部分を同じように扱うことはできません。要約すると、可観測性データ レイクでデータが溺れないようにするには、不要なデータ収集を制限し、データがいつ収集されるか、どのような粒度で収集されるか、どのように視覚化されるか、どのくらいの期間保存されるかなど、よりスマートな最適化を実装する必要があります。

<<:  オープンソースはイノベーションの可能性を刺激し、RHEL 9 は「イノベーション センター」を定義します

>>:  Nvidia CTO: クラウドからメタバースへ

推薦する

hostsolutions-苦情防止サーバーホスト/著作権なし/オフショア模倣ブランド外国貿易ホスト

Hostsolutions はルーマニアのホスティング会社です。主な特徴は、サーバーが苦情に強く、著...

どのサーバーが一番速いですか?推奨される高速な海外サーバー(物理マシン)

どのサーバーが一番速いですか?どのサーバーが一番速いですか?ウェブサイトの構築、サイト グループ、ビ...

4年! OpenStackの運用と保守のアーキテクチャについての私のまとめ

序文シロクマさんに誘われて、何か書きます。よく考えてみると、クラウド コンピューティングの範囲は本当...

chicagovps-18USD/8GB RAM/200GB HDD/5IP/10TB トラフィック/1000M ポート

Chicagogovps から、スマート サーバーを宣伝するメールが届きました。現在、スマート サー...

SEOブログ記事をポータルに投稿することについての私の意見

多くの SEO 担当者は独自のブログを持っています。記事の質に関係なく、記事を更新する頻度は賞賛に値...

Hypere: サンフランシスコ サーバー、月額 50 ドル、2*e5-2620v4/64gDDR4/2*500gSSD/30T トラフィック/6Tbps 防御

hypere.cloudは主に米国サンフランシスコと英国ロンドンのデータセンターでVPSと独立サーバ...

XiaoIceの続報:マイクロソフトはテンセントに対抗するため他のインターネット大手と提携する可能性がある

5月29日、ミルクティーシスターの張澤田は、Xiaoiceをインターンシップのプロダクトマネージャー...

アリババの自社開発コーデックが2つの世界選手権で優勝、将来的には8Kビデオにも対応

12月15日、2020 MSU 世界ビデオエンコーダーコンペティションの結果が発表されました。アリバ...

中国のインターネットIPデータベースはより標準化された広告を公開

テンセントテクノロジーニュース、北京時間4月18日、中国広告協会インタラクティブネットワーク支部IP...

相違点を残しつつ共通点を探る:企業ウェブサイトのホームページデザインについての議論

みなさんこんにちは、梁磊です。ユーザーエクスペリエンスはページデザインと密接な関係があります。ページ...

良いロゴをデザインするにはどうすればいいですか? LOGO Design Network なら、ロゴデザインはもう難しくありません!

ロゴは、ユーザーにブランドを紹介する最良の方法です。ロゴを通じて、ユーザーは会社とブランドをすぐに識...

Kubernetes の怠け者開発者ガイド

この記事は、開発者が Kubernetes をすぐに学習するためのガイドとして使用できます。基本的な...

【2016年最新版】モバイルインターネット業界の専門用語を完全網羅!

モバイルインターネットプロフェッショナルレベル4試験が始まりました〜 CPA、CPD、CPI、CPS...