クラウドネイティブの可観測性データに溺れないようにする方法

クラウドネイティブの可観測性データに溺れないようにする方法

従来のアプリケーション パフォーマンス監視 (APM) は、規模とデータ量に根本的な違いがあるため、新しいクラウド ネイティブ スタックでは必ずしもうまく機能するとは限りません。さらに、すべてがコンテナ内で実行される場合、データの時間的性質に合わせて監視を設計および最適化する必要があります。

クラウド ネイティブのパフォーマンスを理解することで、サイト信頼性エンジニア (SRE) とプラットフォーム エンジニアは、問題が発生したときに迅速に対応するためのリアルタイムの分析情報を得ることができます。その結果、近年では、インシデントの根本原因を明らかにするためのメトリクス、ログ、トレースを含むクラウドネイティブのフルスタック可観測性への関心が高まっています。

Chronosphere の共同創設者兼 CEO である Martin Mao 氏は、可観測性の重要な目標は平均復旧時間 (MTTR) を短縮することだと述べています。しかし驚くべきことに、この指標は多くの企業で実際に増加しており、大量の通知を処理する際にアラートを識別するのが難しいため、エンジニアはデータ疲労を経験する可能性があります。 Mao 氏は、クラウド ネイティブの可観測性データを管理する方法を分析して説明し、企業が可観測性データの海の中で冷静さを保つために役立つヒントをいくつか紹介しました。

可観測性のトレンド

まず、クラウド コンピューティング プロバイダーやコンピューティング環境に依存しないクラウド ネイティブの可観測性タスクをサポートするオープン ソース ツールが数多く登場しています。 Cloud Native Computing Foundation の調査により、エンジニアが OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex、OpenMetrics などのオープンソース ツールを積極的に使用していることがわかりました。

以前 Uber で可観測性チームを率いていた Martin Mao 氏は、今日のプラットフォーム運用のニーズを深く理解しています。 Uber の開発者は、アプリケーション パフォーマンス モニタリング (APM) の欠点に気づき、独自のツールの開発を試み、オープン ソース メトリクス プラットフォーム M3 やオープン ソース分散トレース システム Jaeger などのプロジェクトが生まれました。

しかし、こうした派手なクラウドネイティブ テクノロジーに投資することには欠点もあります。同氏は、これらのツールが生成する膨大な量のデータに対する懸念が高まっていると述べた。観測データの増加はビジネスとインフラストラクチャの増加をはるかに上回っています。つまり、解析が困難なだけでなく、過剰な観測データによって新しいデータ レイクが作成され、データの保存と統合に関する新たな問題が発生する可能性があります。

「生成されるデータが増えるにつれて、精査すべきアラートも増え、それらのアラートが問題の解決方法を見つける妨げになり始めます」とマオ氏は語った。

ソリューション: 保持と解像度の最適化

マオ氏は、企業はデータの保持と解決に制限を設けることでこれらの問題に対処できると述べた。これらの概念が何を意味するのかを詳しく見てみましょう。

(1)データの保持

多くのツールがますます多くのデータディメンションを生成するため、企業の観測可能性データは急速に蓄積される可能性があります。データの蓄積を防ぐ最初の方法は、データが収集されるタイミングと保存される期間を制限することです。

たとえば、単一のデプロイメント中に収集されたすべてのデータを無期限に保持する必要がありますか?今日の反復的な開発サイクルでは、これらのポイントを永久に保存することは賢明ではないかもしれません。これは、デフォルトの保存期間を短縮することを意味する場合があります。

さらに、データ収集の時間に制限を設けないと、観測データが爆発的に増加する可能性があります。たとえば、デバッグ エンドポイントのリアルタイム ログ記録は、アクティブにデバッグしている場合にのみ意味があり、それ以外の場合はデータを収集する必要はありません。

(2)データ解像度

データ解像度とは、記録された時系列データの粒度を指します。 Mao 氏が指摘するように、1 秒ごとにデータを記録するのと、1 時間ごとにデータを記録するのでは、本質的に 3,600 倍も異なります。したがって、高価なストレージ デバイスの使用を減らすには、データ収集の解像度を最適化することが重要です。

観測可能性データのデータ解像度の調整は、主に現在のユースケースによって異なります。 CI/CD の例に戻ると、ロールバック中にデプロイメント データを収集している場合、重要なのはその瞬間であるため、毎秒の高解像度が求められます。一方、企業が 1 年間の容量計画を行っている場合は、細かすぎるため、2 年目まで容量履歴情報を保持する必要がない場合があります。

その他のヒント

データの保持と解像度を最適化すると、記録されるデータの量を制限できます。これにより、フットプリントが小さくなり、精査するデータ ポイントが少なくなります。解像度を調整すると、多くのユーザーにとって不満となる可能性のある、生産艦隊の 10% のみを記録するなどの他の監視方法よりも妥協策となることがよくあります。

データ収集プロセスに動的に参加したり参加しなかったりする方法があれば、事前の作業の一部を軽減できます。これは、よりスマートなデフォルトを自動的に適用するものと考えることができます。何が効果的かがわかれば、企業全体で共有できる可観測性データの収集と保存プロセスに関する共通パターンを設定できます。

マオ氏は、データ処理能力を向上させるには、チームが収集したデータを変更し、視覚化するためのツールが必要になると指摘した。さらに、デバッグ時に作業者がすべてのデータ ポイントのディメンションを必要とするわけではないため、必要な回答を事前に計算するメカニズムが役立つ場合があります。

結論

可観測性のトレンドは、デジタル プラットフォームの運用の最適化に大きなメリットをもたらします。可観測性により、問題への対応時間を短縮し、エンドユーザー エクスペリエンスを向上させることができます。 「可観測性は、こうした取り組みが機能しているかどうかについての洞察を提供し、この点で重要な役割を果たします」と彼は述べた。

しかし、クラウドネイティブ アーキテクチャへの移行が加速するにつれ、新たな警告やシグナルが次々と発生しています。対処しないと、このデータは急速に蓄積され、データ自体の可視性を高める必要性が生じます。 「もたらされた価値は評価される必要がある」と毛沢東氏は語った。

世界では大量のデータが生成されており、データはより多くのスペースを占めています。蓄積され、大規模に保管するにはコストがかかります。しかし、人々は依然としてデータは無料であると考えており、データのライフサイクルを計画していないことがよくあります。 「可観測性のバックエンドを担当する人々の考え方は、データレイクを作成することではなく、ある程度何かを行う必要があるということです」とマオ氏は語った。

この傾向に対抗するために、オペレーターはすべてのデータ部分を同じように扱うことはできません。要約すると、可観測性データ レイクでデータが溺れないようにするには、不要なデータ収集を制限し、データがいつ収集されるか、どのような粒度で収集されるか、どのように視覚化されるか、どのくらいの期間保存されるかなど、よりスマートな最適化を実装する必要があります。

<<:  オープンソースはイノベーションの可能性を刺激し、RHEL 9 は「イノベーション センター」を定義します

>>:  Nvidia CTO: クラウドからメタバースへ

推薦する

教育と訓練の寒い冬に巨大教育が崩壊

子供たちはこの夏休みに追加の授業を受ける必要はありません。 2018年、教育・研修業界は40年目に突...

IDC:2020年上半期のクラウド運用サービス市場規模は100.8億元

国際データコーポレーション(IDC)がこのほど発表した「中国クラウド運用サービス市場(2020年上半...

クラウド コンピューティングの時代において、ハードウェアが依然として重要な理由は何でしょうか?

カリフォルニア大学サンディエゴ校は、「クラウドファースト」戦略を採用し、3 台​​のメインフレームを...

第1四半期から第3四半期までの衣料品ブランドのソーシャルメディアマーケティングに関する分析レポート

消費のグレードアップ、国民的トレンドの台頭、電子商取引ライブストリーミングの人気などの影響を受け、ア...

servgrid-VPS クラウド/KVM/SSD/25% オフ

servgrid は、最新のハードウェアを使用し、ハード ドライブに Samsung 830/840...

クラウド コンピューティング: 単一クラウドよりもマルチクラウドが優先される戦略である理由

[[331104]]私たちの経済はデジタル化に向かっています。これは、インフラストラクチャへの圧力が...

盗作を減らしてウェブサイトをオリジナルにしましょう - A5 Webmaster Network

実際、オリジナル記事の 90% は疑似オリジナルであるということは誰もが知っているはずです。特に、イ...

2021年上半期:分散クラウドについて

クラウド コンピューティングが止められないトレンドになっていることは間違いありません。ビジネスの柔軟...

56.com の簡単な分析: 合併後の解決策は?

2011年9月、Renrenはビデオウェブサイト56.comを正式に買収するために8000万ドルを費...

複合マーケティングにより、SKYCC の売上は引き続き急上昇中でしょうか?

最近、私はSKYCC複合マーケティングソフトウェアのWeiboマーケティングに注目しました。このマー...

SaaS がクラウド サービスを再定義、企業は今後どこに向かうべきか?

SaaS エンタープライズ ソフトウェアは現在、エンタープライズ ソフトウェア全体に占める割合は比較...

リンク取引に対する百度(バイドゥ)の姿勢はどのようなものですか?

百度は、リンクの売買を取り締まると改めて発表した。11月5日、百度ウェブマスタープラットフォームは、...

hostdare - 38% 割引コード/高速 VPS/Windows/CN2 回線 KVM/Unicom 直接接続

Hostdare は、ロサンゼルス C3 データセンター向けの最新の VPS プロモーションを発表し...

過去1年間のアリババクラウドハイブリッドクラウド:18の省政府クラウドにサービスを提供

2020 年を振り返ると、この流行はクラウド コンピューティングの発展に大きな影響を与えました。調査...