Prometheus監視プラットフォームを導入する際には、6つの要素を考慮する必要がありますが、どれも無視することはできません。

Prometheus監視プラットフォームを導入する際には、6つの要素を考慮する必要がありますが、どれも無視することはできません。

企業がコンテナを導入する場合、コンテナの監視も優先されます。多くの企業がコンテナとマイクロサービスを監視するために Prometheus を使用しています。これは通常、大規模企業にとってはより積極的なものとなるため、大規模に展開する際には拡張の課題に直面することになります。

[[340880]]

コンテナは状況を複雑にする

かつては、企業内の物理サーバーと仮想マシンの数は固定されており、メトリックの数も限られていたため、環境全体の監視は比較的簡単でした。現在、コンテナとマイクロサービス アーキテクチャへの移行により、追跡するエンティティの数は爆発的に増加しています。

新しいマシンが追加されるにつれて、コンテナの数は増え続け、マシン 1 台あたり数百になることもあります。Kubernetes などのオーケストレーション ツールと併用すると、コンテナの存続期間が非常に短くなるため、追跡が難しくなり、注意しないと多くの問題が発生する可能性があります。

環境の複雑さと分散が増すにつれて、監視する必要があるエンティティの数も増加します。さらに、何が起こっているかを正確に把握したり、トラブルシューティングやインシデント対応の際に何が起こっているかを把握したりするために、さらに多くの属性を監視する必要がある場合もあります。こうした一時的な環境では、問題の根本原因を理解しようとする頃には、問題のあるリソースがすでに削除されていることが多く、トラブルシューティングが特に困難になります。つまり、監視ソリューションでは、フォレンジックを実施するために十分な履歴を保存する方法を提供する必要があります。

プロメテウス

クラウド監視に関しては、IT チームは Cloud Native Computing Foundation のオープンソース プロジェクトである Prometheus にますます注目するようになっています。 Prometheus は、クラウド ネイティブ環境でメトリックを収集して理解するために開発者が選択する監視ツールになりました。 700 社を超える企業貢献者による大規模なコミュニティによってサポートされています。


Kubernetes、Ngnix、MongoDB、Kafka、golang などの一般的なクラウドネイティブ アプリケーション スタックは、デフォルトで Prometheus メトリックを公開します。 Prometheus は、垂直にスケーラブルな Go プログラムとして設計されています。たとえば、単一のコンテナまたは単一のホストとして簡単にデプロイできます。つまり、Prometheus を使い始めて、Kubernetes クラスターに関する洞察を得るのは簡単です。しかし、これはまた、インフラストラクチャが拡大するにつれて、監視の規模も課題に直面することを意味します。

規模の問題

環境が拡大し、追跡する必要がある時系列データの量が爆発的に増加すると、ある時点で単一の Prometheus インスタンスでは対応できなくなります。最も簡単な方法は、企業全体で Prometheus サーバーのフリートを実行することですが、これにもいくつかの課題があります。たとえば、数十または数百の Prometheus サーバー間でデータを管理および統合するのは簡単ではありません。同様に、エンタープライズ ワークフロー、シングル サインオン、ロールベースのアクセス制御を決定し、SLA やコンプライアンスに準拠することも簡単な問題ではありません。アプリケーションが成長するにつれて、開発者の作業を中断せずに包括的な監視ソリューションを運用することが、管理性と信頼性の大きな問題になります。

この問題を解決するために、企業はいくつかの方法を採用しました。

簡単な最初のステップは、名前空間ごとまたはクラスターごとに個別の Prometheus サーバーを使用することです。このアプローチは、明らかに一定のレベルを超えて拡張することが困難であり、さらにそれを超えると、多数の切断されたデータ サイロが作成されるという欠点があります。ほとんどの問題は複数のサービス/チーム/クラスターにまたがるため、トラブルシューティングが面倒になります。すべての環境で同じメトリックを見つけることは難しいだけでなく、何が起こっているかを理解するためにデータを組み合わせる必要もあります。

もう 1 つの一般的なアプローチは、Cortex や thanos などのオープン ソース ツールを使用して複数の Prometheus サーバーを統合することです。これらは、集中的にサーバーをクエリし、データを収集し、単一のダッシュボードでデータを共有できる強力なツールです。ただし、他のデータ集約型分散システムと同様に、運用するには多大なスキルとリソースが必要です。

考慮すべき6つの要素

Prometheus から始めて、全体的な監視を提供する商用ソリューションを探している企業にとって、ダッシュボードやアラートなど、Prometheus で標準化するために行われたすべての開発作業を失わないことが重要です。ただし、考慮すべきことはこれだけではありません。次の要素が役立つ場合があります。

1. 互換性、すべてのPrometheus機能のサポート

選択するクラウド ベンダー、ツール、または SaaS ソリューションは、オンプレミスの Kubernetes であろうと、任意のクラウド サービスであろうと、Prometheus メトリックを生成するあらゆるものからデータを使用できる必要があります。 Prometheus のメトリックは比較的些細なものです。しかし、メトリックをストレージに抽出するときにラベルを付け直したり、データを拡張して環境に適したものにしたりできるといった小さな点も見逃さないでください。これらが積み重なって、収集された大量のデータの利用に大きな違いが生まれます。

2. PromQLの互換性

Prometheus クエリ言語は、Prometheus によって保存された情報を抽出するために使用されます。 PromQL は、特定のサービスや特定のユーザーなどのメトリックについて問い合わせることができます。また、データの集計やセグメント化も可能で、たとえば、アプリケーション ベースですべてのコンテナーの CPU 使用率を表示したり、Cassandra コンテナーのデータのみをクラスターごとに単一の値として表示したりできます。つまり、PromQL は Prometheus の真の価値を解き放ちます。したがって、PromQL を完全にサポートしていない製品に Prometheus メトリックを組み込むと、Prometheus を使用する目的が達成されなくなります。

3. ホットスワップ

真の Prometheus 互換を実現するには、ソリューションはホットプラグ可能で、既存のダッシュボード、アラート、スクリプトと連携できる必要があります。たとえば、Prometheus を使用する多くの企業は、ダッシュボードとして Grafana を使用しています。このオープンソース ツールは、クエリ レベルを含め Prometheus と適切に統合されており、さまざまな便利なグラフやダッシュボードを生成するために使用できます。したがって、Prometheus と互換性があると主張する商用製品は、Grafana などのツールとも互換性があるはずです。このソリューションにより Grafana で数値を表示できるようになると言うだけでは十分ではありません。既存の Grafana ダッシュボードをそのまま抽出し、商用ソリューションのデータに再適用できる必要があります。

[[340881]]

4. アクセス制御

アクセス制御は、ツールを評価する際に考慮すべきもう 1 つのセキュリティ問題です。 LDAP、Google Oauth、SAML、OpenID などの業界標準プロトコルを使用してユーザー認証を保護することで、企業はサービスベースのアクセス制御を通じてリソースを分離し、保護することができます。

5. トラブルシューティング

Kubernetes は、コンテナ化されたアプリケーションとマイクロサービスの展開、スケーリング、管理を簡素化します。これはサービスの稼働維持に役立ちますが、パフォーマンスの低下、デプロイメントの失敗、接続エラーなどの根本的な問題を特定して解決するには、運用環境から詳細なインフラストラクチャ、アプリケーション、パフォーマンス データを収集して視覚化する機能が必要です。リアルタイムの情報とコンテキスト データの両方にアクセスできない場合、コンテキスト内でメトリックを相関させて問題をより迅速に解決することはほぼ不可能です。

6. 既存のアラームとの互換性

最後に、Prometheus のスケーラビリティの問題を解決するための商用ソリューションを探している場合は、あらゆるレベルのアラートをサポートしていることを確認してください。これを実現するための鍵は、アラート マネージャー機能の完全なサポートであり、そのためには PromQL との 100% の互換性が必要です。

<<:  SalesEasyのShi Yanzeが[2020年中国デジタルエコシステムSaaSリーダー]賞を受賞

>>:  Kafka を使い始めましょう。知れば知るほど、知らないことが増えます!

推薦する

sharktech- 139 ドル/高防御サーバー/デュアル チャネル L5639/24G メモリ/2x2T ハード ドライブ/29IP/ロサンゼルス

よく知られているアメリカのホスティング会社 Sharktech (Shark Data Center...

F5 クラウドネイティブ キーワード: 変革、構築、統合

[51CTO.com からのオリジナル記事] クラウド ネイティブは、今日のクラウド コンピューティ...

SEOにおけるウェブサイトのホーム画面デザインの5つの重要な側面に関する実用的な情報を共有します

ウェブサイトのユーザー エクスペリエンスは、アート、デザイン、プログラミング、戦略、フィードバックを...

個人ウェブマスターによる百度インデックスの最近の急増の理由の分析

最近、Baidu は登録に関していくつかの調整を行ったようです。私の個人的な経験では、3 月 12 ...

ストーリーマーケティング: 良いストーリーを伝えてビジネスの評判を広める

インターネット マーケティング手法は何千とあり、常に変化するこれらの手法を使用して市場を勝ち取るのは...

プロジェクトの実践を継続し、Redis分散ロックを統合する

[[386548]]今日は、Redis ベースの分散ロックをプロジェクトに統合します。分散ロックは常...

webhorizo​​n: 日本 VPS、34% オフ、4G メモリ/2 コア (AMD EPYC 7513)/60gNVMe/4T トラフィック/10Gbps 帯域幅

webhorizo​​nは2016年に設立され、英国に登録されており、おそらくインドで設立された会社...

SEOサービスを探す際に注意すべき5つのこと

インターネット マーケティングに参入する業界が増えるにつれて、アウトソーシングされた SEO サービ...

chicagovps-専用サーバーを超格安で販売、滅多にないチャンス!

chicagovps のニューヨークとダラスのデータセンターには、プロモーション用の特別低価格サーバ...

#元旦# Pnnode-70%オフ/C3コンピュータルーム/CN2/256Mメモリ/VPS年払い84元| Alipay

Ping An Host (pnnode) は新年のプロモーションとして、ロサンゼルスの VPS と...

ウェブサイト開設から20日以上経過しても、Baiduがホームページではなく内部ページのみをインデックスした理由

ウェブサイトが開設されてから20日以上経ちましたが、ホームページはまだ掲載されていません。一方、ウェ...

cloudcone: $130/E5-1650v3/64g/2*2T/ロサンゼルスMCデータセンター | 高防御サーバー

私たちは、常に cloudcone の安価な VPS に注目してきました。今日は、cloudcone...

インターネットでお金を稼ぐ方法(I):インターネットの収益モデルの分析

端午節の休暇中、私はとても快適に休んでいました。仕事のことを考えず、外にも出かけませんでした。スーパ...

初心者コピーライターを上級コピーライターに変える 4 つのライティング スキル

月給5,000~50,000のこれらのプロジェクトはあなたの将来ですコピーライティングの敷居は比較的...

イベントマーケティングの効果に影響を与える主な要因

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますイベント ...