ハイブリッド vs. マルチクラウド: Kafka アーキテクチャの 5 つの重要な比較

ハイブリッドおよびマルチクラウドインフラストラクチャは、Apache Kafka を使用するユーザーにとって多くの利点をもたらします。

クラウドテクノロジーは、現代のビジネスにとってこれまで以上に重要になっています。企業の 94% は、クラウドインフラストラクチャがもたらすメリットを理由に、クラウドインフラストラクチャに投資しています。

クラウドを使用している企業の約 87% がハイブリッドクラウド環境に依存しています。ただし、他のクラウドソリューションを使用している企業もあるため、これについても議論する必要があります。

現在、ほとんどの企業のクラウドエコシステムには、インフラストラクチャ、コンプライアンス、セキュリティなどの側面が含まれています。これらのインフラストラクチャは、ハイブリッドまたはマルチクラウドに配置できます。さらに、マルチクラウドシステムでは、組織のニーズに基づいてさまざまなベンダーからクラウドインフラストラクチャを調達します。

ハイブリッドクラウド戦略には多くの利点がありますが、マルチクラウドインフラストラクチャの利点についても議論する必要があります。マルチクラウドインフラストラクチャとは、さまざまなベンダーからテクノロジを取得することを意味します。これらのベンダーはプライベートでもパブリックでもかまいません。ハイブリッドクラウドシステムは、オンプレミスのハードウェアソリューションとパブリッククラウドの両方を使用して、さまざまなクラウドタイプを組み合わせたクラウド展開モデルです。

Apache Kafka クラスターを安全に使用して、Amazon の S3 などのさまざまなクラウドサービスを使用して、オンプレミスのハードウェアソリューションからデータレイクにデータをシームレスに移動できます。ただし、クラウドクラスターでトピックを複製するか、クラウドからアプリケーションに読み取りとコピーを行うカスタムコネクタを開発する必要があることに注意してください。

さまざまな Apache Kafka アーキテクチャの 5 つの重要な比較

1. KafkaとETL処理

Apache Kafka は、高パフォーマンスのデータパイプライン、さまざまな分析データのストリーミング、Kafka を使用した企業にとって重要な資産の実行などに使用できますが、Kafka クラスターを使用して複数のシステム間でデータを移動することもできることをご存知でしたか?

これは通常、Kafka プロデューサーがデータを公開したり、Kafka トピックにプッシュしたりして、アプリケーションがデータを使用できるようにしているためです。ただし、Kafka コンシューマーは通常、ターゲットアプリケーションにデータを供給するカスタムアプリケーションです。したがって、クラウドプロバイダーのツールを使用して、データを抽出して変換するジョブを作成し、ETL データをロードできるという利点も得られます。

Amazon の AWS Glue は、Apache Kafka および Amazon Managed Apache Kafka (MSK) ストリームからデータを消費できるツールの 1 つです。これにより、データ結果をすばやく変換し、Amazon S3 データレイクまたは JDBC データストアにロードできるようになります。

2. 建築設計

ほとんどのシステムの場合、最初のステップは通常、ユーザーがこのデータをすばやく表示できるように、応答性が高く管理しやすい Apache Kafka アーキテクチャを構築することです。たとえば、従業員保険証券フォームなど、多くの重要なデータセットを含むドキュメントを処理および記録する必要がある場合などです。その後、さまざまなクラウドツールを使用してデータを抽出し、さらに処理することができます。

また、AWS Glue などのクラウドベースのツールを構成して、オンプレミスのクラウドハードウェアに接続し、安全な接続を確立することもできます。 3 ステップの ETL フレームワークジョブで問題が解決するはずです。手順がわからない場合は、次の手順に従ってください: 手順 1: ツールとローカルの Apache Kafka データストレージソース間の接続を作成します。ステップ 2: データカタログテーブルを作成します。ステップ 3: ETL ジョブを作成し、そのデータをデータレイクに保存します。

3. 接続する

事前定義された Kafka 接続を使用すると、AWS Glue などのさまざまなクラウドツールを使用して、データカタログに安全な Secure Sockets Layer (SSL) 接続を作成できます。さらに、これらの接続には常に自己署名 SSL 証明書が必要であることに注意してください。

さらに、情報からより多くの価値を引き出すために実行できる手順がいくつかあります。たとえば、Quick Sight などのさまざまなビジネスインテリジェンスツールを使用して、内部の Kafka ダッシュボードにデータを埋め込むことができます。その後、別のチームメンバーがイベント駆動型アーキテクチャを使用して管理者に通知し、さまざまなダウンストリームアクションを実行できます。特定のデータ型を扱うときは常にこれを実行する必要がありますが、ここでの可能性は無限です。

4. セキュリティグループ

AWS Glue のようなクラウドツールがそのコンポーネント間で通信する必要がある場合は、すべての伝送制御プロトコル (TCP) ポートに対して自己参照の受信ルールを持つセキュリティグループを指定する必要があります。これにより、データソースを同じセキュリティグループに制限できるようになります。基本的に、すべてのトラフィックに対して自己参照型の受信ルールを事前に構成できます。次に、この新しく作成された接続を参照する Apache Kafka トピックを設定し、スキーマ検出機能を使用する必要があります。