ビッグデータの中核技術であるKafkaについてどれくらいご存知ですか？

Kafka はビッグデータの中核技術です。技術開発者として、それを理解できないと、本当に「アウト」になります。 DT 時代の急速な発展は Kafka と切り離せないため、Kafka を理解して適用することが必須となっています。

[[264189]]

Kafka とは何ですか? Kafka は、レコードのストリームを公開およびサブスクライブするための分散ストリーミングプラットフォームです。 Kafka はフォールトトレラントストレージに使用できます。 Kafka はトピックログパーティションを複数のサーバーに複製します。 Kafka は、レコードが生成されるとすぐにアプリケーションが処理できるように設計されています。 Kafka は処理速度が速く、レコードをバッチ処理して圧縮することで IO を効率的に使用します。 Kafka はデータストリームを分離します。 Kafka は、データレイク、アプリケーション、リアルタイムストリーミング分析システムにデータをストリーミングするために使用されます。 Kafka は主に、ビッグデータの収集やリアルタイム情報ストリームのリアルタイム分析 (またはその両方) に使用されます。 Kafka は、インメモリマイクロサービスを提供するために使用できるほか、複雑なイベントストリーミングシステムや IoT/IFTTT スタイルの自動化システムにイベントを供給するためにも使用できます。

現在、世界のトップ 500 社のうち 3 分の 1 が Kafka を使用しています。人気の理由は次のとおりです。

まず、Kafka は高速です。

Kafka はゼロコピーの原則に基づいており、高速なデータ移動を実現するためにオペレーティングシステムカーネルに大きく依存しており、データレコードをバッチで処理できます。これらのデータバッチは、プロデューサーからファイルシステム (Kafka トピックログ) に渡され、その後エンドツーエンドでコンシューマーに渡されます。バッチ処理により、より効率的なデータ圧縮が可能になり、I/O レイテンシが短縮されます。 Kafka は不変のコミットログを連続したディスクに書き込むため、ランダムディスクアクセスやディスクシークの遅延の問題を回避できます。 Kafka は水平拡張のためのパーティションの追加をサポートしています。トピックログを数百 (場合によっては数千) のパーティションに分割し、数千のサーバーに配布します。このアプローチにより、Kafka は大量の負荷を処理できるようになります。

第二に、Kafkaは複数の言語をサポートしている

クライアントとサーバー間の Kafka 通信では、バージョン管理され文書化された TCP ベースのラインプロトコルが使用されます。 Kafka は、古いクライアントとの下位互換性を維持することを約束し、C#、Java、C、Python、Ruby など、複数の言語をサポートします。 Kafka エコシステムは、HTTP および JSON 経由で簡単に統合できる REST プロキシも提供します。 Kafka は、Kafka 用の Confluent スキーマレジストリを通じて Avro スキーマもサポートします。 Avro とスキーマレジストリにより、クライアントは複数のプログラミング言語で複雑なレコードを作成および読み取り、レコードを変更できるようになります。

3つ目は、Kafkaが広く使われていることです。

Kafka は、リアルタイムストリーミングデータパイプラインの構築をサポートし、メモリマイクロサービス (アクター、Akka、Baratine.io、QBit、リアクター、リアクティブ、Vert.x、RxJava、SpringReactor など) をサポートし、リアルタイムストリーミングアプリケーションの構築をサポートし、リアルタイムデータ分析、変換、応答、集約を実行し、リアルタイムデータストリームを結合し、CEP を実行します。

4番目は、Kafkaのスケーラブルなメッセージストレージ

Kafka はレコードや情報を保存するための優れたシステムです。 Kafka は、コミットログの保存とレプリケーションを備えた高速ファイルシステムのようなものです。これらの機能により、Kafka はさまざまなアプリケーションに適しています。 Kafka トピックに書き込まれたレコードはディスクに保存され、フォールトトレランスのために他のサーバーに複製されます。ディスクが高速でかなり大容量になった今、これは非常に便利です。 Kafka プロデューサーは確認を待つことができるため、レプリケーションが完了するまでプロデューサーは書き込み操作を完了しないため、メッセージは永続的になります。 Kafka のディスク構造は非常にスケーラブルです。ディスクは、大規模なバッチでストリーミングする場合、非常に高いスループットを実現します。さらに、Kafka クライアントとコンシューマーは読み取り位置 (オフセット) を制御できるため、何か問題が発生した場合にログを再生する (バグを修正して再生する) などのユースケースが可能になります。また、オフセットはコンシューマーグループごとに追跡されるため、コンシューマーは非常に柔軟にログを再生できます。

Kafka を使用すると、適切なデータが適切な場所に適切な形式で表示されます。 Kafka のアプローチは、メッセージキューを提供することで、プロデューサーがキューの末尾にデータを追加できるようにし、複数のコンシューマーがキューからデータを順番に読み取り、自分で処理できるようにすることです。このような便利なモデルは、必然的にさまざまな分野での Kafka の応用の継続的な強化につながるでしょう。

DT時代では、Kafkaの応用はさらに深まるでしょう。今後は、フォーチュン 500 企業だけでなく、あらゆる企業がこの便利なツールを使用してビッグデータのレイアウトを実現するようになります。テクノロジーは常に更新され、発展しており、Kafka も常に進化し続けています。今後の企業のビッグデータレイアウトは、Kafka によってさらに便利になると考えています。

<<: OpenStack、氷と炎の世界？

>>: Qing Cube Hyper-Converged Express Editionの助けを借りて、中小企業のデジタル変革を完全に強化することができます。