Kafka はビッグデータの中核技術です。技術開発者として、それを理解できないと、本当に「アウト」になります。 DT 時代の急速な発展は Kafka と切り離せないため、Kafka を理解して適用することが必須となっています。
Kafka とは何ですか? Kafka は、レコードのストリームを公開およびサブスクライブするための分散ストリーミング プラットフォームです。 Kafka はフォールト トレラント ストレージに使用できます。 Kafka はトピック ログ パーティションを複数のサーバーに複製します。 Kafka は、レコードが生成されるとすぐにアプリケーションが処理できるように設計されています。 Kafka は処理速度が速く、レコードをバッチ処理して圧縮することで IO を効率的に使用します。 Kafka はデータ ストリームを分離します。 Kafka は、データ レイク、アプリケーション、リアルタイム ストリーミング分析システムにデータをストリーミングするために使用されます。 Kafka は主に、ビッグ データの収集やリアルタイム情報ストリームのリアルタイム分析 (またはその両方) に使用されます。 Kafka は、インメモリ マイクロサービスを提供するために使用できるほか、複雑なイベント ストリーミング システムや IoT/IFTTT スタイルの自動化システムにイベントを供給するためにも使用できます。 現在、世界のトップ 500 社のうち 3 分の 1 が Kafka を使用しています。人気の理由は次のとおりです。 まず、Kafka は高速です。 Kafka はゼロコピーの原則に基づいており、高速なデータ移動を実現するためにオペレーティング システム カーネルに大きく依存しており、データ レコードをバッチで処理できます。これらのデータ バッチは、プロデューサーからファイル システム (Kafka トピック ログ) に渡され、その後エンドツーエンドでコンシューマーに渡されます。バッチ処理により、より効率的なデータ圧縮が可能になり、I/O レイテンシが短縮されます。 Kafka は不変のコミット ログを連続したディスクに書き込むため、ランダム ディスク アクセスやディスク シークの遅延の問題を回避できます。 Kafka は水平拡張のためのパーティションの追加をサポートしています。トピック ログを数百 (場合によっては数千) のパーティションに分割し、数千のサーバーに配布します。このアプローチにより、Kafka は大量の負荷を処理できるようになります。 第二に、Kafkaは複数の言語をサポートしている クライアントとサーバー間の Kafka 通信では、バージョン管理され文書化された TCP ベースのライン プロトコルが使用されます。 Kafka は、古いクライアントとの下位互換性を維持することを約束し、C#、Java、C、Python、Ruby など、複数の言語をサポートします。 Kafka エコシステムは、HTTP および JSON 経由で簡単に統合できる REST プロキシも提供します。 Kafka は、Kafka 用の Confluent スキーマ レジストリを通じて Avro スキーマもサポートします。 Avro とスキーマ レジストリにより、クライアントは複数のプログラミング言語で複雑なレコードを作成および読み取り、レコードを変更できるようになります。 3つ目は、Kafkaが広く使われていることです。 Kafka は、リアルタイム ストリーミング データ パイプラインの構築をサポートし、メモリ マイクロサービス (アクター、Akka、Baratine.io、QBit、リアクター、リアクティブ、Vert.x、RxJava、SpringReactor など) をサポートし、リアルタイム ストリーミング アプリケーションの構築をサポートし、リアルタイム データ分析、変換、応答、集約を実行し、リアルタイム データ ストリームを結合し、CEP を実行します。 4番目は、Kafkaのスケーラブルなメッセージストレージ Kafka はレコードや情報を保存するための優れたシステムです。 Kafka は、コミット ログの保存とレプリケーションを備えた高速ファイル システムのようなものです。これらの機能により、Kafka はさまざまなアプリケーションに適しています。 Kafka トピックに書き込まれたレコードはディスクに保存され、フォールト トレランスのために他のサーバーに複製されます。ディスクが高速でかなり大容量になった今、これは非常に便利です。 Kafka プロデューサーは確認を待つことができるため、レプリケーションが完了するまでプロデューサーは書き込み操作を完了しないため、メッセージは永続的になります。 Kafka のディスク構造は非常にスケーラブルです。ディスクは、大規模なバッチでストリーミングする場合、非常に高いスループットを実現します。さらに、Kafka クライアントとコンシューマーは読み取り位置 (オフセット) を制御できるため、何か問題が発生した場合にログを再生する (バグを修正して再生する) などのユースケースが可能になります。また、オフセットはコンシューマー グループごとに追跡されるため、コンシューマーは非常に柔軟にログを再生できます。 Kafka を使用すると、適切なデータが適切な場所に適切な形式で表示されます。 Kafka のアプローチは、メッセージ キューを提供することで、プロデューサーがキューの末尾にデータを追加できるようにし、複数のコンシューマーがキューからデータを順番に読み取り、自分で処理できるようにすることです。このような便利なモデルは、必然的にさまざまな分野での Kafka の応用の継続的な強化につながるでしょう。 DT時代では、Kafkaの応用はさらに深まるでしょう。今後は、フォーチュン 500 企業だけでなく、あらゆる企業がこの便利なツールを使用してビッグデータのレイアウトを実現するようになります。テクノロジーは常に更新され、発展しており、Kafka も常に進化し続けています。今後の企業のビッグデータレイアウトは、Kafka によってさらに便利になると考えています。 |
>>: Qing Cube Hyper-Converged Express Editionの助けを借りて、中小企業のデジタル変革を完全に強化することができます。
9月9日から11日まで、「未来経済、デジタルファースト」をテーマにしたテンセントグローバルデジタルエ...
最近のテクノロジー業界で最もホットな流行語は「デジタルトランスフォーメーション」です。これは、企業が...
エッジ コンピューティングは、データ センターの設計と管理における次のフロンティアとして急速に普及し...
これらの要因は、公益事業およびエネルギー分野の情報技術 (IT) にどのような影響を与えるのでしょう...
検索エンジンのアルゴリズムのアップデートは、大手SEOウェブマスターの焦点となっています。百度のウェ...
WeChat は「カスタム インターフェース」をテスト中、または App Store プラットフォー...
Alibaba Cloudは、中国最大の市場シェアを持つサーバークラウドベンダーとして、ウェブサイト...
[51CTO.comからのオリジナル記事] デジタル経済は長い間、世界経済の重要な部分となり、徐々に...
SEO担当者は皆、デッドリンクがウェブサイト最適化のタブーであることを知っています。特に、ウェブサイ...
過去10年間で、クラウドコンピューティングは世界中のあらゆる分野で広く使用されるようになり、企業のク...
A5 に投稿するのは今回が初めてです。私はまだ新人で文章が下手なのは承知していますが、私が記録したの...
今日、ウェブ編集者の職に就く新しい人が面接に来ました。何気ない会話の中で、私は彼にウェブ編集者の仕事...
5月21日、2019年テンセントグローバルデジタルエコシステムカンファレンスが開催されました。同会議...
IoT および IIoT デバイスによって生成される膨大な量のデータにより、エッジ コンピューティン...
8月29日、360 Searchが16時30分頃に「安全でクリーン、かつ効果的に競争できるインターネ...