ビッグデータの中核技術であるKafkaについてどれくらいご存知ですか?

ビッグデータの中核技術であるKafkaについてどれくらいご存知ですか?

Kafka はビッグデータの中核技術です。技術開発者として、それを理解できないと、本当に「アウト」になります。 DT 時代の急速な発展は Kafka と切り離せないため、Kafka を理解して適用することが必須となっています。

[[264189]]

Kafka とは何ですか? Kafka は、レコードのストリームを公開およびサブスクライブするための分散ストリーミング プラットフォームです。 Kafka はフォールト トレラント ストレージに使用できます。 Kafka はトピック ログ パーティションを複数のサーバーに複製します。 Kafka は、レコードが生成されるとすぐにアプリケーションが処理できるように設計されています。 Kafka は処理速度が速く、レコードをバッチ処理して圧縮することで IO を効率的に使用します。 Kafka はデータ ストリームを分離します。 Kafka は、データ レイク、アプリケーション、リアルタイム ストリーミング分析システムにデータをストリーミングするために使用されます。 Kafka は主に、ビッグ データの収集やリアルタイム情報ストリームのリアルタイム分析 (またはその両方) に使用されます。 Kafka は、インメモリ マイクロサービスを提供するために使用できるほか、複雑なイベント ストリーミング システムや IoT/IFTTT スタイルの自動化システムにイベントを供給するためにも使用できます。

現在、世界のトップ 500 社のうち 3 分の 1 が Kafka を使用しています。人気の理由は次のとおりです。

まず、Kafka は高速です。

Kafka はゼロコピーの原則に基づいており、高速なデータ移動を実現するためにオペレーティング システム カーネルに大きく依存しており、データ レコードをバッチで処理できます。これらのデータ バッチは、プロデューサーからファイル システム (Kafka トピック ログ) に渡され、その後エンドツーエンドでコンシューマーに渡されます。バッチ処理により、より効率的なデータ圧縮が可能になり、I/O レイテンシが短縮されます。 Kafka は不変のコミット ログを連続したディスクに書き込むため、ランダム ディスク アクセスやディスク シークの遅延の問題を回避できます。 Kafka は水平拡張のためのパーティションの追加をサポートしています。トピック ログを数百 (場合によっては数千) のパーティションに分割し、数千のサーバーに配布します。このアプローチにより、Kafka は大量の負荷を処理できるようになります。

第二に、Kafkaは複数の言語をサポートしている

クライアントとサーバー間の Kafka 通信では、バージョン管理され文書化された TCP ベースのライン プロトコルが使用されます。 Kafka は、古いクライアントとの下位互換性を維持することを約束し、C#、Java、C、Python、Ruby など、複数の言語をサポートします。 Kafka エコシステムは、HTTP および JSON 経由で簡単に統合できる REST プロキシも提供します。 Kafka は、Kafka 用の Confluent スキーマ レジストリを通じて Avro スキーマもサポートします。 Avro とスキーマ レジストリにより、クライアントは複数のプログラミング言語で複雑なレコードを作成および読み取り、レコードを変更できるようになります。

3つ目は、Kafkaが広く使われていることです。

Kafka は、リアルタイム ストリーミング データ パイプラインの構築をサポートし、メモリ マイクロサービス (アクター、Akka、Baratine.io、QBit、リアクター、リアクティブ、Vert.x、RxJava、SpringReactor など) をサポートし、リアルタイム ストリーミング アプリケーションの構築をサポートし、リアルタイム データ分析、変換、応答、集約を実行し、リアルタイム データ ストリームを結合し、CEP を実行します。

4番目は、Kafkaのスケーラブルなメッセージストレージ

Kafka はレコードや情報を保存するための優れたシステムです。 Kafka は、コミット ログの保存とレプリケーションを備えた高速ファイル システムのようなものです。これらの機能により、Kafka はさまざまなアプリケーションに適しています。 Kafka トピックに書き込まれたレコードはディスクに保存され、フォールト トレランスのために他のサーバーに複製されます。ディスクが高速でかなり大容量になった今、これは非常に便利です。 Kafka プロデューサーは確認を待つことができるため、レプリケーションが完了するまでプロデューサーは書き込み操作を完了しないため、メッセージは永続的になります。 Kafka のディスク構造は非常にスケーラブルです。ディスクは、大規模なバッチでストリーミングする場合、非常に高いスループットを実現します。さらに、Kafka クライアントとコンシューマーは読み取り位置 (オフセット) を制御できるため、何か問題が発生した場合にログを再生する (バグを修正して再生する) などのユースケースが可能になります。また、オフセットはコンシューマー グループごとに追跡されるため、コンシューマーは非常に柔軟にログを再生できます。

Kafka を使用すると、適切なデータが適切な場所に適切な形式で表示されます。 Kafka のアプローチは、メッセージ キューを提供することで、プロデューサーがキューの末尾にデータを追加できるようにし、複数のコンシューマーがキューからデータを順番に読み取り、自分で処理できるようにすることです。このような便利なモデルは、必然的にさまざまな分野での Kafka の応用の継続的な強化につながるでしょう。

DT時代では、Kafkaの応用はさらに深まるでしょう。今後は、フォーチュン 500 企業だけでなく、あらゆる企業がこの便利なツールを使用してビッグデータのレイアウトを実現するようになります。テクノロジーは常に更新され、発展しており、Kafka も常に進化し続けています。今後の企業のビッグデータレイアウトは、Kafka によってさらに便利になると考えています。

<<:  OpenStack、氷と炎の世界?

>>:  Qing Cube Hyper-Converged Express Editionの助けを借りて、中小企業のデジタル変革を完全に強化することができます。

推薦する

テンセントクラウド小威「AIアシスタント」は複数のアプリケーションを備え、業界のアップグレードのための新しいAIドライバーです

9月9日から11日まで、「未来経済、デジタルファースト」をテーマにしたテンセントグローバルデジタルエ...

デジタルトランスフォーメーションでDevOpsを保護する方法

最近のテクノロジー業界で最もホットな流行語は「デジタルトランスフォーメーション」です。これは、企業が...

エッジコンピューティング: データセンターの設計と管理の新たなフロンティア

エッジ コンピューティングは、データ センターの設計と管理における次のフロンティアとして急速に普及し...

クラウド コンピューティングと仮想化が柔軟性と拡張性を強化する 6 つの方法

これらの要因は、公益事業およびエネルギー分野の情報技術 (IT) にどのような影響を与えるのでしょう...

ウェブサイトの外部リンク構築を最適化し、フォーラムリソースを活用するための 5 つの戦略

検索エンジンのアルゴリズムのアップデートは、大手SEOウェブマスターの焦点となっています。百度のウェ...

WeChatの「カスタムインターフェース」の内部テストまたはAppストアプラットフォームの構築

WeChat は「カスタム インターフェース」をテスト中、または App Store プラットフォー...

Alibaba Cloud 国際アカウントは無料で開設でき、Alibaba Cloud サーバーの購入に実名や登録は不要で、USDT/Alipay などをサポートしています。

Alibaba Cloudは、中国最大の市場シェアを持つサーバークラウドベンダーとして、ウェブサイト...

デジタル変革を加速する平安クラウドは、中小銀行の技術革新能力を全面的に強化します。

[51CTO.comからのオリジナル記事] デジタル経済は長い間、世界経済の重要な部分となり、徐々に...

SEOのベテランがウェブサイト上のデッドページに対する解決策をまとめる

SEO担当者は皆、デッドリンクがウェブサイト最適化のタブーであることを知っています。特に、ウェブサイ...

東アジアで唯一のガートナークラウドMSPリーダーであるベスピン・グローバルは、そのハードパワーによってリーダーシップが決定づけられている。

過去10年間で、クラウドコンピューティングは世界中のあらゆる分野で広く使用されるようになり、企業のク...

Baidu はブラックハット SEO を行わない言い訳を与えてくれるのでしょうか?

A5 に投稿するのは今回が初めてです。私はまだ新人で文章が下手なのは承知していますが、私が記録したの...

ウェブ編集者になってどれくらい経ちますか?なぜまだ小さな編集者のままなのでしょうか?

今日、ウェブ編集者の職に就く新しい人が面接に来ました。何気ない会話の中で、私は彼にウェブ編集者の仕事...

2019年デジタル中国指数レポートが発表され、デジタル政府業務がビジネス環境や地域経済に深く関連していることが示されました。

5月21日、2019年テンセントグローバルデジタルエコシステムカンファレンスが開催されました。同会議...

ハードウェアの観点から見たエッジコンピューティングとは何ですか?

IoT および IIoT デバイスによって生成される膨大な量のデータにより、エッジ コンピューティン...

360 製品の脆弱性に関するニュースの真偽を明らかにする

8月29日、360 Searchが16時30分頃に「安全でクリーン、かつ効果的に競争できるインターネ...