高性能分散メッセージングシステム Kafka を 5 分で理解する

Kafka は LinkedIn が立ち上げた高スループットの分散メッセージングシステムです。簡単に言えば、パブリッシングとサブスクリプションに基づくメッセージキューです。

公式ウェブサイトアドレス: https://kafka.apache.org/intro

アプリケーションシナリオ

非同期分解: 上流と下流の間に強い依存関係がないビジネス、または単一のリクエストに対してすぐに処理する必要のないビジネス。
システムバッファリング: 特に処理速度が遅いサービスの場合、サービスシステムのスループットの一貫性の問題を解決するのに役立ちます。
ピーク除去: 短期間で時折発生する極端なトラフィックに対して、バックエンドサービスを保護できます。
データストリーム処理: リアルタイムのデータストリーム処理のために Spark を統合します。

Kafka トポロジー図 (マルチコピーメカニズム)

上の図から、Kafka は分散されており、パーティションごとに複数のコピーがあることがわかります。同時に、クラスター全体の管理は Zookeeper によって管理されます。

Kafka コアコンポーネント

ブローカ

Kafka サーバーはメッセージの保存と転送を担当します。ブローカーは Kafka ノードを表します。ブローカーには複数のトピックを含めることができます

トピック

メッセージカテゴリ、Kafka はトピックに応じてメッセージを分類します

パーティション

トピックのパーティション。トピックには複数のパーティションを含めることができ、トピックメッセージは各パーティションに保存されます。トピックは複数のパーティションに分割できるため、Kafka には並列処理機能が提供されており、これが Kafka の高スループットの理由の 1 つです。
パーティションは物理的に複数のセグメントファイルで構成され、各セグメントは同じサイズで、順番に読み書きされます (これは、ランダム書き込みを必要としないため、Kafka が高速である理由の 1 つでもあります)。各セグメントデータファイルは、セグメント内の最小オフセットを使用し、ファイル拡張子は .log になります。オフセット付きのメッセージを検索する場合は、バイナリ検索を使用して、メッセージが配置されているセグメントをすばやく見つけます。

オフセット

ログ内のメッセージの位置は、パーティション上のメッセージのオフセットとして理解でき、これはメッセージを表す一意のシーケンス番号でもあります。
また、マスターとスレーブ間で同期する必要がある情報でもあります。

プロデューサー

プロデューサー、Kafkaブローカーにメッセージを送信するクライアント

消費者

メッセージコンシューマー。Kafka ブローカーでメッセージを消費する役割を担います。

消費者団体

消費者グループ。各消費者はグループに属している必要があります。 (パーティションはグループ内の 1 つのコンシューマーのみが使用でき、コンシューマーグループは相互に影響を与えないことに注意してください。)

動物園の飼育員

Kafka クラスターを管理し、クラスターブローカー、トピック、パーティションなどのメタデータの保存を担当します。また、ブローカーの障害検出、パーティションリーダーの選出、負荷分散などの機能も担当します。

サービスガバナンス

Kafka は分散パブリッシュ/サブスクライブシステムなので、クラスター間でデータの同期と一貫性が実現されれば、Kafka はメッセージを失わないのでしょうか?ダウンタイム中にリーダー選挙が行われた場合はどうなるでしょうか?

データ同期

Kafka では、パーティションにはリーダーと複数のフォロワーが存在します。プロデューサーがパーティションにデータを書き込む場合、データはリーダーにのみ書き込まれ、その後、データは他のレプリカに複製されます。各フォロワーは、定期的にリーダーにメッセージを取得するコンシューマーとして理解できます。データが同期された後にのみ、Kafka はプロデューサーに ACK を返し、メッセージが保存されたことを通知します。

情報サービス

Kafka では、パフォーマンスを確保するために、マスターとスレーブのデータを同期するために強力な一貫性方式を使用しません。代わりに、同期レプリカのリストが維持されます。リーダーは、すべてのフォロワーが同期を完了するまで待つ必要はありません。 ISR 内のフォロワーがデータ同期を完了すると、プロデューサーに ack を送信し、メッセージの同期が完了したと見なすことができます。同時に、ISR 内のフォロワーがあまりにも遅れていることが判明した場合は、そのフォロワーは削除されます。

具体的なプロセスは以下のとおりです。

上記のアプローチでは、Kafka がメッセージを失わないことを保証することはできません。 Kafka は、メッセージが最大限失われないようにマルチコピーメカニズムを使用しますが、データがシステムページキャッシュに書き込まれているがまだディスクにフラッシュされていない場合、マシンが突然クラッシュしたり電源が失われたりすると、当然メッセージは失われます。

Kafka 障害回復

Kafka は Zookeeper によって管理されるため、ここでの選択メカニズムでは Zab (Zookeeper によって使用される) が使用されます。

プロデューサーはリーダーにメッセージを送ります。このとき、リーダーはデータの保存を完了して突然失敗し、プロデューサーに ack を返しません。
ZK 選挙を通じて、フォロワーの 1 人がリーダーになります。このとき、プロデューサーは新しいリーダーに再度要求し、データを保存します。

Kafka はなぜこんなに速いのでしょうか?

ディスクへの順次書き込み

Kafka はシーケンシャルディスク書き込みを使用するため、ランダム書き込みに比べてアドレスの検索にかかる時間が短縮されます。 (Kafka の各パーティションでは、メッセージが順序付けられます。

ページキャッシュ

Kafka は、通常使用するバッファの代わりに、OS システム内のページキャッシュを使用します。ページキャッシュは、実際には馴染みのないものではなく、新しいものでもありません。

Linux でメモリをチェックすると、バッファ/キャッシュが表示されることがよくあります。どちらも IO の読み取りと書き込みを高速化するために使用されます。キャッシュは読み取りに使用されます。つまり、ディスクの内容をキャッシュに読み込むことができるため、アプリケーションはディスクを非常に高速に読み取ることができます。バフは書き込みに使用されます。ディスクを開発して書き込む場合、通常はバッファに書き込んでからフラッシュすると非常に高速になります。 Kafka は両方の利点を活用します。Kafka は Scala で記述されていますが、Java 仮想マシン上で実行されます。それにもかかわらず、Kafka は JVM の制限を回避しようとします。ストレージにページキャッシュを使用するため、GC による JVM 内のデータの STW を回避できます。一方、ページキャッシュを使用すると、ゼロコピーも実現できます。これについては、後ほど詳しく説明します。

ゼロコピー

優れた Netty であれ、他の優れた Java フレームワークであれ、基本的にはゼロコピーによって CPU コンテキストの切り替えとディスク IO を削減します。もちろんカフカも例外ではありません。ゼロコピーの概念についてはここでは詳しくは繰り返しませんが、この概念について簡単に紹介したいと思います。

アプリケーションがデータを要求する従来のプロセス

ここで、従来の方法では、4 つのコピー、2 つの DMA、2 つの CPU が使用され、CPU が 4 回切り替わることが大まかにわかります。 _(DMA は、簡単に言えば、I/O デバイスとメモリ間でデータが転送されるときに、すべてのデータ転送作業が DMA コントローラに引き渡され、CPU はデータ転送に関連する作業には一切関与しなくなります)。

ゼロコピー方式

最適化により、CPU には 2 つのコンテキストスイッチと 3 つのデータコピーしかないことがわかります。 (Linux システムでは、システムコール関数「sendfile()」が提供されているため、システムコールは、カーネルバッファー内のデータをユーザー状態にコピーするのではなく、ソケットバッファーに直接コピーできます)。

パーティション分割

上で述べたように、Kafka はパーティショニングモードを採用しており、各パーティションは物理セグメントに対応しており、検索時にはバイナリ検索に基づいて素早く見つけることができます。これにより、データ読み取りのクエリ効率が向上するだけでなく、並列操作を行う手段も提供されます。

データ圧縮

Kafka は、データに対して Gzip や Snappy などの圧縮プロトコルを提供します。これにより、メッセージ構造が圧縮され、帯域幅とデータ転送の消費が削減されます。

Kafka のインストール

JDKをインストールする

圧縮パッケージを使用する場合は環境変数を自分で設定する必要があるため、yum を使用して直接インストールすることをお勧めします。現在の Java バージョンを確認する方法を理解しておいてください。

 $ yum -y リスト Java*

必要なバージョンをインストールしてください。ここでは1.8です

$ yum インストール java-1.8.0-openjdk-devel.x86_64

インストールが成功したか確認する

$ Javaバージョン

Zookeeperをインストールする

まず、公式サイトにアクセスしてインストールパッケージをダウンロードし、解凍する必要があります。

 $ tar -zxvf zookeeper-3.4.9.tar.gz

このファイルをコピーしてzoo.cfgという名前を付け、zoo.cfgで独自の設定を変更するだけです。

 $ cp zoo_sample.cfg zoo.cfg  
 $ vim zoo.cfg

主な構成は次のように説明される。

 # Zookeeper の基本単位はミリ秒です。つまり、tickTime は 2000 ミリ秒です。他の Zookeeper 構成では、変換は tickTime に基づいて行われます。  
ティックタイム= 2000    
 # クラスター内のフォロワー サーバー (F) とリーダー サーバー (L) 間の初期接続中に許容できるハートビートの最大数 (ティックタイムの数)。  
初期制限= 10    
 #syncLimit: クラスター内のフォロワーサーバー (F) とリーダーサーバー (L) 間のリクエストとレスポンスの間で許容できるハートビートの最大数 (ティックタイムの数)  
同期制限= 5    
 #データ保存フォルダ。 Zookeeperの動作中に保存する必要があるデータは2つあります。1つはスナップショットデータ（永続データ）で、もう1つはトランザクションログです。  
データディレクトリ= /tmp/zookeeper  
 ## クライアントアクセスポート 
クライアントポート= 2181

環境変数の設定

$ vim ~/.bash_profile  
 $ エクスポートZK =/usr/local/src/apache-zookeeper-3.7.0-bin  
 $ エクスポートPATH =$PATH:$ZK/bin  
 $ エクスポート PATH  
 ＃ 起動する 
 $ zkServer.sh を起動します

以下は起動が成功した例です

Kafkaをインストールする

Kafkaをダウンロード

https://www.apache.org/dyn/closer.cgi?path=/kafka/2.8.0/kafka-2.8.0-src.tgzを取得します。

Kafkaをインストールする

$ tar -xzvf kafka_2.12-2.0.0.tgz

環境変数の設定

$ エクスポートZK =/usr/local/src/apache-zookeeper-3.7.0-bin  
 $ エクスポートPATH =$PATH:$ZK/bin  
 $ エクスポートKAFKA =/usr/local/src/kafka  
 $ エクスポートPATH =$PATH:$KAFKA/bin

Kafkaを起動する

$ nohup kafka-server-start.sh 独自の設定ファイルパス/server.properties &

ミッション完了！

<<: VMware は、厦門大学付属心血管病院のソフトウェア定義のアクティブ/アクティブデータセンターの構築を支援し、さまざまなビジネスに強固な基盤を築きました。

>>: ハイブリッドおよびマルチクラウドアーキテクチャを実現する 5 つのテクノロジー

高性能分散メッセージングシステム Kafka を 5 分で理解する

アプリケーションシナリオ

Kafka トポロジー図 (マルチコピーメカニズム)

Kafka コアコンポーネント

サービスガバナンス

Kafka はなぜこんなに速いのでしょうか?

Kafka のインストール

初心者ウェブマスターから百度への手紙

最も人気のあるCPC広告チャネルについてお話ししましょう

「3つの検索」理論を活用して検索エンジンマーケティングを行うにはどうすればよいでしょうか?

vpsms: ロサンゼルス cn2 gia VPS が「Netflix」のロックを解除、300M の帯域幅、ダブルスタッキング割引、最初に 20% オフ、その後 35% オフ!

ウェブサイトの重量を改善する際に注意すべきこと

Baidu Search は悪質なデータ収集行為を取り締まり、ハリケーンアルゴリズム 2.0 を導入します

アニメサイト運営時に避けるべき4つのこと

2兆ドルのブルーオーシャンが呼んでいます。我が国のクラウドコンピューティング開発をどのように収益化すればよいのでしょうか?

Kubernetes 上の Kafka のマルチクラスター展開を簡素化

クラウド最適化に関する包括的な理解を提供します

推薦する

pzea: 香港 VPS、シンガポール VPS、日本 VPS、すべて 30% オフ、一部 50% オフ、Windows 対応

倪光南氏：クラウドコンピューティングは「中国発」を実現する歴史的なチャンス

こうやって生まれて、こうやって熟練して、新しいウェブサイトの各段階でSEOを共有する

質疑応答モードを通じてユーザーエクスペリエンスを向上させる利点について簡単に説明します。

キング・オブ・グローリーからテンセントゲームの三大運用魔法武器をまとめてみました

raksmart: 香港データセンターサーバーの実際の評価データを共有し、raksmartサーバーがいかに優れているかを伝えます

ユーザーが電子商取引のウェブサイトに長く滞在する方が良いのでしょうか?私はそうは思わない。

WeChatエコシステムにおけるプライベートドメイントラフィックマーケティング！

deepnetsolutions - $5.5/年/128MB メモリ/10GB ハードディスク/250GB トラフィック

ウェブサイトの収益性を向上させる際に見落とされがちないくつかの問題

2020年デジタル中国指数レポートが発表され、「クラウドコンピューティング」は産業のデジタル化に必須となった

ネットイースはモモCEOを非難する声明を発表

中国の P2P オンライン融資は再編されようとしている。これは「健全な」 P2P エコシステムからどれほど遠いのだろうか?

記事ページが多すぎるとSEOにどのような影響が出るかについて簡単に説明します

Ctrip.comは同城旅行に2億ドル以上を投資し、同社の第2位の株主となった。

アプリケーションシナリオ

Kafka トポロジー図 (マルチコピー メカニズム)

Kafka コアコンポーネント

サービスガバナンス

Kafka はなぜこんなに速いのでしょうか?

Kafka のインストール

推薦する

Kafka トポロジー図 (マルチコピーメカニズム)