プロダクションKafkaがダウンしていた時間を記録する

プロダクションKafkaがダウンしていた時間を記録する

[[350058]]

この記事はWeChatの公開アカウント「Java Geek Technology」から転載したもので、著者はYaxue Fansです。この記事を転載する場合は、Java Geek Technology の公開アカウントにお問い合わせください。

こんにちは、みんな。私はアフェンです。バックエンドエンジニアとして、本番環境での事故を経験せずに成長するにはどうすればよいでしょうか?過去数年間、アフェンは大小、重要なものから重要でないものまで、多くの事故を経験してきました。数十万元の損失を引き起こしたものもあれば、事業に影響はなかったが起きるべきではなかったものもあった。すべての事故は成長であり、Afen はすべての事故から多くのことを学び、問題を解決するだけでなく、さらに重要なことに、ラインに対するより深い敬意を持つことができます。

背景

先週の午後 2 時頃、Ah Fen がのんびりとコードを入力していると、アラーム ロボットから Kafka クラスターの負荷が高いという警告メッセージがいくつか表示されました。単に負荷が高いだけだとわかっていたので、彼はあまり気にしませんでした。しかも、その時は繁忙期でもなかったから、しばらくしたら大丈夫だろうと思っていた。しばらく経っても症状は改善せず、悪化し続けるとは誰が想像したでしょうか。私はすぐにコンピューターを持って運用保守部門に駆けつけ、何が起こっているのかを確認しました。見なければ分からないよ。見たらショックを受けるでしょう。クラスター内のトピックのデータを書き込むことができません。ただし、プロデューサー側にはエラーはありません。書き込みはまだ正常に行われているようですが、クラスターはエラーを報告しており、コンシューマー側はデータを消費していません。

エラー内容は次のとおりです。

  1. [2020-10-28 15:12:32,923] エラー [KafkaApi-2]リクエストの処理中にエラーが発生しました{replica_id=-1,max_wait_time=500,min_bytes=1,topics=[{topic=xxxx,partitions=[{partition=0,fetch_offset=409292609,max_bytes=1048576}]}]} (kafka.server.KafkaApis)
  2. java.lang.IllegalArgumentException: Magic v1 はレコード ヘッダーをサポートしていません

このプログラムには間違いなく問題がないことがわかります。最近アップグレードされていないため、クラスターとサービスを再起動しようとしましたが、問題は依然として存在します。この度は、事業の安定性を確保するため、本トピックに問題がある可能性を考慮し、一旦本トピックを削除し、自動的に再作成することにしました。一部のデータは失われますが、大きな影響はありません。ただし、サービスが長時間データを書き込めない場合は、さらに深刻になります。

対処する

幸いなことに、当社のサービスは、サービス構成と検出に Nacos をベースにしています。 Nacos で Kafka クラスター構成を変更し、一時的に別のクラスターに切り替えてから、サービスを再起動しました。これは、Nacos 構成が自動的に有効になるようにしなかったためです。切り替え後、データは新しいクラスターに通常どおり書き込まれ、その後、古いクラスター内のエラーのあるトピックは手動で削除されます。エラーのあるトピックを削除すると、クラスターは正常になり、上記のエラーは発生しなくなります。エラーがなくなったので、Nacos を変更してクラスター構成を元に戻すと、すべて正常に動作するはずです。

事故は発見から解決まで約20分かかりました。しかし、当初は警報情報が無視されていたため、1時間ほどデータに影響が出ました。幸いなことに、このデータはオンラインビジネス自体に大きな影響を与えず、一時的なクラスターとログデータに切り替えることで一部を回復することができました。

イベントをレビューした後、次の点をまとめ、参考までに共有します。

  1. オンラインの世界を尊重しましょう!すべてが正常であることを確認するために、オンライン環境アラーム情報をすぐに確認してください。
  2. オンライン データのセキュリティを確保し、適時にバックアップして一時環境に切り替えます (この部分は動的に構成する必要があり、リリース プロセスをゆっくりと実行しないでください。Nacos を使用することをお勧めします)。
  3. その後、プロセス全体を見直して、どの領域を最適化できるか、どの領域が間違って実行されて時間を無駄にしたか、そして、次回同じ状況が発生したときにすぐに解決できるかどうかを確認します。生産においては、時間はお金です。事故が1分増えるごとに、リスクも1分増えることになります。時には1分で多くのことが変わることもあります。

上記のエラーのほとんどはバージョンの競合だと言われていますが、Afenはまだアップグレードしていないので、この問題はさらに謎です。

要約する

問題に遭遇することは怖いことではありません。サービスに問題がないことを保証できる人は誰もいません。私たちに必要なのは、問題に直面したときに冷静さを保ち、対応戦略を考え、最短時間で最善の解決策を見つけ出すことです。リスクと損失を減らすことが最も重要です。さらに、私たちはオンラインの世界、特に非常に重要なビジネスを尊重することを学ばなければなりません。そうでないと、問題が発生した場合に深刻な結果を招くことになります。

最後に、あなたと共に成長していく 1,800 人以上の優秀な人材がいる当社の Knowledge Planet にぜひご参加ください。初心者であっても、多くの業界経験や実用的な情報を共有できるので、確実にお金を稼ぐことができます。あなたが有力者であれば、ぜひ参加して私たちとコミュニケーションを取り、経験を共有してください。将来的には協力して、あなたの人生にさらなる可能性を与えることができるかもしれません。

<<:  ついにクラウドコンピューティングを明確にした人がいた

>>:  クラウドコンピューティングにはどのような経済的価値がありますか?

推薦する

winnervps-シンガポール/XEN/windows/G ポート/$7/512m メモリ/10gSSD/1T トラフィック

winnervps はインドネシア人によって開設されたようですが、設立された正確な年は不明で、ドメイ...

専門家の視点: あらゆる場所のデータへのクラウドネイティブな道

Kubernetes を使用したアーキテクチャは、データ分析を極めて柔軟にし、ビジネスで必要な場所で...

伝統的なインターネット産業は自らを変革しなければ生き残れない

蔡文生氏はこう語った。「未来は、インターネットを理解しているが伝統的な産業を理解していない人たちでは...

ubserversホストの紹介

UBservers は、高品質のホスティング サービスを提供し、ユーザーの問題を解決することで顧客を...

bandwagonhost/bandwagonhost vps-生涯50%割引/Gポート/フェニックス

bandwagonhost/Banwagong vps、このホスト猫の背景を紹介するつもりはありませ...

A5とbShare: 情報を共有してポイントを獲得し、賞品と交換

最近、Admin5 Webmaster Networkは、国内の有名なソーシャル画像およびテキスト共...

ウェブサイトのスナップショットとキーワードランキングを分析する

SEO 専門職に就く者として、私たちは検索エンジンの変化を常に観察し、問題に遭遇したときにそれを避け...

#仮想ホスト: buyshared-$5/年/cpanelパネル/SSD/独立IP/Alipay

buyshared.net が本日正式に開始されました。主な製品は仮想ホスティングとリセラーです。c...

電子商取引は価格競争の悪循環に陥っている。お金を使うと死ぬし、お金を使わないともっと早く死ぬ。

電子商取引は価格戦争の悪循環に陥っている。お金を使うと死につながり、お金を使わないとより早く死につな...

推奨: hostmist-$35/年/Kvm/256M メモリ/10g ハードディスク/300g トラフィック

ちょうど hostmist の VPS プロモーションを見つけました。256M メモリを搭載した K...

70カ国以上でグローバル化をどのように計画するのか? Huami Technology と Amazon Web Services

[51CTO.com からのオリジナル記事]最近、Amazon Web Services と Hua...

コンテンツの除外がランキングに影響を与えないようにしてください

ウェブサイト上の排他的コンテンツという概念は、誰もが聞いたことがあるわけではないかもしれませんが、ウ...

タオバオのお客様、目を覚ましてください!梅里朔はあなたの悲しみです! ! !

Taobao の顧客が自社製品を宣伝したい場合、Meilishuo のような Web サイトは適して...

キーワードトラフィックをより正確に見積もる方法

通常、Web サイトを構築する前に、キーワード トラフィックを見積もります。百度指数は通常、基準値と...

Seoerが提起した物議を醸す質問への回答

多くのことはユニークでも絶対的でもないですが、SEO の技術や知識についても同じことが言えます。SE...