この記事はWeChatの公開アカウント「Java Geek Technology」から転載したもので、著者はYaxue Fansです。この記事を転載する場合は、Java Geek Technology の公開アカウントにお問い合わせください。 こんにちは、みんな。私はアフェンです。バックエンドエンジニアとして、本番環境での事故を経験せずに成長するにはどうすればよいでしょうか?過去数年間、アフェンは大小、重要なものから重要でないものまで、多くの事故を経験してきました。数十万元の損失を引き起こしたものもあれば、事業に影響はなかったが起きるべきではなかったものもあった。すべての事故は成長であり、Afen はすべての事故から多くのことを学び、問題を解決するだけでなく、さらに重要なことに、ラインに対するより深い敬意を持つことができます。 背景 先週の午後 2 時頃、Ah Fen がのんびりとコードを入力していると、アラーム ロボットから Kafka クラスターの負荷が高いという警告メッセージがいくつか表示されました。単に負荷が高いだけだとわかっていたので、彼はあまり気にしませんでした。しかも、その時は繁忙期でもなかったから、しばらくしたら大丈夫だろうと思っていた。しばらく経っても症状は改善せず、悪化し続けるとは誰が想像したでしょうか。私はすぐにコンピューターを持って運用保守部門に駆けつけ、何が起こっているのかを確認しました。見なければ分からないよ。見たらショックを受けるでしょう。クラスター内のトピックのデータを書き込むことができません。ただし、プロデューサー側にはエラーはありません。書き込みはまだ正常に行われているようですが、クラスターはエラーを報告しており、コンシューマー側はデータを消費していません。 エラー内容は次のとおりです。
このプログラムには間違いなく問題がないことがわかります。最近アップグレードされていないため、クラスターとサービスを再起動しようとしましたが、問題は依然として存在します。この度は、事業の安定性を確保するため、本トピックに問題がある可能性を考慮し、一旦本トピックを削除し、自動的に再作成することにしました。一部のデータは失われますが、大きな影響はありません。ただし、サービスが長時間データを書き込めない場合は、さらに深刻になります。 対処する 幸いなことに、当社のサービスは、サービス構成と検出に Nacos をベースにしています。 Nacos で Kafka クラスター構成を変更し、一時的に別のクラスターに切り替えてから、サービスを再起動しました。これは、Nacos 構成が自動的に有効になるようにしなかったためです。切り替え後、データは新しいクラスターに通常どおり書き込まれ、その後、古いクラスター内のエラーのあるトピックは手動で削除されます。エラーのあるトピックを削除すると、クラスターは正常になり、上記のエラーは発生しなくなります。エラーがなくなったので、Nacos を変更してクラスター構成を元に戻すと、すべて正常に動作するはずです。 事故は発見から解決まで約20分かかりました。しかし、当初は警報情報が無視されていたため、1時間ほどデータに影響が出ました。幸いなことに、このデータはオンラインビジネス自体に大きな影響を与えず、一時的なクラスターとログデータに切り替えることで一部を回復することができました。 イベントをレビューした後、次の点をまとめ、参考までに共有します。
上記のエラーのほとんどはバージョンの競合だと言われていますが、Afenはまだアップグレードしていないので、この問題はさらに謎です。 要約する 問題に遭遇することは怖いことではありません。サービスに問題がないことを保証できる人は誰もいません。私たちに必要なのは、問題に直面したときに冷静さを保ち、対応戦略を考え、最短時間で最善の解決策を見つけ出すことです。リスクと損失を減らすことが最も重要です。さらに、私たちはオンラインの世界、特に非常に重要なビジネスを尊重することを学ばなければなりません。そうでないと、問題が発生した場合に深刻な結果を招くことになります。 最後に、あなたと共に成長していく 1,800 人以上の優秀な人材がいる当社の Knowledge Planet にぜひご参加ください。初心者であっても、多くの業界経験や実用的な情報を共有できるので、確実にお金を稼ぐことができます。あなたが有力者であれば、ぜひ参加して私たちとコミュニケーションを取り、経験を共有してください。将来的には協力して、あなたの人生にさらなる可能性を与えることができるかもしれません。 |
<<: ついにクラウドコンピューティングを明確にした人がいた
>>: クラウドコンピューティングにはどのような経済的価値がありますか?
裁判所は登録が悪質であると判断し、一定期間内に登録を取り消した。 「クラウン・リバティー・シティ」と...
ufovpsの米国高防御クラウドサーバー(米国高防御VPS)シリーズは、ロサンゼルスのPZデータセン...
四川蘭光開発有限公司は、中国の不動産会社の中で総合力で23位にランクされており、2017年には安定性...
数年前、私はテクノロジー業界の大物に笑いかけました。当時彼はこう言っていた。「おそらく 1990 年...
「オンラインビジネスは冬を迎える」という議論が広がる中、鄧華金氏はこの悲観的な雰囲気を打破することを...
過去数年間のブログで、私が最も心配しているのは休日です。私が休暇を取ったり、どこかに出かけたりするた...
PrometeusのシカゴデータセンターVPSはSSDハードドライブを使用しており、openvzとX...
インフラストラクチャの自動化はコンテナ以前の一時的な解決策であったと考える人もいます。しかし今日では...
ソフトテキストマーケティングのプロセスにおいて、最も重要なのは原稿プランニングとメディアプランニング...
インフラストラクチャのコストを可能な限り低く抑えるために、使用されていない特定のリソースをシャットダ...
timeweb は Hostcat で 2 回紹介されています。興味があれば、以前の紹介を確認してく...
QQグループはおなじみのチャットツールで、マーケティングにQQグループを使用するケースがよく見られま...
この記事の著者@小吉的宠物、デザインと開発の間には微妙な境界線がありますが、時代がさらに10年に入る...
簡単に大きな行動に出てしまう可能性のある彼女を前に、私は表面上は彼女を喜ばせようとしながらも、心の中...
10月12日、2017年杭州雲奇カンファレンスにおいて、アリババクラウドは、企業のデジタル変革のため...