Kubernetes ログ転送で直面する 4 つの課題

[51CTO.com クイック翻訳] Kubernetes を使用しており、ログ記録を行う必要がある場合、仮想マシンやベアメタル環境とは異なるいくつかの問題や課題に直面する可能性があります。

過去 3 か月間、私は PKS の可観測性機能に取り組んできました。 ***、Kubernetes のロギングシステムに焦点を当てました。

ログを収集し、ログサーバーに送信します。単純で普通の仕事のように思えますね。時々そうなるかも知れません。しかし、VM やベアメタル環境と比較して、コンテナを使用する場合のログ記録に関していくつかの新たな課題があることに気付きました。

以下に要約します。それをチェックしてください！ Kubernetes プロジェクトで同じ問題が発生するかどうかを確認してください。

この記事の目的は、問題点と技術的な困難さを説明することです。それをどう解決するかということではありません。ここに不適切な点があれば、必要に応じて変更します。

一般的に、ログ転送ワークフローはアクティブとパッシブに分けられます。

アクティブモード:プロセスはログメッセージをリモート syslog サーバーにアクティブに送信します。通常、データのエンコード形式は rfc5424 です。

パッシブモード:各プロセスに対して、デフォルトのログパスまたはファイルパターンを指定します。ログエージェントシステムは定期的にログをスキャンし、キャプチャしたログメッセージをログサーバーに送信します。

問題は解決したと思うかもしれません!まだですよ、友人たち。

コンテナ内でサービスを実行することは、仮想マシンまたはベアメタル上でサービスを実行することとは異なります。私たちが直面している新たな傾向は次のとおりです。

プロセスが短くなります。
プロセスの展開はより分散化されます。

これはコンテナのログ記録にとって何を意味するのでしょうか?

課題I: 重要なログをすべて収集できない

問題が発生した場合、ポッド (コンテナのコレクション) は削除されるか、すぐに再作成される可能性があります。その結果、ポッド/コンテナに関連付けられたログファイルはすぐに削除または再作成されます。

ただし、Fluentd や log stash などのログエージェントは通常、フォルダーまたはログパターンを定期的にスキャンして新しいログファイルを検出します。デフォルトのスキャン間隔は 60 秒です (下の図を参照)。スキャン間隔が長すぎて、短期間のコンテナログをキャプチャできない可能性があります。時間間隔を 1 秒など短く設定するとどうなるでしょうか?明らかに、これによりパフォーマンスのオーバーヘッドが高くなります。

これは、仮想マシンの古い世界では問題にならなかったでしょう。何らかの理由でプロセスが再起動されると、ログファイルが削除されるのではなくローテーションされる可能性があります。この時点で、ユーザーがログを受信する速度が単純に遅くなる可能性があります。ただし、問題プロセスの重要なログは失われません。

この問題をどうやって解決すればいいでしょうか?現時点ではいわゆるベストプラクティスというものはなく、我々も模索中です。おそらく、ポッドイベントをサブスクライブする Kubernetes コントローラーを起動できるでしょう。ポッド作成イベントがトリガーされるたびに、ログエージェントにすぐに通知されます。 honeycomb-kubernetes-agent は、このアイデアを実装する興味深い GitHub プロジェクトです。より良い解決策があれば、コメントを残してください。

ただし、すべてのログが stdout/stderr にリダイレクトされるわけではありません。ポッド内のプロセスが stdout/stderr ではなくローカルファイルにログを書き込む場合、ログプロキシシステムはこれらのログを取得できません。

なぜ？ログエージェントシステムは、以下に示すように、ポッドに関連するログファイルのみを監視します。このログファイルは、コンテナーの stdout/stderr のみをキャプチャします。

 # ls -1 /var/lib/docker/containers/*/*-json.log
 ls -1 /var/lib/docker/containers/*/*-json.log
 /var/lib/docker/containers/0470.../0470...-json.log
 /var/lib/docker/containers/0645.../0645...-json.log
 /var/lib/docker/containers/12d2.../12d2...-json.log
 ...
 ...

はい、このログ記録動作は、Kubernetes の世界では確かにアンチパターンです。しかし、クラウドネイティブの動きの発展にはまだ時間がかかり、誰もがそのトレンドに追いつけるわけではありません。これは特にデータベースサービスに当てはまります。

VM の世界と比較すると、ポッドは異なるワーカーノード間で頻繁に移動される可能性があります。 K8s クラスターでポッドが変更されるたびに、ログエージェントを再読み込みまたは再起動する必要はまったくありません。これは新たな挑戦ですよね？

課題 II: ログ名前空間におけるマルチテナント

Kubernetes ワークロードは通常、共有ワーカー仮想マシンで実行されます。異なるプロジェクトのワークロードは、異なる名前空間に分割されます。

プロジェクトによってログ記録の設定が異なる場合があります。ログの保存場所、ログを管理するツールなどはすべて、追加のセキュリティリスクなしに簡単な方法で構成する必要があります。

この点では、Kubernetes CRD (CustomResourceDefinition) が非常に優れたツールであることがわかります。

学ぶ必要があるのは、標準の kubectl コマンドだけです。 (kubectl チートシートを参照してください)。
ここで RBAC を使用してリソースをカスタマイズできます。安全性も保証できます。

PKS では、この機能をリソースシンクと呼びます。注: このアイデアは Kubernetes コミュニティに提出されました。近いうちに Kubernetes アップストリームに統合されることを期待します。

課題 III: 異なる名前空間に対して異なるログ SLA をサポートする

便宜上、通常はログエージェントを Kubernetes デーモンセットとしてデプロイするだけです。つまり、Kubernetes ワーカーノードごとにポッドは 1 つだけ存在します。何らかの理由でこのポッドを再ロードまたは再スケジュールする必要がある場合、このワーカーノード内のすべてのポッドに影響します。

K8s v1.12 以降では、ノードごとに 100 個のポッドを実行できます。したがって、ログエージェントがすべてのポッドからログを収集するのに十分な速度であることを確認する必要があります。

他の共有環境と同様に、騒音を出す隣人の問題に遭遇する可能性があります。 1 つのポッドの誤動作により、同じワーカーノード内の他のすべてのポッドが危険にさらされる可能性があります。問題のある名前空間のログ記録を無効にしたいですか?ログ記録システム全体は簡単にオフにできますが、必要なログを収集できなくなります。

さらに、ディスク速度が遅いと、ログ転送に大幅な遅延が発生する可能性があります。ログのバックプレッシャーをタイムリーに処理できないと、ログプロキシの DDoS が発生する可能性があります。

課題4: 異なるレイヤーからのログ処理

下の図に示すように、ポッドログ、K8s ログ、プラットフォームログがあります。「ポッドログ」の場合でも、標準ワークロードまたは K8s アドオンからのログがあります。

ご想像のとおり、ログの種類によって特性や優先順位が異なります。レイヤー間だけでなく、同じレイヤー内でも異なる SLA が存在する場合があります。

K8s ソリューションを提供するために、この問題をどのように解決すればよいでしょうか?セキュリティリスクを最小限に抑えながら、プロジェクトマネージャーと開発者が問題の根本原因を迅速に見つけられるように支援する必要があります。

PKSとは何ですか? PKS は、VMware と Pivotal が提供するエンタープライズグレードの Kubernetes ソリューションです。

元のアドレス: Kubernetes ログ転送における 4 つの課題、著者: Denny Zhang

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください。

<<: Cloudera と Hortonworks が合併を発表: Hadoop にとって大きな打撃!

>>: UCloudのXu Liang氏との独占インタビュー：UCloudの仮想ネットワークの進化

ramnode-2周年/5.8%割引/ニューヨークの新データセンター/Kvmが勝つ

Kubernetes ログ転送で直面する 4 つの課題

ramnode-2周年/5.8%割引/ニューヨークの新データセンター/Kvmが勝つ

inceptionhosting - 50% 割引コード、512M メモリ、KVM 仮想 VPS、年間 15 ユーロ

dedipath: サンノゼデータセンター VPS の簡単なレビュー。China Telecom や China Unicom と比較すると、China Mobile の方がパフォーマンスが優れているようです。

モバイルウェブサイトを最適化するには、SEOREはこれらの詳細に注意を払う必要があります。

カーオーディオウェブサイトのキーワード計画と考察

alphavps-35 ユーロ/2xL5630/16g メモリ/450gSAS/5T トラフィック/5IP/ブルガリア

Yitaoは声明を発表した。「いかなるナビゲーションウェブサイトに対しても「強制的な協力」を要求したことは一度もない」

黄鶴楼をライトアップ！ 2021年テンセントデジタルエコシステムカンファレンスは本日から【ライブ中継予約】を開始します！

強力なハイブリッドクラウドを構築するにはどうすればよいでしょうか? IBM Powerは先見性のあるガイダンスを提供します

小紅書のジレンマを解決できるのは誰か？

推薦する

virpus-$3.5/シアトル VPS/Xen/512m メモリ/2 コア CPU/15g SSD/1.5T トラフィック

greencloudvps-$7/kvm/win/512 メモリ/250g ハードディスク/10g ポート/無制限トラフィック

あなたは本当に JVM を理解していますか? JVM のメモリ領域とその機能は何ですか?

Debian 11 を Debian 12 に素早く簡単にアップグレード

クラウドインフラストラクチャ管理に必要な 5 つの要件

プロメテウス VPS シンプルテスト

雲が増えればパワーも増える？マルチクラウドアーキテクチャに隠された 11 の秘密をご存知ですか?

domain.com - 複数のドメイン拡張子、登録料 40% オフ、数量無制限、各ドメインは最大 5 年間登録可能

Qvodは著作権侵害の疑いで巨額の罰金を科されたと報じられている。Yunfanの捜索は確固たる証拠である。

草の根ウェブマスターがあなたの質問に答えます: SEOはそれほど神秘的ではありません

#苦情反対と著作権無視# hostsolutions: 1G メモリ VPS は年間わずか 12 ドル、デュアルチャネル E5+32g メモリ Du Fu はわずか 37 ユーロ

ブロックチェーンとは何ですか? また、データセンターやクラウドコンピューティングにどのような影響を与えますか?

SEO時事：国慶節後のウェブサイトランキング低下の理由分析

100 万、200 万、300 万、地元のウェブマスターはどのようにしてボトルネックを突破できるのでしょうか?

acclouds: 日本のソフトバンク VPS、Netflix をブロック解除、月額 55 元、512M メモリ/1 コア/20g SSD/1T トラフィック