Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスター環境を計画する場合、ハードウェアの選択は Ceph クラスター全体のパフォーマンスに影響するため、非常に重要です。参考までに、ハードウェアの選択基準をいくつか示します。

[[249458]]

1.CPUの選択

Ceph メタデータ サーバーは負荷を動的に再分配しますが、これは CPU に左右されるため、メタデータ サーバーには優れたプロセッサ パフォーマンス (クアッドコア CPU など) が必要です。 Ceph OSD は RADOS サービスを実行し、CRUSH を使用してデータの保存場所を計算し、データを複製し、クラスター マップのコピーを維持する必要があるため、OSD にも適切な処理パフォーマンスが必要です。 Ceph モニターはクラスター マップのバックボーン情報を維持するだけなので、CPU には影響しません。

2. RAMの選択

メタデータ サーバーとモニターはデータを迅速に提供できる必要があるため、十分なメモリ (例: デーモン インスタンスごとに 1 GB の RAM) が必要です。 OSD は通常の操作を実行するときに多くのメモリを必要としません (例: デーモン インスタンスごとに 500 MB の RAM)。ただし、リカバリ操作を実行する場合は、大量のメモリが必要になります (たとえば、デーモンごとに 1 TB のストレージあたり約 1 GB)。一般的に、多ければ多いほど良いです。

[[249459]]

3. データストレージの選択

データ ストレージを計画するときは、コストとパフォーマンスのトレードオフを考慮してください。複数のバックグラウンド プログラムが同時に 1 つのドライブの読み取りと書き込みを行う同時 OS 操作により、パフォーマンスが大幅に低下する可能性があります。考慮すべきファイル システムの制限もあります。BTRFS は実稼働環境ではそれほど安定していませんが、ジャーナルを記録してデータを並行して書き込む機能があり、XFS と EXT4 の方が優れています。

ヒント: 単一のディスク パーティション上で複数の OSD を実行することはお勧めしません。単一のディスク パーティション上で OSD とモニターまたはメタデータ サービスを実行することはお勧めしません。

ストレージ ドライブは、シーク時間、アクセス時間、読み取りおよび書き込み時間、および全体的なスループットによって制限されます。これらの物理的な制限は、特に回復中にシステム全体のパフォーマンスに影響を及ぼす可能性があります。オペレーティング システムとソフトウェアには専用のドライブを使用し、ホスト上で実行する OSD デーモンごとに 1 つのドライブを割り当てることをお勧めします。ほとんどの「OSD が遅い」問題は、1 つのオペレーティング システムで同じドライブ上で複数の OSD や複数のジャーナルを実行することによって発生します。

小さなパフォーマンスの問題を修正するコストが追加のディスク ドライブのコストを超える場合があるため、OSD ストレージ ドライブの過負荷を回避するためにクラスター設計の計画を迅速化できます。

ただし、各ハードドライブ上で複数の Ceph OSD デーモンを同時に実行すると、リソースの競合が発生し、全体的なスループットが低下する可能性があります。ジャーナルをオブジェクト データと同じドライブに保存することもできますが、これにより、書き込み操作をログに記録してクライアントに ACK を送信するのにかかる時間が長くなる可能性があります。 Ceph が書き込み操作を ACK する前に、Ceph は操作をログに書き込む必要があります。

BTRFS ファイル システムはログ データとオブジェクト データを同時に書き込むことができますが、XFS と ext4 ではそれができません。 Ceph では、オペレーティング システム、OSD データ、および OSD ジャーナルを別々のドライブで実行することを推奨しています。

4. SSDの選択

パフォーマンスを向上させる機会の 1 つは、ソリッド ステート ドライブ (SSD) を使用して、ランダム アクセス時間、読み取り待ち時間、スループットの加速を削減することです。 SSD は、多くの場合、1 GB あたりのコストがハードディスク ドライブの 10 倍以上かかりますが、アクセス時間はハードディスク ドライブの 100 倍以上高速です。

SSD には可動機械部品がないため、ハードディスク ドライブと同じ制限を受ける必要がありません。ただし、SSD には明らかな制限があります。順次読み取りおよび書き込みパフォーマンスを考慮することが重要です。複数の OSD に複数のログを保存する場合、400 MB/秒のシーケンシャル書き込みスループットを持つ SSD は、120 MB/秒のシーケンシャル書き込みスループットを持つ機械式ディスクよりも優れたパフォーマンスを発揮します。

OSD オブジェクト ストレージは SSD では高価であるため、OSD のジャーナルを OSD のオブジェクト データとともに別の SSD に保存すると、OSD のパフォーマンスが大幅に向上する可能性があります。 OSD ジャーナル設定は、デフォルトでは /var/lib/ceph/osd/$cluster-$id/journal にあります。このパスを SSD または SSD のパーティションにマウントして、ログ ファイルとデータ ファイルを別のディスクに保存できます。

5. ネットワークの選択

各マシンに少なくとも 2 枚のギガビット ネットワーク カードを搭載することをお勧めします。現在、最も一般的なハードディスクのスループットは 100MB/秒です。ネットワーク カードはすべての OSD ハード ディスクの合計スループットを処理できる必要があるため、パブリック ネットワーク用と cluster_network 用に少なくとも 2 つのギガビット ネットワーク カードを用意することをお勧めします。クラスター ネットワーク (インターネットに接続されていないことが望ましい) は、データ レプリケーションによって生成される追加の負荷を処理し、OSD がデータをレプリケートしている間に配置グループがアクティブ + クリーンな状態に戻るのを妨げる可能性のあるサービス拒否攻撃を防ぐために使用されます。 10 ギガビット ネットワーク カードの導入を検討してください。 1Gbps ネットワーク経由で 1TB のデータをコピーするには 3 時間かかりますが、3TB (一般的なドライブ構成) の場合は 9 時間かかります。対照的に、10Gbps を使用すると、コピー時間はそれぞれ 20 分と 1 時間に短縮されます。

PB レベルのクラスターでは、OSD ディスク障害は例外ではなく、通常のことです。システム管理者は、合理的な費用対効果を前提として、PG を劣化状態からアクティブ + クリーン状態にできるだけ早く復元したいと考えています。 10G ネットワーク カードの使用を検討する価値があります。各ネットワークのトップオブラック ルータからコア ルータへの通信では、スループットが高速化される必要があります (例: 40 Gbps ~ 100 Gbps)。

6. その他留意事項:

各ホストで複数の OSD プロセスを実行できますが、OSD ディスクの合計スループットが、クライアントがデータの読み取りまたは書き込みに必要なネットワーク帯域幅を超えないようにする必要があります。各ホスト上のデータの保存比率も考慮する必要があります。特定のホストでパーセンテージが大きい場合、問題が発生する可能性があります。Ceph はデータ損失を防ぐために動作を停止する可能性があります。

各ホストで複数の OSD プロセスを実行する場合は、カーネルも最新の状態に保つ必要があります。各ホストで複数の OSD プロセス (例: 20 以上) を実行すると、特にリカバリおよび再バランス操作のために多数のスレッドが生成されます。多くの Linux カーネルでは、デフォルトで最大スレッド数が小さくなっています (例: 32k)。この領域で問題が発生した場合は、kernel.pid_max を高く設定することを検討してください。理論上の最大値は 4,194,303 です。

<<:  2018 Oracle Cloud Conferenceが盛大に開幕

>>:  大手企業がしのぎを削るクラウドコンピューティング市場で、中小企業はいかにシェアしていくのか。

推薦する

ウェブマスターはBaidu 6.28事件を別の視点から見るべきだ

6月28日の事件後、私の2つのウェブサイトはKステーションではなかったにもかかわらず、両方ともトップ...

中国ブランドデーに、企業はどのようにしてインターネット上で自社ブランドを確立できるのでしょうか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスブランドは、常に生産者と...

ハイブリッド マルチクラウド戦略: 企業にとっての勝利のテーマ

[[440688]] [51CTO.com クイック翻訳]ハイブリッドマルチクラウドの概要今日、企業...

朗報:iwstack が米国ダラスにデータセンターを開設

Prometeus 傘下の VPS クラウドである iwstack が、ついに米国ダラスのデータセン...

「分散トレースシステム」の原理を一挙解説!

マイクロサービス アーキテクチャでは、リクエストを完了するには、多くの場合、複数のモジュール、複数の...

Google vs. Naver: 覇者は地方の暴君を倒せない

Googleは現在、世界の検索市場の83%を占めていますが、中国や韓国など一部の国では徐々に衰退して...

知虎は忘れ去られたのか?

短編動画がインターネットのコンテンツ基盤となり、ライブストリーミング電子商取引がインターネットの最も...

劉野熙はなぜ人気になったのでしょうか?数百万のファンを総合的に分析する4つの次元...

10月31日のハロウィンの夜、仮想の人物が現れました。たった1本の短い動画とたった1日で、Douyi...

ssdblaze-$2.5/KVM/512M メモリ/6g SSD/500g トラフィック/Phoenix

3 月に登録された ssdblaze.com は現在、PhoenixNAP データ センターで KV...

locvps: オーストラリアの VPS、China Unicom AS9929 へのアクセス、20% 割引、月額 29 元から、Windows をサポート

locvps は現在、オーストラリアのデータセンターに VPS (オーストラリア VPS) を追加し...

ロングテールキーワードがウェブサイトへのトラフィックを引き付ける4つの主な要素

ご存知のとおり、ロングテールキーワードはウェブサイトの記事ページのタイトルとして使用されます。ロング...

By-Health が Inspur Cloud と提携し、「ハイブリッド クラウド管理プラットフォーム」を構築

最近、「ネットワークセキュリティと情報化」誌とIT運用保守ネットワークは、「『DC Yinghao』...

#独立記念日: lunarpages-50% オフ/無料 com/net ドメイン名/cpanel パネル/無制限のウェブサイト構築/Alipay

Lunarpages は、米国独立記念日の割引コードをリリースしました。この割引コードは、仮想ホステ...

ホームページスナップショット2件の原因分析と解決策

最近、友好的なリンクを交換していたのですが、私のwww.xshishang.com服装マッチングウェ...