Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスター環境を計画する場合、ハードウェアの選択は Ceph クラスター全体のパフォーマンスに影響するため、非常に重要です。参考までに、ハードウェアの選択基準をいくつか示します。

[[249458]]

1.CPUの選択

Ceph メタデータ サーバーは負荷を動的に再分配しますが、これは CPU に左右されるため、メタデータ サーバーには優れたプロセッサ パフォーマンス (クアッドコア CPU など) が必要です。 Ceph OSD は RADOS サービスを実行し、CRUSH を使用してデータの保存場所を計算し、データを複製し、クラスター マップのコピーを維持する必要があるため、OSD にも適切な処理パフォーマンスが必要です。 Ceph モニターはクラスター マップのバックボーン情報を維持するだけなので、CPU には影響しません。

2. RAMの選択

メタデータ サーバーとモニターはデータを迅速に提供できる必要があるため、十分なメモリ (例: デーモン インスタンスごとに 1 GB の RAM) が必要です。 OSD は通常の操作を実行するときに多くのメモリを必要としません (例: デーモン インスタンスごとに 500 MB の RAM)。ただし、リカバリ操作を実行する場合は、大量のメモリが必要になります (たとえば、デーモンごとに 1 TB のストレージあたり約 1 GB)。一般的に、多ければ多いほど良いです。

[[249459]]

3. データストレージの選択

データ ストレージを計画するときは、コストとパフォーマンスのトレードオフを考慮してください。複数のバックグラウンド プログラムが同時に 1 つのドライブの読み取りと書き込みを行う同時 OS 操作により、パフォーマンスが大幅に低下する可能性があります。考慮すべきファイル システムの制限もあります。BTRFS は実稼働環境ではそれほど安定していませんが、ジャーナルを記録してデータを並行して書き込む機能があり、XFS と EXT4 の方が優れています。

ヒント: 単一のディスク パーティション上で複数の OSD を実行することはお勧めしません。単一のディスク パーティション上で OSD とモニターまたはメタデータ サービスを実行することはお勧めしません。

ストレージ ドライブは、シーク時間、アクセス時間、読み取りおよび書き込み時間、および全体的なスループットによって制限されます。これらの物理的な制限は、特に回復中にシステム全体のパフォーマンスに影響を及ぼす可能性があります。オペレーティング システムとソフトウェアには専用のドライブを使用し、ホスト上で実行する OSD デーモンごとに 1 つのドライブを割り当てることをお勧めします。ほとんどの「OSD が遅い」問題は、1 つのオペレーティング システムで同じドライブ上で複数の OSD や複数のジャーナルを実行することによって発生します。

小さなパフォーマンスの問題を修正するコストが追加のディスク ドライブのコストを超える場合があるため、OSD ストレージ ドライブの過負荷を回避するためにクラスター設計の計画を迅速化できます。

ただし、各ハードドライブ上で複数の Ceph OSD デーモンを同時に実行すると、リソースの競合が発生し、全体的なスループットが低下する可能性があります。ジャーナルをオブジェクト データと同じドライブに保存することもできますが、これにより、書き込み操作をログに記録してクライアントに ACK を送信するのにかかる時間が長くなる可能性があります。 Ceph が書き込み操作を ACK する前に、Ceph は操作をログに書き込む必要があります。

BTRFS ファイル システムはログ データとオブジェクト データを同時に書き込むことができますが、XFS と ext4 ではそれができません。 Ceph では、オペレーティング システム、OSD データ、および OSD ジャーナルを別々のドライブで実行することを推奨しています。

4. SSDの選択

パフォーマンスを向上させる機会の 1 つは、ソリッド ステート ドライブ (SSD) を使用して、ランダム アクセス時間、読み取り待ち時間、スループットの加速を削減することです。 SSD は、多くの場合、1 GB あたりのコストがハードディスク ドライブの 10 倍以上かかりますが、アクセス時間はハードディスク ドライブの 100 倍以上高速です。

SSD には可動機械部品がないため、ハードディスク ドライブと同じ制限を受ける必要がありません。ただし、SSD には明らかな制限があります。順次読み取りおよび書き込みパフォーマンスを考慮することが重要です。複数の OSD に複数のログを保存する場合、400 MB/秒のシーケンシャル書き込みスループットを持つ SSD は、120 MB/秒のシーケンシャル書き込みスループットを持つ機械式ディスクよりも優れたパフォーマンスを発揮します。

OSD オブジェクト ストレージは SSD では高価であるため、OSD のジャーナルを OSD のオブジェクト データとともに別の SSD に保存すると、OSD のパフォーマンスが大幅に向上する可能性があります。 OSD ジャーナル設定は、デフォルトでは /var/lib/ceph/osd/$cluster-$id/journal にあります。このパスを SSD または SSD のパーティションにマウントして、ログ ファイルとデータ ファイルを別のディスクに保存できます。

5. ネットワークの選択

各マシンに少なくとも 2 枚のギガビット ネットワーク カードを搭載することをお勧めします。現在、最も一般的なハードディスクのスループットは 100MB/秒です。ネットワーク カードはすべての OSD ハード ディスクの合計スループットを処理できる必要があるため、パブリック ネットワーク用と cluster_network 用に少なくとも 2 つのギガビット ネットワーク カードを用意することをお勧めします。クラスター ネットワーク (インターネットに接続されていないことが望ましい) は、データ レプリケーションによって生成される追加の負荷を処理し、OSD がデータをレプリケートしている間に配置グループがアクティブ + クリーンな状態に戻るのを妨げる可能性のあるサービス拒否攻撃を防ぐために使用されます。 10 ギガビット ネットワーク カードの導入を検討してください。 1Gbps ネットワーク経由で 1TB のデータをコピーするには 3 時間かかりますが、3TB (一般的なドライブ構成) の場合は 9 時間かかります。対照的に、10Gbps を使用すると、コピー時間はそれぞれ 20 分と 1 時間に短縮されます。

PB レベルのクラスターでは、OSD ディスク障害は例外ではなく、通常のことです。システム管理者は、合理的な費用対効果を前提として、PG を劣化状態からアクティブ + クリーン状態にできるだけ早く復元したいと考えています。 10G ネットワーク カードの使用を検討する価値があります。各ネットワークのトップオブラック ルータからコア ルータへの通信では、スループットが高速化される必要があります (例: 40 Gbps ~ 100 Gbps)。

6. その他留意事項:

各ホストで複数の OSD プロセスを実行できますが、OSD ディスクの合計スループットが、クライアントがデータの読み取りまたは書き込みに必要なネットワーク帯域幅を超えないようにする必要があります。各ホスト上のデータの保存比率も考慮する必要があります。特定のホストでパーセンテージが大きい場合、問題が発生する可能性があります。Ceph はデータ損失を防ぐために動作を停止する可能性があります。

各ホストで複数の OSD プロセスを実行する場合は、カーネルも最新の状態に保つ必要があります。各ホストで複数の OSD プロセス (例: 20 以上) を実行すると、特にリカバリおよび再バランス操作のために多数のスレッドが生成されます。多くの Linux カーネルでは、デフォルトで最大スレッド数が小さくなっています (例: 32k)。この領域で問題が発生した場合は、kernel.pid_max を高く設定することを検討してください。理論上の最大値は 4,194,303 です。

<<:  2018 Oracle Cloud Conferenceが盛大に開幕

>>:  大手企業がしのぎを削るクラウドコンピューティング市場で、中小企業はいかにシェアしていくのか。

推薦する

ウェブサイトデータ分析: 4 つのモジュールと 6 つのレベルのコンバージョン率

まず面白い話をしましょう。最近、彼女が私の体が脂ぎっていると思っているので、私は華々しく減量期間に入...

elkupi - 苦情防止: ドメイン名 + VPS + サーバー、無制限のコンテンツ

elkupi は、長年存在している特別なホスティング プロバイダーであり、欧米諸国では法律で許可され...

Shouzhuan126.comでXiong Zhangアカウントを申請する際に遭遇したさまざまな奇妙な問題、新しいサイトにとって必読

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますBaidu...

中古車販売員のウェブサイト構築体験

私は中古車会社で働くサラリーマンです。余暇には、純粋に個人的な趣味としてウェブサイトを構築するのが好...

大企業におけるSEOの課題

大企業や中小企業の Web サイトで SEO を行う際に、通常どのような課題に直面するでしょうか。た...

Baidu K-station後のトラフィック回復方法と戦略

1. 観察:長期にわたる観察から、百度に追い出されたサイトの多くは法を遵守した合法的なウェブサイトで...

Coremail Lunke メールボックス クライアントは、安全な共同オフィス ソリューションを作成します。

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますAI、ビッ...

SEO を通じてユーザーエクスペリエンスを最適化するにはどうすればよいでしょうか?

Baidu アルゴリズムの継続的な更新により、SEO はますます難しくなっています。以前は、内部リン...

A5 がウェブサイトの直帰率を減らす方法を教えてくれる例分析

中国で最も人気のあるウェブマスターフォーラムの1つであるA5は、情報、取引、フォーラムを統合し、大多...

オンライン旅行:モバイルインターネットによって変革されるもう一つの業界

モバイルインターネットの普及により、オンライン旅行が本格的に形作られるようになりました。ユーザーの長...

バックアップの推奨事項: crissic - 15 ドル/年/512 MB RAM/100 GB ハード ドライブ/2 TB トラフィック/ロサンゼルス

crissic.net のロサンゼルス データ センターである OVZ が、またプロモーションを行っ...

コンテンツこそが王様です!百度検索が高品質コンテンツ制作ガイドを発表

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスウェブマスターがウェブサ...

PyTorch 1.7 がリリース、CUDA 11 と Windows 分散トレーニングをサポート

昨日、PyTorch チームは PyTorch 1.7 をリリースしました。このバージョンでは、CU...

ウェブマスターツールの新機能: 友達リンク検出のアップグレード

ウェブマスターツール(seo.chinaz.com)は、ウェブマスターが最もよく使用するツールです。...