Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスター環境を計画する場合、ハードウェアの選択は Ceph クラスター全体のパフォーマンスに影響するため、非常に重要です。参考までに、ハードウェアの選択基準をいくつか示します。

[[249458]]

1.CPUの選択

Ceph メタデータ サーバーは負荷を動的に再分配しますが、これは CPU に左右されるため、メタデータ サーバーには優れたプロセッサ パフォーマンス (クアッドコア CPU など) が必要です。 Ceph OSD は RADOS サービスを実行し、CRUSH を使用してデータの保存場所を計算し、データを複製し、クラスター マップのコピーを維持する必要があるため、OSD にも適切な処理パフォーマンスが必要です。 Ceph モニターはクラスター マップのバックボーン情報を維持するだけなので、CPU には影響しません。

2. RAMの選択

メタデータ サーバーとモニターはデータを迅速に提供できる必要があるため、十分なメモリ (例: デーモン インスタンスごとに 1 GB の RAM) が必要です。 OSD は通常の操作を実行するときに多くのメモリを必要としません (例: デーモン インスタンスごとに 500 MB の RAM)。ただし、リカバリ操作を実行する場合は、大量のメモリが必要になります (たとえば、デーモンごとに 1 TB のストレージあたり約 1 GB)。一般的に、多ければ多いほど良いです。

[[249459]]

3. データストレージの選択

データ ストレージを計画するときは、コストとパフォーマンスのトレードオフを考慮してください。複数のバックグラウンド プログラムが同時に 1 つのドライブの読み取りと書き込みを行う同時 OS 操作により、パフォーマンスが大幅に低下する可能性があります。考慮すべきファイル システムの制限もあります。BTRFS は実稼働環境ではそれほど安定していませんが、ジャーナルを記録してデータを並行して書き込む機能があり、XFS と EXT4 の方が優れています。

ヒント: 単一のディスク パーティション上で複数の OSD を実行することはお勧めしません。単一のディスク パーティション上で OSD とモニターまたはメタデータ サービスを実行することはお勧めしません。

ストレージ ドライブは、シーク時間、アクセス時間、読み取りおよび書き込み時間、および全体的なスループットによって制限されます。これらの物理的な制限は、特に回復中にシステム全体のパフォーマンスに影響を及ぼす可能性があります。オペレーティング システムとソフトウェアには専用のドライブを使用し、ホスト上で実行する OSD デーモンごとに 1 つのドライブを割り当てることをお勧めします。ほとんどの「OSD が遅い」問題は、1 つのオペレーティング システムで同じドライブ上で複数の OSD や複数のジャーナルを実行することによって発生します。

小さなパフォーマンスの問題を修正するコストが追加のディスク ドライブのコストを超える場合があるため、OSD ストレージ ドライブの過負荷を回避するためにクラスター設計の計画を迅速化できます。

ただし、各ハードドライブ上で複数の Ceph OSD デーモンを同時に実行すると、リソースの競合が発生し、全体的なスループットが低下する可能性があります。ジャーナルをオブジェクト データと同じドライブに保存することもできますが、これにより、書き込み操作をログに記録してクライアントに ACK を送信するのにかかる時間が長くなる可能性があります。 Ceph が書き込み操作を ACK する前に、Ceph は操作をログに書き込む必要があります。

BTRFS ファイル システムはログ データとオブジェクト データを同時に書き込むことができますが、XFS と ext4 ではそれができません。 Ceph では、オペレーティング システム、OSD データ、および OSD ジャーナルを別々のドライブで実行することを推奨しています。

4. SSDの選択

パフォーマンスを向上させる機会の 1 つは、ソリッド ステート ドライブ (SSD) を使用して、ランダム アクセス時間、読み取り待ち時間、スループットの加速を削減することです。 SSD は、多くの場合、1 GB あたりのコストがハードディスク ドライブの 10 倍以上かかりますが、アクセス時間はハードディスク ドライブの 100 倍以上高速です。

SSD には可動機械部品がないため、ハードディスク ドライブと同じ制限を受ける必要がありません。ただし、SSD には明らかな制限があります。順次読み取りおよび書き込みパフォーマンスを考慮することが重要です。複数の OSD に複数のログを保存する場合、400 MB/秒のシーケンシャル書き込みスループットを持つ SSD は、120 MB/秒のシーケンシャル書き込みスループットを持つ機械式ディスクよりも優れたパフォーマンスを発揮します。

OSD オブジェクト ストレージは SSD では高価であるため、OSD のジャーナルを OSD のオブジェクト データとともに別の SSD に保存すると、OSD のパフォーマンスが大幅に向上する可能性があります。 OSD ジャーナル設定は、デフォルトでは /var/lib/ceph/osd/$cluster-$id/journal にあります。このパスを SSD または SSD のパーティションにマウントして、ログ ファイルとデータ ファイルを別のディスクに保存できます。

5. ネットワークの選択

各マシンに少なくとも 2 枚のギガビット ネットワーク カードを搭載することをお勧めします。現在、最も一般的なハードディスクのスループットは 100MB/秒です。ネットワーク カードはすべての OSD ハード ディスクの合計スループットを処理できる必要があるため、パブリック ネットワーク用と cluster_network 用に少なくとも 2 つのギガビット ネットワーク カードを用意することをお勧めします。クラスター ネットワーク (インターネットに接続されていないことが望ましい) は、データ レプリケーションによって生成される追加の負荷を処理し、OSD がデータをレプリケートしている間に配置グループがアクティブ + クリーンな状態に戻るのを妨げる可能性のあるサービス拒否攻撃を防ぐために使用されます。 10 ギガビット ネットワーク カードの導入を検討してください。 1Gbps ネットワーク経由で 1TB のデータをコピーするには 3 時間かかりますが、3TB (一般的なドライブ構成) の場合は 9 時間かかります。対照的に、10Gbps を使用すると、コピー時間はそれぞれ 20 分と 1 時間に短縮されます。

PB レベルのクラスターでは、OSD ディスク障害は例外ではなく、通常のことです。システム管理者は、合理的な費用対効果を前提として、PG を劣化状態からアクティブ + クリーン状態にできるだけ早く復元したいと考えています。 10G ネットワーク カードの使用を検討する価値があります。各ネットワークのトップオブラック ルータからコア ルータへの通信では、スループットが高速化される必要があります (例: 40 Gbps ~ 100 Gbps)。

6. その他留意事項:

各ホストで複数の OSD プロセスを実行できますが、OSD ディスクの合計スループットが、クライアントがデータの読み取りまたは書き込みに必要なネットワーク帯域幅を超えないようにする必要があります。各ホスト上のデータの保存比率も考慮する必要があります。特定のホストでパーセンテージが大きい場合、問題が発生する可能性があります。Ceph はデータ損失を防ぐために動作を停止する可能性があります。

各ホストで複数の OSD プロセスを実行する場合は、カーネルも最新の状態に保つ必要があります。各ホストで複数の OSD プロセス (例: 20 以上) を実行すると、特にリカバリおよび再バランス操作のために多数のスレッドが生成されます。多くの Linux カーネルでは、デフォルトで最大スレッド数が小さくなっています (例: 32k)。この領域で問題が発生した場合は、kernel.pid_max を高く設定することを検討してください。理論上の最大値は 4,194,303 です。

<<:  2018 Oracle Cloud Conferenceが盛大に開幕

>>:  大手企業がしのぎを削るクラウドコンピューティング市場で、中小企業はいかにシェアしていくのか。

推薦する

インターネットの素人から見たインターネットマーケティングとプロモーション - A5 Webmaster Network

実は私は、貴金属関係の会社でインターネットとは関係のない技術系の仕事をしている技術者です。興味があっ...

Dotvps - 1g メモリ/50g ハードディスク/500g トラフィック/2IP/年間 28 ドル/アトランタ

今回お勧めするアトランタ拠点の openvz VPS は Dotvps のものです。独立した IPv...

「ダブル11」の準備はできていますか?

時間が経つのは早いですね。今日は11月1日、毎年恒例の「ダブル11」がもうすぐやってきます。 「ダブ...

JD.comは最大16億9000万ドルを調達し、5月22日に上場する予定だ。

概要: JD.com は IPO 価格が 16 ~ 18 ドルの間になると予想しており、調達額は最大...

優れたSEO実践者の良い習慣

SEO に触れたことがあれば、SEO は毎日の定期的な作業であることがお分かりでしょう。したがって、...

360 Search、入札システム「360 Dianjing Marketing Platform」を開始

360 Search がひっそりとリリースされた 8 月 16 日には、業界で大きな話題となりました...

SEOテクノロジーの簡単な分析

私の論理的思考は非常に混乱しているため、テクノロジーに関する記事を書くことはほとんどありません。昨夜...

ウェブサイトのホームページがブロックされた後、1か月以内にスナップショットが復元され、ランキングが向上します。

簡単な説明: これは私が担当しているウェブサイトの SEO ランキングです。 1 か月も経たないうち...

kihihosting-$2/kvm/512m メモリ/120g ハードディスク/500g トラフィック/カナダ

kihihosting、ドメイン名は今年 2 月に登録され、レジストラは dreamhost です。...

個人ウェブマスターの告白

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス私はウェブサイトのストア...

クラウド変更管理のベストプラクティス

クラウドでは、オンプレミスよりも変更管理が複雑になる可能性があります。企業がクラウド環境を導入する場...

将来的な視点からBaiduの最適化について議論する

昨年の628から今年のGreen RadishとPomegranateアルゴリズムの数回のメジャーア...

JVMにおけるJavaポリモーフィズムは次のようになります

多態性オブジェクト指向プログラミング言語では、「ポリモーフィズム」は重要な概念です。オブジェクト指向...

三国志SEOシリーズ(I):茅葺き屋根の小屋を3回訪問

漢末期、黄巾の乱が勃発し、世は混乱に陥っていた。曹操が朝廷を掌握し、孫権は軍を率いて東呉に向かい、漢...

サービスをクラウドに移行するためのヒント

ローカル環境からクラウドへの移行は簡単な作業ではなく、多くの側面が関係します。サーバー移行、データベ...