分散ストレージシステムの信頼性:システムの定量的評価

分散ストレージシステムの信頼性:システムの定量的評価

  [[414310]]

1. はじめに

分散ストレージ システムの品質を測定する指標として、可用性と信頼性という 2 つの指標がよく挙げられます。

可用性とは、システム サービスの可用性を指します。一般的に、可用性は、年間を通じて利用可能な時間を合計時間で割ることによって測定されます。通常参照される SLA インジケーターは可用性インジケーターですが、ここでは詳細には説明しません。

信頼性指数はデータの信頼性を表します。データの信頼性は 11 ナインと言われていますが、これはオブジェクト ストレージでは、保存されているオブジェクト 1,000 億個ごとに約 1 つのファイルが読み取り不能になることを意味します。データ信頼性指標が分散ストレージ システムにもたらす課題は自明であることがわかります。

この記事では、分散システムにおけるデータ信頼性の定量的モデルの分析に焦点を当てます。

II.背景

データの重要性については多くを語る必要はありません。基本的に、データは企業の活力の中核であり、企業が生き残るための基盤であると言えます。したがって、データの信頼性は基盤の基礎となります。データの損失は企業に計り知れない、回復不能な損失をもたらします。

データの規模が大きくなり、環境が複雑になるにつれて、データの信頼性を脅かす要因は一般的にいくつかのカテゴリに分類できます。

  • ハードウェア障害: 主にディスク障害、ネットワーク障害、サーバー障害、IDC 障害。

  • ソフトウェアのリスク: カーネルのバグ、ソフトウェア設計のバグなど。

  • 運用および保守の失敗: 人為的エラー。

最初のタイプのハードウェア障害の中で、ディスク障害が最も頻繁に発生します。分散ストレージの運用と保守に携わる学生にとって、ディスクの不良は普通のことです。

そこで、ディスク障害の観点から分散システムのデータ信頼性を定量化してみたいと思います。

3. データの信頼性の定量化

データの信頼性を向上させるために、データ複製技術と EC コーディング冗長化技術が、分散システムの信頼性を高めるために最も一般的に使用されている手段です。複数のコピーを例にとると、コピーの数が多いほど、データの信頼性は確実に高まります。

分散システムのデータ信頼性を定量的に推定するために、さらに分析を進めると、保存されたデータの信頼性に影響を与える要因は主に次のとおりであることがわかります。

  • N: 分散システム内のディスクの合計数。ディスクの数は信頼性と強く関係しており、N のサイズはデータの断片化の度合いと密接に関係していることは容易に理解できます。

  • R: レプリカの数。レプリカの数が増えるほど、データの信頼性は高まりますが、ストレージ コストも増加します。

  • T: RecoveryTime は、ディスクが不良の場合にデータを回復するのにかかる時間です。これもわかりやすいですね。回復時間が短いほど、データの信頼性が高まります。

  • AFR: 年間故障率。ディスク自体の品質に関連します。品質が良ければ、AFR は低くなり、データの信頼性は高くなります。

  • S: コピーセットの数。ディスク上の冗長データがクラスター内でどの程度分散されているかを示します。データが分散しているほど、3 つのディスクのいずれかに障害が発生すると、冗長データがすべて失われる可能性が高くなります。したがって、断片化の度合いという次元からのみ判断すると、断片化の度合いが小さいほど良いということになります。

したがって、分散システムの年間データ信頼性を表す式を次のように使用できます。

3.1 年間ディスク故障率: AFR

AFR: 年間故障率は、ハードディスクの年間故障確率とも呼ばれます。これは通常、デバイスが 1 年間の使用中に故障する確率を反映するために使用されます。 AFR はシステムのデータ信頼性と密接に関連しているため、AFR が低いほどシステムの信頼性が高くなることは直感的に理解できます。この指標は通常、別のディスク品質指標である MTBF (平均故障間隔) から計算されます。すべての主要なハードディスク製造元には、MTBF の工場インジケーターがあります。たとえば、Seagate のハードディスクの MTBF インジケーターは 120W 時間です。 AFR の計算式は次のとおりです。

ただし、実際の使用では、MTBF はハード ドライブの工場仕様よりも低くなることがよくあります。 Google は、オンライン クラスタのハード ディスクの状態に基づいて AFR を次のように計算しました。

(過去5年間のハードディスクAFR統計)

(画像はhttp://oceanbase.org.cnより)

3.2 コピーデータレプリケーショングループ: CopySet

CopySet: 簡単に言えば、データのすべてのコピーを含むノードです。つまり、コピーセットが破損すると、データが失われます。

(単一データランダム複製グループ化図)

(画像はhttps://www.dazhuanlan.comより)

図 2 に示すように、9 つのディスクを例にとると、これらの 9 つのディスクのレプリカ セットは {1,5,6}、{2,6,8} になります。特別な処理を行わない場合、データが増加した後のデータのランダム分布は次のようになります。

(大量データのランダム分布図)

(画像はhttps://www.dazhuanlan.comより)

最大コピーセット: 上図に示すように、12 個のデータの複数のコピーが 9 個のディスクにランダムに分散されます。上の図の任意の 3 つのディスクから特定のデータのコピーを 3 つ選択できます。これは、n 個の要素から k 個の要素を取得することと同じです。組み合わせの数は次のとおりです。

最大のコピーセット構成で 3 つのディスクに障害が発生した場合、データが失われる確率は 100% になります。別のケースでは、データの分布は規則的です。たとえば、次の図に示すように、1 つのディスク上のデータは別のディスクにのみバックアップされます。この場合、CopySet でカバーされるデータは (1, 5, 7)、(2, 4, 9)、(3, 6, 8) のみです。つまり、この場合の CopySet は 3 です。9 台のディスクの最小 CopySet が 3 であることは理解しやすいでしょう。つまり、N/R です。

(ディスク粒度冗長性分布図)

したがって、コピーセット数 S は次のようになります。

コピーセットデータは N/R まで小さくできるので、コピーセットの数を最小限に調整できますか?答えはもちろんノーです。これは、一方では、コピーセットが最小に調整されている場合、1 つのディスクに障害が発生すると、他の 2 つのディスクのみがこのディスクに対してリカバリ操作を実行できるため、データのリカバリ時間が長くなり、リカバリ時間が長くなるとデータの信頼性にも影響するためです。コピーセットの 1 つがヒットすると、失われるデータの量は非常に大きくなります。したがって、分散システムにおける CopySet の量と回復速度 RecoveryTime は、システム全体のデータの信頼性とクラスターの可用性のバランスをとるパラメータです。

参考文献[1]「コピーセット:クラウドストレージでのデータ損失の頻度の削減」では、分散システムにおけるコピーセットレプリケーションの選択戦略が示されています。オブジェクト ストレージやファイル ストレージなどの分散ストレージ システムでは、システムの信頼性と可用性に基づいてシステム コピーセットの数を調整する別の方法があります。これは、ランダム配置の場合に小さなファイルを大きなファイルにマージするストレージ戦略を使用するためです。大きなファイルのサイズを制御することで、各ディスク上の大きなファイルの数を制御できます。たとえば、ファイルが 100G の場合、8T ディスクに保存できるファイルの最大数は 8T/100G = 80 ファイルになります。つまり、8T ディスクのデータは最大 80 個の他のディスクに分散されます。クラスター ディスク数が 80 をはるかに超えるシステムの場合、データ ディスク上のデータの断片化の程度は明らかに適切に制御できます。

したがって、ディスク上のシャードがランダムに散在している場合、コピーセットの数は次のように定量化できます。

このうち、P はディスクの容量、B はシャード サイズ、N はシステム ディスク上のデータ、R はコピーの数です。利用率は80%です。

3.3 データ復旧時間: 復旧時間

データ復旧時間はデータの信頼性に大きな影響を与えることは容易に理解できます。そのため、データ復旧時間を短縮すると、データ損失のリスクを効果的に減らすことができます。前述したように、データの回復時間はディスク上のデータの断片化の程度に大きく関係します。同時に、データの復旧時間はサービス自体の可用性にも関係します。

たとえば、ディスク帯域幅が 200MB/秒で、使用可能な帯域幅の 20%、つまり 40MB/秒がリカバリ用に予約されていると仮定し、ディスク容量が P、使用率が 80%、B がブロック サイズである場合、リカバリ速度は次のように計算できます。

4. 信頼性モデルの導出

4.1 ディスク障害とポアソン分布

ポアソン分布: ポアソン分布は、実際には二項分布の極限ケースです。ポアソン分布の式は次のとおりです。

(写真は知乎より)

ここで、t は期間(時間単位)、n は障害が発生したディスクのブロック数、N はクラスター全体のディスク数、1 時間の単位時間あたりの障害が発生したディスクの平均数です。

セクション 3.1 では、1 年以内にディスク障害が発生する確率は AFR であると説明しました。したがって、1 時間の期間内にディスク障害が発生する確率は FIT (Failures in Time) です。

したがって、単位時間 1 時間内に N 個のディスクのクラスターで障害が発生するディスクの数は、FIT*N になります。つまり、1 時間という単位時間内に故障したディスクの平均数です。つまり、次のようになります。

4.2 システム年間信頼度計算の導出

4.1 から、ディスク障害はポアソン分布に従うことがわかります。 N 台のディスクのクラスターで t 時間以内に n 台のディスクが故障する確率は次のとおりです。

次に、3 つのレプリカを例に、年間を通じてクラスター内でデータが失われない確率の定量モデルを導出します。レプリカが 3 つの場合、年間を通じてクラスター内でデータが失われない確率を定量化することは容易ではありません。年間を通じてクラスター内でデータが失われる確率を計算し、年間を通じてクラスター内でデータが失われない確率を計算できます。

年間を通じてクラスター内でデータが失われる確率: 最初のディスクが t (1 年) 以内に故障した場合にのみ、システムはデータ復旧フェーズに入り、2 番目のディスクはデータ復旧時間 tr 以内に故障します。回復されたデータの量を考慮せず、tr 内に 3 番目のディスクが故障します。ただし、これらの 3 つのディスクは、必ずしも 3.2 で導入されたレプリカセット レプリケーション グループにヒットするわけではありません。レプリカセットがヒットした場合、クラスターでは年間を通じてデータが失われることになります。これは、年間を通じてクラスター内でデータ損失が発生する確率が、P1、P2、P3、およびコピーセットヒット確率 Pc に関連しているためです。

1 年 t 以内にディスクが故障する確率は次のとおりです。

上記のディスクに問題が発生した場合、すぐに復元する必要があります。回復時間 tr 中に別のディスクが故障する確率は次のとおりです。

回復時間 tr 内に任意の 3 番目のディスクが故障する確率は次のとおりです。

これら 3 つの障害が発生したディスクがクラスターのコピーセットにヒットする確率は次のとおりです。

したがって、年間を通じてクラスター内でデータ損失が発生する確率 P を取得することは難しくありません。

次に、クラスター内で年間を通じてデータ損失が発生しない確率 1-P を計算できます。

4.3 EC冗長性年間信頼度計算の導出

3 つのコピー メカニズムと比較して、EC 冗長性メカニズムでは追加のチェック ブロックを使用して、一部のブロックに障害が発生した場合でもデータが失われないようにします。 EC エンコーディングは (D, E) データ ブロックに対して実行されます。したがって、EC 冗長性の下で年間を通じてクラスター データが失われる確率を計算すると、EC モードでの回復速度 tr は、3 つのコピー メカニズムの場合とは明らかに異なります。また、EC モードのレプリカは異なります。 EC モードでは、E データ ブロックが失われる可能性があり、D データ ブロックの中に E データ ブロックが 1 つでも失われると、データを回復することはできません。したがって、EC モードでは、年間を通じてクラスター内でデータ損失が発生する確率 P を導出することは難しくありません。次の式では、E が 4 であると想定しています。つまり、4 つのデータ ブロックが失われることを意味します。

3 コピー モードと比較して、EC モードのレプリカ セットでは、D+E ブロック内の E ブロックの損失を考慮する必要があります。 EC モードのレプリカセットの数は次のとおりです。

5. 信頼性モデルの推定

5.1 定量モデルに影響を与える要因

3 つのレプリカを例にとると、クラスター全体の障害確率に影響を与える要因は、上記の定量計算式から得られます。

  • N: クラスター内のディスクの数。

  • FIT: AFR から取得できる 1 時間あたりのディスクの故障率です。

  • t: 1年間固定されます。

  • tr: 回復速度 W、ディスク ストレージ容量、およびシャード サイズに関連する回復時間 (時間単位)。

  • R: コピー数;

  • Z: ディスクの合計ストレージ容量。

  • B: フラグメントまたはブロックのサイズ、大きなファイルにマージされる小さなファイルの最大サイズ。

5.2 信頼性定量化計算

次に、信頼性の計算に影響するいくつかの要素をモデルに取り入れて、本番クラスターの現在の状態に応じて信頼性を計算します。

4.2 のディスク障害と信頼性の導出と組み合わせて、表の 10 のケースを計算すると、次のことがわかります。

ケース 1、2、3 では、ディスク数を 48 から 804、さらに 3600 に増やすことで、信頼性が 11 ナインからほぼ 13 ナインに向上します。その後、信頼性は 804 から 3600 まで 13 ナインのまま維持されます。理論的には、クラスターのサイズが大きくなるにつれて、3 つのディスクを追加する可能性が高くなります。ただし、ディスクの増加に伴って回復速度も直線的に増加するため、信頼性は向上しています。ただし、ディスク数の増加に伴って回復速度が直線的に増加しなくなったため、信頼性は 804 ディスクから 3600 ディスクに向上していません。ディスクの数が非常に多い場合、回復速度を決定する要因は、単一のディスク上のシャードの数になります。

ケース5と6は比較的理解しやすいです。回復速度は100M/Sから10M/Sに低下し、信頼性は2桁以上低下します。

ケース7と8もわかりやすいです。 AFR は 0.43 から 1.2、さらに 7 に増加し、信頼性は 3 桁低下します。

ケース9と10はさらに複雑です。ディスクの数が 100 になると、ブロック サイズが 80 GB から 100 GB に増加し、信頼性が低下します。この場合、回復速度は向上し、コピーセットも増加しますが、速度への影響はさらに大きくなります。

ケース11と12もさらに複雑です。リカバリ速度を 5 分以内に制限しているため (オンライン シミュレーションでは、システムが不良ディスクを検出し、ディスクを自動的にキックし、その他の操作にも時間がかかるため)、これら 2 つのケースのコピー セットは非常に大きく、リカバリの同時実行性は非常に高くなります。ただし、5 分間の制限があるため、2 つのケースの回復速度は同じです。そのため、ケース 12 の PK コピーセットの数はケース 11 よりも少なくなるため、失われる可能性が低くなり、信頼性が高くなります。

VI.結論

  • まず、AFR が低いほど良いです。 AFR は、クラスター全体でディスク障害によって発生するデータ損失の可能性を直接決定する最大の要因です。

  • 2 つ目は回復速度です。サービス可用性指標に影響を与えないという前提の下、ディスク障害の回復帯域幅を最大化することは、クラスター データの信頼性を向上させるもう 1 つの重要な要素です。

  • リカバリ速度が制限されている場合、たとえば、システム アーキテクチャの設計により、不良ディスクの検出からディスクのキック、データ リカバリの開始までの時間が 5 分になる場合は、ディスク データの分散度を適度に減らすことで、コピー セットを削減できます。システムがシャード粒度またはブロック粒度に基づいている場合、ブロック粒度を上げてデータの分散度を下げることで、データの信頼性を向上させることができます。

<<:  カフカについて話しましょう!

>>:  ナンバーワンは誰ですか?中国のクラウド市場規模、2021年第1四半期に300億元を超える

推薦する

新しいLinodeの簡単なレビュー

私は 2011 年に Linode を使い始めましたが、ウェブサイトに収入がないときに自分のお金を使...

初心者のためのウェブサイトのBaiduの重みを改善する方法

実際、この記事のタイトルを見ると、初心者のウェブマスターとして、Baidu ウェイトとは何なのか疑問...

昆山農村商業銀行とテンセントクラウドは、新たな銀行インフラと新たな接続を共同で構築するための戦略的協定を締結した。

8月18日、テンセントクラウドと昆山農村商業銀行は正式に戦略協力協定を締結した。両者は、銀行プライベ...

小説を読んで学んだマーケティング手法

最近、私はいくつかの小説をフォローしています。これらの小説の中には、まだ連載中のものもあれば、更新さ...

Baidu の K ステーションが頻繁に禁止された場合、ウェブマスターはどのようにしてビジネスを拡大できるでしょうか?

ここ数日の調査とデータ収集によると、Kステーションの状況は依然として非常に深刻です。SEOデータ指標...

検索エンジンはどのようにしてサイトクラスターを検出するのでしょうか?

まず、Feng Cai Yi Yang がサイト クラスターとは何かを説明します。サイト クラスター...

vpsdime-15 USD/年/128 MB RAM/5 GB HDD/200 GB フロー/G ポート

vpsdime、実は皆さんがよくご存知のBackupsyなどと同じブランドです。現在とても有名です!...

Godaddy が立ち上げた .la ドメイン名/年間 30 ドルの支払い

Godaddy は、年間登録価格 29.99 米ドルで .la ドメイン名を開始しました。 .la ...

国内外の株式型クラウドファンディングサイトの生死物語

「違法な資金調達」のレッドライン撤廃へ、上限は500万にIT Times記者/李東、潘紹英長い待ち時...

鎧を身に着けて、Huawei Cloudは公共の安全をより安全にします

データは、企業の発展を推進する重要な生産要素であり、業界の変革と反復を促進する中核資産であり、我が国...

有名人がWeChatなどを密かに使いながら注目度の高い交流を推進!

みなさんこんにちは、シャオシです。莱王は今なお話題になっていますが、一般の人々にとってはまだ馴染みの...

新たな金融インフラの構築、テンセントクラウドが中国銀聯の銀聯クラウド構築を支援

5月18日、テンセントクラウドと中国銀聯は「銀聯クラウド」構築プロジェクトで正式に協力に達した。今回...

iQiyiの地域ブランドマーケティングを1枚の写真で理解しましょう!

大画面時代を迎え、スマートテレビが大人気。デジタルマーケティングの生命線をどう掴むのか?ブランドイメ...

勤勉なSEO担当者が上司に記事のランキングを上げる方法を教える

昨年6月28日以降、百度の度重なるアルゴリズム変更により、すべてのサイトが打撃を受け、仕事を探すしか...