分散ストレージシステムの信頼性をどのように評価するのでしょうか?

通常、構造化データベースストレージ (一般的な MySQL など)、ドキュメントベースの Nosql データベースストレージ (mongodb)、従来の BLOB ストレージシステム (GFS、Hadoop) など、ストレージシステムの信頼性を向上させるには、マルチコピーテクノロジを使用するのが一般的です。

データは企業の活力の中核とも言えるため、データストレージシステムの信頼性を確保することは、どの企業にとっても簡単なことではありません。

では、クラスターデータの信頼性をより正確に測定するにはどうすればよいでしょうか?クラスターデータの信頼性を高めるためにシステムをどのように設計すればよいでしょうか?この記事では、これらの質問に答えてみます。

[[214781]]

データ損失とレプリカセット

「999 台のディスクで構成される 3 コピーストレージシステムで、3 台のディスクが同時に故障した場合、データが失われる確率はどれくらいですか?」これはストレージシステムの設計と密接に関係しています。まず、2 つの極端な設計の状況を考えてみましょう。

設計 1: 999 個のディスクを 333 個のディスクペアにグループ化します。

この設計では、ディスクペアの 1 つが選択された場合にのみデータ損失が発生します。この設計では、データが欠損する確率は333/C(999,3) = 5.025095326058336*e-07です。

設計 2: データは 999 個のディスクにランダムに分散されます。

極端なケースでは、ランダムディスク上の論理データのレプリカが、クラスター内の 998 個のディスクすべてに分散されます。この設計では、データが失われる確率は C(999,3)/C(999,3)=1 となり、これは必ず存在することを意味します。

これら 2 つの極端な例から、データ損失の確率はデータの断片化の程度と密接に関係していることがわかります。以降の読み取りを容易にするために、レプリカセットという新しい概念を導入します。

コピーセット: データのすべてのコピーが含まれるデバイスの組み合わせ。たとえば、データがディスク 1、2、3 に書き込まれる場合、{1,2,3} はレプリケーショングループになります。

9 個のディスクのクラスターでは、レプリカセットの組み合わせの最小数は 3 で、レプリカセット = {1,2,3}、{4,5,6}、{7,8,9} です。つまり、データを書き込むために選択できるのは、レプリケーショングループの 1 つだけです。データ損失は、{1,2,3}、{4,5,6}、または {7,8,9} が同時に失敗した場合にのみ発生します。つまり、レプリカの最小数は N/R です。

システム内のレプリカの最大数は C(N,R) です。ここで、R はレプリカの数、N はディスクの数です。レプリカデータを書き込むためにノードが完全にランダムに選択されると、システム内のレプリカの数は最大値 C(N,R) に達します。つまり、任意の R ディスクを選択すると、これらの R ディスク上に一部のデータのコピーが 3 つ存在することになります。

N 個のディスクと R 個のレプリカを持つストレージシステムでは、レプリカの数は S、N/R < S < C(N, R) です。

ディスク障害とストレージシステムの信頼性の推定

1. ディスク障害とポアソン分布

関連する確率を正式に推定する前に、基本的な確率分布であるポアソン分布について学ぶ必要があります。ポアソン分布は主に、バス停で待っている乗客の数が特定の値である確率や、病院で 1 時間以内に N 人の新生児が生まれる確率など、システム内で発生するランダムイベントの確率を表します。

上記はポアソン分布の式です。このうち、P は確率、N は特定の関数関係、t は時間、n は量、λ はイベントの頻度を表します。

たとえば、1 年以内に 1,000 台のディスクのうち 10 台が故障する確率は P (N(365) = 10) です [注: t の平均単位は日数です]。 λ は、1 日以内の 1000 台のディスクのうち故障したディスクの数です。 Google の統計によると、年間の故障率は 8% なので、λ = 1000*8%/365 となります。

上記は、N 台のディスクが損傷する確率の単なる統計分析です。では、この式を使用して、分散システムにおけるデータの信頼性のおおよその値 (つまり、データ損失の確率) をどのように計算できるでしょうか?

2. 分散ストレージシステムにおける損失率の推定

2.1 T時間以内の故障率

分散ストレージシステムの年間故障率を推定する方法としては、まず、T が 1 年のときにシステムがデータでいっぱいになり、不良ディスクが処理されないという状況を想定します。この場合、データの年間故障率を計算します。

ここでまずいくつかの値を定義します

N: ディスクの数

T: 統計時間

K: 不良ディスクの数

S: システム内のレプリカセットの数（レプリケーショングループの数）

R: バックアップの数

T（1年）以内にデータが失われる確率を計算するにはどうすればよいでしょうか?確率統計の観点からは、T（1年）以内にデータ損失が発生する可能性のあるすべての事象を考慮することです。 N 個の冗長ディスク R を備えたシステムでは、T 時間内にデータ損失イベントが発生する可能性があります。つまり、不良ディスクの数が R 以上、つまり R、R+1、R+2、... N (つまり、すべてのイベントが区間 K∈[R,N] 内) になります。これらのランダムなイベントが発生した場合、どのような状況でデータ損失が発生しますか?はい、*** レプリケーショングループの場合はその通りです。

K 個の障害が発生した場合 (K 個のディスクがランダムに選択される)、*** レプリケーショングループの確率は次のとおりです。

p = X/C(N,K) ここで、XはK個のディスクをランダムに選択するプロセスにおけるレプリケーショングループの組み合わせの数です。

システム内の K ディスクの損傷によってデータが失われる確率は次のようになります。

Pa(T,K) = p * P(N(T)=K)

***時間 T 内にシステムでデータ損失が発生する確率は、データ損失を引き起こす可能性のあるすべてのイベントの確率の合計です。

Pb(T) = ΣPa(T,K) ; K∈[R,N]

2.2 分散システムの年間故障率の測定

上記では、1 年間にハードウェア障害が発生した場合でも、復旧対策が講じられないことを前提としています。次に、t に 1 を代入すると、このシステム状態における年間故障率を計算できます。ただし、大規模なストレージシステムでは、データが失われたときに回復プログラムが開始されることがよくあります。回復が完了すると、理論的には初期状態からのランダムなイベントになります。この要素を追加すると、信頼性の計算はより複雑になります。

理論的には、大規模ストレージシステムにおけるディスク障害と回復は、極めて複雑な連続イベントです。ここでは、統計計算のために、この確率モデルを異なる単位時間 T 内の離散イベントに簡略化します。 2 つの T 間の連続イベントの確率が極めて小さく、不良ディスクのほとんどが T 時間内に回復できる限り、次回の T は新しい状態から開始され、この推定によっておおよその正確さが保証されます。 T の単位は時間として定義されているため、1 年は 365*24/T の期間に分割できます。システムの年間故障率は、ユニット T の全期間で故障が発生しない確率を 100% から引いた値として理解できます。

つまり、システム全体でデータが失われる確率は、Pc = 1 - (1-Pb(T))*(36524/T) となります。

<<: クラウドコンピューティングはなぜ企業の間でこれほど普及したのでしょうか?

>>: UCloud CEO の Ji Xinhua 氏が「トップ 10 の革新的な経済人」賞を受賞