分散ストレージシステムの機能に関する簡単な説明

異常分類

分散ストレージシステムが重点を置く例外の種類は、モノリシックシステムの場合とは異なります。それらは次のとおりです。

サーバーのダウンタイム: ストレージシステムを設計するときは、永続的なメディア (機械式ハードドライブやソリッドステートドライブなど) からデータを読み取ってメモリ情報を復元する方法を考慮する必要があります。
ネットワーク異常: フォールトトレラントシステムを設計する際の基本原則は、ネットワークは常に信頼できないということです。メッセージは、相手からの返信を受け取った場合にのみ、正常に送信されたとみなされます。システムを設計する際には、ネットワークに異常が発生することを常に想定し、それに応じた対策を講じます。
ディスク障害: ディスクデータエラーは、多くの場合、チェックサムメカニズムを使用して解決できます。

例外に加えて、「タイムアウト」状態もあります。 RPC 実行の結果には、「成功」、「失敗」、「タイムアウト」(不明な状態) の 3 つの状態があり、これらは分散ストレージシステムの 3 つの状態とも呼ばれます。

[[206045]]

一貫性の保証

レプリケーションは、分散ストレージシステムにおけるフォールトトレランスの唯一の手段です。複数のレプリカが存在するため、レプリカ間の一貫性をどのように確保するかが、分散システム全体の理論的な中核となります。クライアントの観点から見ると、一貫性には次の 3 つの状況が含まれます。

1. 強い一貫性:

2. 一貫性が弱い:

3. 結果的一貫性: 結果的一貫性は弱い一貫性の特殊なケースです。「最終的な」一貫性には「不整合ウィンドウ」（時間遅延）があります。結果的一貫性の説明は比較的大まかですが、一般的なバリエーションは次のとおりです。

書き込みの一貫性の読み取り
セッション一貫性
単調な読み取り一貫性
単調な書き込み一貫性

ストレージシステムの観点から見ると、一貫性には主に次の側面が含まれます。

1) レプリカの一貫性: ストレージシステムの複数のレプリカ間のデータが一貫しているかどうか、一貫性のない時間ウィンドウなど。

2) 更新順序の一貫性: ストレージシステムの複数のコピーが同じ順序で更新操作を実行するかどうか。

メトリクス

分散ストレージシステムを評価するために一般的に使用される指標がいくつかあります。

パフォーマンス: スループット (QPS、TPS)、応答遅延。

可用性: システムの可用性は、システムが稼働していない時間と通常稼働している時間の比率で測定できます。

一貫性: 一貫性モデルが強力であればあるほど、ユーザーにとって使いやすくなります。システムが同じデータセンターに導入されている場合、システムが合理的に設計され、強力な一貫性が確保されている限り、パフォーマンスと可用性に大きな影響はありません。

スケーラビリティ: システムのスケーラビリティとは、クラスターサーバーの規模を拡大することで、システムのストレージ容量、コンピューティング能力、パフォーマンスを向上させる分散ストレージシステムの能力を指します。

パフォーマンス分析

一般的に言えば、分散システムのパフォーマンス分析の結果は不正確です。ただし、少なくとも推定結果が実際の値と桁違いに異なることはないと保証できます。たとえば、Google の BigTable でのランダム書き込みとシーケンシャル書き込みのパフォーマンスは似ています。書き込み操作では、まず操作ログを GFS に書き込み、次にローカルメモリを変更する必要があります。パフォーマンスを向上させるために、BigTable はグループ化されたヒントテクノロジを実装します。

ストレージシステムの基盤となる設計と実装を理解し、それを実際に継続的に実践することによってのみ、パフォーマンスの推定はより正確になります。

データ配信

1. ハッシュ分散（代表例：Dynomo）：ハッシュ関数のハッシュ特性が優れている場合、ハッシュ方式はクラスター内でデータをより均等に分散できます。ただし、ハッシュ特性が優れたハッシュ関数を見つけるのは困難です。これは、主キーに従ってハッシュ化を行うと、同じユーザー ID のデータが複数のサーバーに分散され、同じユーザー ID の複数のレコードを一度に操作することが困難になるためです。ユーザー ID に従ってハッシュ化を実行すると、「データスキュー」問題が発生しやすくなります。つまり、一部の大規模ユーザーのデータ量は非常に大きく、クラスターの規模に関係なく、これらのユーザーは常に 1 つのサーバーによって処理されます。もう 1 つのアイデアは、分散ハッシュテーブル (DHT) アルゴリズム (時計回りの検索) を使用することです。一貫性ハッシュの利点は、ノードが追加または削除された場合、ハッシュリング内の隣接ノードにのみ影響し、他のノードには影響がないことです。一貫性のあるハッシュアルゴリズムにより、データの移行が大幅に回避されます。 Dynamo システムは、時間のためにスペースを犠牲にし、各サーバー上でクラスター全体のすべてのサーバーの位置情報を保持し、サーバーの検索にかかる時間の複雑さを O(l) に削減します。一貫性のあるハッシュでは、負荷分散も考慮する必要があります。より良いアプローチは、「仮想ノード」の概念を導入することです。

2. シーケンシャル分散（代表例：BigTable）：ハッシュハッシュはデータの秩序性を破壊し、ランダム読み取り操作のみをサポートし、シーケンシャルスキャンはサポートしません。分散テーブルシステムでは、順次分散が一般的です。一般的なアプローチは、大きなテーブルを連続した範囲に順番に分割し、各範囲をサブテーブルと呼ぶことです。 Bigtable は、主キーに基づいて大きなテーブルを順序付けられた範囲に分割し、各順序付けられた範囲がサブテーブルになります。より大きなクラスターサイズをサポートするために、Bigtable などのシステムでは、インデックスをルートテーブルとメタデータテーブル (メタテーブル) の 2 つのレベルに分割します。 Meta テーブルは、User テーブルの場所情報を保持します。シーケンシャル分散は、B+ ツリーデータ構造に似ています。各サブテーブルはリーフノードに相当します。データが挿入および削除されると、一部のサブテーブルが非常に大きくなり、一部のサブテーブルが非常に小さくなる可能性があり、その結果、データの分散が不均一になります。順次配布を使用する場合は、システムを設計するときにサブテーブルの分割と結合を考慮する必要があります。サブテーブルをマージする目的は、システム内に小さなサブテーブルが多すぎるのを防ぎ、システム内のメタデータを削減することです。

3. 負荷分散: 動作中のノードは、CPU、メモリ、ディスク、ネットワークなどのリソースの使用状況、読み取りおよび書き込み時間、読み取りおよび書き込みデータ量などのノード負荷に関連する情報を、ハートビートパケット (Heartbeat、定期的に送信される) を通じてマスターノードに送信します。負荷分散操作はリズムを制御し、比較的スムーズに行う必要があります。一般的に、新しいマシンが追加されてから、クラスターの負荷が比較的バランスの取れた状態になるまでには、30 分から 1 時間といった長い時間がかかります。

コピー

レプリケーションプロトコルには、図 1 に示すように、強力な同期レプリケーションと非同期レプリケーションの 2 種類があります。

図1 マスタースレーブレプリケーションプロトコルのデモンストレーション

強力な同期レプリケーションと非同期レプリケーションはどちらも、プライマリレプリカのデータを何らかの形式で他のレプリカに送信します。このレプリケーションプロトコルはプライマリベースプロトコルと呼ばれます。この方法では、書き込み操作の順序を決定するプライマリレプリカは常に 1 つだけ存在する必要があります。プライマリレプリカに障害が発生した場合は、バックアップレプリカを新しいプライマリレプリカとして選択する必要があります。この操作は選挙と呼ばれ、古典的な選挙プロトコルは Paxos プロトコルです。

プライマリコピーとバックアップコピー間のレプリケーションは、通常、操作ログを通じて実行されます。操作ログの原理は非常に単純です。ディスクの順次読み取りおよび書き込み特性を有効活用するために、クライアントの書き込み操作は最初にディスクに順次書き込まれ、次にメモリに適用されます。メモリはランダムに読み書きされるデバイスであるため、B+ ツリーなどのさまざまなデータ構造を通じてデータを効率的に整理することが容易です。サーバーがクラッシュして再起動した場合は、操作ログを再生するだけでメモリ状態を復元できます。システムの同時実行性を向上させるために、システムは一定量の操作ログを蓄積し、それらを一括してディスクに書き込みます。この技術は一般にグループ提出と呼ばれます。

サーバーに障害が発生するたびにすべての操作ログを再生する必要がある場合、効率が悪くなります。チェックポイントは、この問題を解決するために設計されています。システムは、メモリの状態をチェックポイントファイルの形式で定期的にディスクにダンプし、チェックポイントの瞬間に対応する操作ログの再生ポイントを記録します。チェックポイントファイルが正常に作成された後、再生ポイントより前のログをガベージコレクションできます。将来サーバーに障害が発生した場合、チェックポイント以降の操作ログのみを再生する必要があります。（「チェックポイント」以降のデータのみがメモリ内にあります）

分散ストレージシステムでは、自動フォールトトレランス、つまり CAP 理論の「パーティショントレランス」を常に満たす必要があるため、一貫性と書き込み操作の可用性を同時に満たすことはできません。たとえば、Oracle Database の DataGuard レプリケーションコンポーネントには、次の 3 つのモードが含まれています。

最大保護モード: つまり、強力な同期レプリケーションモードです。書き込み操作では、操作ログをクライアントに正常に返す前に、プライマリデータベースが操作ログ (データベースの redo/undo ログ) を少なくとも 1 つのスタンバイデータベースに同期する必要があります。

最大パフォーマンスモード: 非同期レプリケーションモードでは、プライマリデータベースで書き込み操作が正常に実行されるだけで、クライアントに成功メッセージが返されます。

最大可用性モード: 上記の 2 つのモードの妥協点です。

フォールトトレランス

一般的な障害の中で、単一マシン障害とディスク障害の発生確率が最も高くなります。分散システムでは、リースメカニズムを通じて障害検出を実行できます。

リースメカニズムは、タイムアウト付きの認証の一種です。マシン A がマシン B に障害があるかどうかを検出する必要がある場合、マシン A はマシン B にリースを発行できます。マシン B はリースの有効期間内にのみサービスを提供できます。それ以外の場合は、自動的にサービスの提供を停止します。リースの仕組みを実装する際には、前払い金額を考慮する必要があることに注意してください。

障害回復中、マスター制御ノードは通常、1 時間などの一定期間待機する必要があります。以前オフラインだったノードがオンラインに戻った場合、一時的な障害とみなすことができます。それ以外の場合は、永久的な障害とみなされます。停止時間は、障害検出時間と障害回復時間の 2 つの部分で構成されます。障害検出時間は通常、数秒から 10 秒以上であり、これはクラスターのサイズと密接に関係しています。クラスターのサイズが大きいほど、障害検出がマスター制御ノードに与える負荷が大きくなり、障害検出時間が長くなります。

図2 障害回復

スケーラビリティ

ほとんどの分散ストレージシステムには、マスター制御ノードが装備されています。これを踏まえると、マスター制御ノードにはボトルネックの問題があり、分散型 P2P アーキテクチャの方が利点が多いと多くの人が当然考えるでしょう。しかし、そうではありません。主流の分散ストレージシステムのほとんどにはマスター制御ノードがあり、数万ユニットのクラスターをサポートできます。スケーラビリティは、ノード障害後の回復時間、容量拡張の自動化の程度、容量拡張の柔軟性などを総合的に考慮する必要があります。

分散ストレージシステムには、データ分散情報を維持し、ワーカー管理、データの場所、障害検出と回復、負荷分散などのグローバルスケジューリングタスクを実行するために使用されるマスターコントロールノードが存在することがよくあります。マスター制御ノードを導入することで、システム設計が簡素化され、強固な一貫性とユーザーフレンドリーな操作性を実現しやすくなります。それで、マスター制御ノードはパフォーマンスのボトルネックになるのでしょうか?マスター制御ノードがボトルネックになる場合、たとえば 10,000 台を超えるデバイスのクラスターサイズをサポートする必要がある場合や、多数の小さなファイルをサポートする必要がある場合は、図 3 に示すように 2 レベル構造を採用できます。

図3 2レベルのメタデータ構造

データベースを拡張する際に、システムの読み取り容量が不足する場合は、レプリカを追加することで解決できます。システムの書き込み容量が不足する場合は、業務の特性に応じてデータを再分割することができます。一般的な方法は、容量を 2 倍にすること、つまり各シャードのデータを 2 つのシャードに分割することです。拡張プロセス中に、データの半分を新しく追加されたストレージノードに移行する必要があります。従来のデータベースアーキテクチャでは、スケーラビリティに関して次のような問題があります。

1. 容量拡張の柔軟性が十分ではありません。

2. 容量拡張が十分に自動化されていません。

3. コピー時間を長くします。

同じグループ内のノードは同じデータを提供するため、このようなシステムは同種システムと呼ばれます。同種システムの問題は、レプリカを追加するときに移行する必要があるデータの量が多すぎることです。データのコピー処理中にストレージノードが再び障害を起こす可能性が非常に高いため、このようなアーキテクチャは自動化が難しく、大規模な分散ストレージシステムには適していません。異機種混合システムでは、データを同様のサイズの多数のシャードに分割し、各シャードの複数のコピーをクラスター内の任意のストレージノードに分散できます。クラスター全体がノードの障害回復プロセスに参加するため、障害回復時間は非常に短く、クラスターのサイズが大きいほどその利点は明らかになります。

図4 同質システムと異質システムの違い

分散プロトコル

コンピュータの世界では、一つの問題を解決すると、他の問題も発生します。これは、IT アーキテクチャが常にバランスの芸術であることを別のレベルから証明しています。

「BASE」の核となる考え方は、ビジネス特性に応じて適切な方法を使用してシステムが最終的な一貫性を実現するようにすることです。インターネット分野では、通常、システムの高可用性と引き換えに強力な一貫性を犠牲にする必要があります。データの「最終的な一貫性」を確保することだけが必要ですが、この最終時間はユーザーが許容できる範囲内である必要があります。しかし、金融関連の取引の分野では、取引の正確性と信頼性を確保するために、依然として強力な一貫性方式を使用する必要があります。

業界には、2 フェーズコミット、3 フェーズコミット、Sagas ロングトランザクション、補正モード、信頼性の高いイベントモード (ローカルイベントテーブル、外部イベントテーブル)、信頼性の高いイベントモード (非トランザクションメッセージ、トランザクションメッセージ)、TCC、Paxos とその関連バリアントなど、一般的なトランザクション処理モードが多数あります。異なるトランザクションモデルは、異なるデータ一貫性をサポートします。ここでは各プロトコルについて詳しく説明しません。分散ストレージに関しては、2 フェーズコミットプロトコルと Paxos プロトコルが最も一般的に使用されています。以下では、これら 2 つのプロトコルに焦点を当てます。

1. 2 フェーズコミット (2PC): 分散トランザクションを実装するためによく使用されます。 2 フェーズプロトコルでは、システムには通常 2 種類のノードが含まれます。1 つはコーディネーターで、通常、システム内に 1 つだけ存在します。もう 1 つはトランザクション参加者 (コホートまたはワーカー) であり、通常は複数の参加者が含まれます。

このプロトコルでは、各ノードが操作ログを記録し、それを不揮発性ストレージメディアに保存することを想定しているため、ノードに障害が発生してもログが失われることはありません。提出フェーズでは、コーディネーターが第 1 フェーズの投票結果に基づいて、提出するかキャンセルするかを決定します。また、トランザクションタイムアウトメカニズムを導入することで、リソースを解放できない状況を防ぐことができます。

2 フェーズコミットプロトコルでは、次の 2 種類の障害が発生する可能性があります。

トランザクション参加者が失敗しました。各トランザクションにタイムアウトを設定します。トランザクション参加者が応答しない場合は、タイムアウト期間後にトランザクション全体が失敗します。

コーディネータが失敗しました。コーディネーターは、トランザクション関連の情報を操作ログに記録し、バックアップコーディネーターと同期する必要があります。コーディネーターが失敗した場合、バックアップコーディネーターが引き継いで後続の作業を完了できます。バックアップコーディネーターが存在せず、コーディネーターが永久に失敗した場合には、トランザクション参加者はトランザクションを完了できず、永久に待機する必要があります。

要約すると、2 フェーズコミットプロトコルはブロッキングプロトコルです。

2. Paxos プロトコル: 複数のノード間の一貫性の問題を解決するために使用されます。複数のノード間の操作ログの一貫性が保証されている限り、分散ロックサービス、グローバル命名および構成サービスなどの高可用性グローバルサービスをこれらのノード上に構築できます。高可用性を実現するために、マスターノードは操作ログの形式でスタンバイノードにデータを同期することがよくあります。マスターノードに障害が発生した場合、スタンバイノードが自身をマスターノードにすることを提案します。ネットワークが分割されている場合、プライマリノードになることを提案するスタンバイノード (Proposer) が複数存在することがあります。 Paxos プロトコルは、複数の提案者が同時に存在する場合でも、すべてのノードが最終的に合意に達し、一意のマスターノードを選出できることを保証します。

（３）Paxosと2PCの違い：Paxosプロトコルと2PCプロトコルは分散システムにおいて異なる役割を果たします。 Paxos プロトコルは、同じデータシャードの複数のコピー間のデータの一貫性を確保するために使用されます。この要件は、これらのレプリカが異なるデータセンターに分散されている場合に特に強くなります。 2PC プロトコルは、複数のデータシャードに対する操作のアトミック性を保証するために使用されます。これらのデータフラグメントは異なるサーバーに分散される可能性があり、2PC プロトコルにより、複数のサーバーでの操作がすべて成功するか、すべて失敗することが保証されます。

Paxos プロトコルには 2 つの用途があります。1 つは、Google Chubby や Apache Zookeeper などのグローバルロックサービスまたは命名および構成サービスを実装するために使用することです。もう 1 つの用途としては、Google Megastore や Google Spanner などの複数のデータセンターにユーザーデータを複製するために使用することが挙げられます。

2PC プロトコルの最大の欠点は、コーディネータのクラッシュの問題に対処できないことです。コーディネータがダウンした場合、2PC プロトコルの各参加者は、トランザクションをコミットするかロールバックするかを認識できない可能性があります。プロトコル全体がブロックされ、実行プロセス中に要求されたリソースを解放できません。したがって、一般的な方法は、2PC と Paxos プロトコルを組み合わせ、2PC を使用して複数のデータシャードに対する操作の原子性を保証し、Paxos プロトコルを使用して同じデータシャードの複数のコピー間の一貫性を実現することです。さらに、Paxos プロトコルは、2PC プロトコルにおけるコーディネータのダウンタイムの問題を解決するために使用されます。 2PC プロトコルのコーディネータに障害が発生すると、Paxos プロトコルを通じて新しいコーディネータが選出され、サービスの提供を継続します。

データセンター間の展開

コンピュータルーム間のデータ同期モードは、強力な同期または非同期になります。非同期モードを使用すると、バックアップコンピュータルームのデータはメインコンピュータルームのデータより常に遅れます。強力な同期モードを使用すると、バックアップコンピュータルームのデータはメインコンピュータルームのデータと一致します。メインコンピュータ室に障害が発生した場合、手動切り替えに加えて、分散ロックサービスを使用してメインコンピュータ室のサービスを検出する自動切り替えも使用できます。メインコンピュータ室に障害が発生した場合、バックアップコンピュータ室が自動的にメインコンピュータ室に切り替わります。

<<: 新しいインターネット時代の鼓動を感じてください

>>: Dockerイメージ保存メカニズム

分散ストレージシステムの機能に関する簡単な説明

ジュメイ・ユーピンの強さが証明する：チャンスの背後には知恵がある

高級ワインをWeChatで販売するのは信頼できるでしょうか?

オブザーバビリティサミット2023登録開始

石玉珠は3時間で213万を売り上げ、優美ドットコムは15％を請求し法律違反の疑い

鉄道省の12306ウェブサイトに誤りがあります：到着時刻が出発時刻より早いです

Baidu の入札、海、陸、空、全軍の作戦を正しく理解して ROI を向上させる

2022年第17回中国企業年次選考リストが発表されました：マクロシャンテクノロジーのMacroCosm27000ビエンチャン分散ストレージが2022年中国IT産業超大規模分散ストレージ優秀製品賞を受賞

メガレイヤーはどうですか？米国サンノゼ標準ネットワーク回線評価

Oracle Marketing Cloudは、精密なトラフィックの迂回と重要なインキュベーションを利用して、シスコの新しい効率的なカスタマージャーニーを実現します。

クラウド時代のインターネットジャンル

推薦する

百度が市場支配を取り戻す、360度検索市場は下降傾向

Krypt Ion Cloud: シンガポールデータセンターの CN2 ネットワーククラウドサーバーの簡単なレビュー

ginernet - 9.9 ユーロ/年/512 MB メモリ/5 GB SSD/100 GB トラフィック/スペイン

SEOトレーニングに参加する目的は最適化の方法を学ぶことなのか、それとも最適化のアイデアを学ぶことなのかについて

「お父さん、どこへ行くの？」を観て、マーケティングとプロモーションについて学びましょう

企業のウェブサイトがオンラインとオフラインを統合したウェブサイトを構築したい場合、試してみる価値があります。

初心者がオリジナル記事を書くための3つのポイントを簡単に分析

デスクトップ仮想化における3D仮想化ソリューションの体験概要

zji: 香港アリババクラウドCN2、625元/月、2*e5-2630L/32gメモリ/1TSSD/10M帯域幅。香港葵湾CN2専用サーバーのみ348元/月

Facebookが中国進出のために中国のウェブサイトを買収するかもしれないとの噂

ブランドは中国のバレンタインデー期間中のマーケティング機会をどのように活用するのでしょうか?来て学んでください。

FinOpsクラウドコスト最適化は無視できない

Alibaba Cloud Disk はなぜこんなに高速なのでしょうか? 「クラウド・ネットワーク・エッジ・エンド」技術連携が初めて発表された

高い志から挫折まで、ブログ運営の本質とは？

VPSクラウドブランドcloudconeの簡単な紹介と5ドルのテストクーポンの送信