分散データベースのデータ一貫性の原則の説明と実装

[[206931]]

序文

分散データベースのデータ一貫性管理は、最も重要なコア技術の 1 つであり、分散データベースがデータベースの最も基本的な ACID 特性である「一貫性」を満たすことを保証するものでもあります。分散技術の発展に伴い、データの一貫性を保つためのソリューションと技術も絶えず進化しています。本稿では、筆者が実際に開発した分散データベースを事例として、分散データベースのデータ一貫性の原理と実際の実装について紹介します。

1. データの一貫性

1.1 データの一貫性とは何ですか?

従来のリレーショナルデータベースを使用するほとんどの DBA が「データ整合性」という用語を見ると、最初の反応はクロステーブルトランザクションにおけるデータ整合性のシナリオであると考えられます。ただし、この記事で紹介する「データの一貫性」とは、「データが複数のコピーで保存されている場合に、データの一貫性をどのように確保するか」というシナリオを指します。

ビッグデータの分野では、データのセキュリティはハードウェアではなく、ソフトウェアによって、つまり複数のコピーに同時にデータを書き込むことによって保証されるようになりました。データベースがレコードを同時に複数のコピーに書き込むときに、各コピーのデータの一貫性を確保する方法を「データ一貫性」と呼びます。

1.2 リレーショナルデータベースはどのようにしてデータの一貫性を確保するのでしょうか?

従来のリレーショナルデータベースでは、動作環境とハードウェアに対する要件が比較的高くなっています。たとえば、Oracle では、データベースの動作環境としてミニコンピュータ + 共有ストレージを使用することを推奨しています。 DB2 DPF では、データベース運用環境を構築するために、より高性能なサーバーとハイエンドのストレージを使用することも推奨されています。したがって、データストレージセキュリティの技術要件に基づき、従来のリレーショナルデータベースは、データセキュリティを確保するためにハードウェアテクノロジに大きく依存しています。

リレーショナルデータベースのデータセキュリティはハードウェアによって保証されており、複数のコピーを同時に保存してもデータセキュリティは保証されないため、リレーショナルデータベースのユーザーは、データストレージがデフォルトで一貫していると想定しています。

1.3 分散ストレージはどのようにしてデータの一貫性を確保するのでしょうか?

分散ストレージについて説明する場合、この記事では主に、SequoiaDB や HDFS などのビッグデータ製品の分散ファイルシステムと分散データベースについて言及します。

ユーザーが分散ストレージのデータ一貫性の原則を理解しようとする場合、まず、データ一貫性が必要な理由と、分散ストレージのデータストレージとリレーショナルデータベースのデータストレージの違いを理解する必要があります。

ビッグデータテクノロジーの誕生は、システムパフォーマンスに新たなブレークスルーをもたらし、ハードウェアの水平拡張をサポートして、パフォーマンスとストレージの直線的な成長を実現します。これらはすべて、従来のリレーショナルデータベースではこれまで提供できなかったものです。さらに、ビッグデータ技術は、動作環境が十分に良好でなければならないという厳格な要件も放棄し、代わりに、安価な X86 サーバー + ローカルディスクのバッチを通じて大規模なクラスターを構築できるようにし、ハードウェアの垂直拡張に依存することで、以前よりも強力なコンピューティングパワーとより多くのストレージスペースを獲得します。

ビッグデータ技術の核となる考え方は分散であり、大きなタスクを複数の小さなタスクに分割し、分散同時操作を通じてそれらを完了することで、システム全体のコンピューティング効率やストレージ容量を向上させます。分散環境では、ハードウェア要件が低いため、ビッグデータ製品は、データセキュリティという別の重要な機能を提供する必要があります。

ビッグデータ製品は、データセキュリティを解決する方法が比較的似ています。簡単に言えば、データのセキュリティを確保するために、データが複数のマシンに非同期または同期で保存されます。

データセキュリティの技術的な困難は解決されましたが、分散ストレージでは、複数のコピーでデータの一貫性をどのように確保するかという新たな技術的問題が生じています。現在、SequoiaDB は Raft アルゴリズムを使用して、複数のコピーにおけるデータの一貫性を確保しています。

2. ラフトアルゴリズム

2.1 ラフトアルゴリズムの背景

分散環境では、最適なコンセンサスアルゴリズムは Paxos アルゴリズムであるはずですが、あまりにもわかりにくく実装が難しいため、2013 年に Diego Ongaro と John Ousterhout は、理解しやすさを目標としたコンセンサスアルゴリズム Raft を設計しました。 Raft アルゴリズムは理解しやすく、実装も簡単です。

2.2 ラフトアルゴリズムの概要

Paxos とは異なり、Raft は理解しやすさを重視しています。 Paxos と同様に、Raft は n/2+1 個のノードが正常である限りサービスを提供できます。

問題が複雑になると、いくつかの小さな問題に分割できることはよく知られています。 Raft も分割統治の概念を使用します。 Raft アルゴリズムは、リーダー選出、ログ複製、安全性という 3 つのサブ問題の解決に重点を置いています。

Raft アルゴリズムはリーダーノードの機能を強化します。 Follower ノードのデータは Leader からのみ取得できるため、Follower ノードの実装が簡単になります。リーダーとの通信を維持し、リーダーによってプッシュされたデータを受け入れるだけで済みます。

2.3 ラフトアルゴリズムの原理

2.3.1 ノードの役割

Raft アルゴリズムでは、ノードのステータスはリーダー (***)、フォロワー、候補の 3 つの役割に分かれています。

リーダーは、クライアントからのリクエストの処理、フォロワーへのログの同期、フォロワーとのハートビート接続の確保を担当します。

フォロワー: クラスターが起動したばかりのときは、すべてのノードがフォロワー状態になります。主な仕事は、リーダーのログ同期要求に応答し、候補者の要求に応答し、フォロワーからリーダーへのトランザクション要求を転送することです。

リーダーを選出する際、候補者は投票する責任があります。リーダーが選出されると、ノードは候補状態からリーダー状態に変わります。

2.3.2 用語

分散環境において、「時間同期」は常に難しい技術的問題でした。この問題を解決するために、Raft は時間を Term (「論理時間」として理解できます) に分割し、異なる期間におけるデータの一貫性を処理します。

用語には以下の原則がある

各任期には最大1人のリーダーがいる
ある意味、選挙の失敗によりリーダーが不在となる可能性もある。
各ノードは独自のローカルcurrentTermを維持する
各項は連続して増加する数字です。
フォロワーのターム数が他のフォロワーのターム数よりも小さい場合、フォロワーのターム数は他のフォロワーのタームと一致するように更新されます。

2.3.3 選挙

Raft 選挙はタイマーによってトリガーされ、各ノードのトリガー時間は異なります。

最初はすべてのノードがフォロワー状態にあります。タイマーが選挙をトリガーすると、Term 番号が増加し、ノードの状態が Follower から Candidate に変わり、他のノードに対して RequestVote RPC 要求が開始されます。現時点では、選挙には 3 つの状況が考えられます。

RequestVote を開始したノードは、n/2+1 (半分以上) のノードから投票を受け取ります。ノードは候補状態からリーダー状態に変わり、リーダーの通常の状態を維持するために他のノードにハートビートを送信し始めます。

投票要求を受け取った後、ノードが投票を開始したノードの Term が自身の Term よりも大きいと判断した場合、ノードのステータスは候補からフォロワーに変更されます。それ以外の場合は、候補ステータスのままで、投票要求を拒否します。

選出中にタイムアウトが発生した場合、Term 番号が増加し、新しい選出が開始されます。

2.3.4 ログレプリケーション

ログレプリケーションの主な機能は、データの一貫性とノードの高可用性を確保することです。

リーダーが選出されると、すべてのトランザクション操作はリーダーによって処理される必要があります。これらのトランザクション操作が成功すると、順番に LOG に書き込まれます。各 LOG にはインデックス番号が含まれています。

ログが変更されると、リーダーは HeartBeat を通じて新しいログをフォロワーに同期します。 LOG を受信した後、フォロワーはリーダーに ACK メッセージを送信します。リーダーは、過半数 (2/n+1) のフォロワーから ACK 情報を受信すると、ログをコミット済みとして設定し、ログをローカルディスクに追加します。

同時に、リーダーはすべてのフォロワーに、次のハートビートでログをそれぞれのローカルディスクに保存するように通知します。

2.3.5 セキュリティ

安全性は、各ノードが同じログシーケンスに従って実行されることを保証するために使用される安全メカニズムです。

フォロワーがリーダーのログを同期できなかったが、将来リーダーとして選出された場合、以前のリーダーによってコミットされたログが上書きされ、ノードが異なる順序でログを実行する可能性があります。

Raft のセキュリティは、選出されたリーダーが以前にコミットされた LOG を必ず含むようにするためのメカニズムです。従うべき主な原則は次のとおりです。

任期ごとに選出できるリーダーは 1 人だけです。

リーダーログの整合性: 候補者がリーダーを再選する場合、新しいリーダーは以前にコミットしたログを含める必要があります。

候補者が新しいリーダーを選出する場合、Term を使用して LOG の整合性を確保します。

3. 分散データベースデータ一貫性技術の実装

国内分散データベース SequoiaDB を例にとると、SequoiaDB はマルチコピー展開で Raft アルゴリズムを使用して、マルチコピー環境でデータの一貫性が維持されるようにします。

SequoiaDB クラスターには、コーディネーションノード、カタログノード、データノードの 3 種類のノードが含まれています。コーディネータノード自体はデータを保存しないため、カタログノードとデータノードのみがトランザクション操作を実行します。つまり、カタログパーティショングループとデータパーティショングループのレプリカ同期では、Raft アルゴリズムを使用してデータの一貫性が確保されます。

3.1 カタログノードとデータノードのトランザクションログの概要

カタログノードとデータノードの両方にデータを保存する必要があり、クラスター展開では、データのセキュリティを確保するために、分散方式で展開することをお勧めします。したがって、データ同期では、Raft アルゴリズムの基本原理をデータ同期に使用する必要があります。

データを保存する場合、カタログノードとデータノードには 2 つの主要部分が含まれます。1 つは実際のデータファイルで、もう 1 つはトランザクションログファイルです。

デフォルトでは、SequoiaDB ノードのトランザクションログは 64 MB のファイル 20 個 (合計サイズ 1.25 GB) で構成されます。ノードのトランザクションログには主にインデックス番号とデータ操作内容が含まれており、インデックス番号は永久に増加し続けます。

また、SequoiaDB ノードのトランザクションログは永続的に保存されません。代わりに、すべてのトランザクションログがいっぱいになると、最初のファイルから再度上書きされます。

3.2 カタログパーティショングループのデータ一貫性

カタログパーティショングループには SequoiaDB クラスターのメタデータが格納され、高いデータ同期要件があるため、カタログパーティショングループのデータ一貫性要件は強力な一貫性です。つまり、カタログパーティショングループに対してトランザクション操作が実行されるたびに、操作が成功したと見なされる前に、すべてのカタログノード操作が成功していることを確認する必要があります。それ以外の場合、トランザクション操作は、カタログパーティショングループ全体のトランザクションログをロールバックし、パーティショングループ内のデータの一貫性を確保します。

さらに、カタログパーティショングループには別の重要な機能があります。カタログパーティショングループが適切に機能するには、マスターノードが必要です。古いマスターノードがダウンし、カタログパーティショングループに一時的にマスターノードが存在しない場合、カタログパーティショングループは外部に対してトランザクション操作やデータクエリ操作を提供できません。

3.3 データパーティショングループのデータ一貫性

データパーティショングループのデータ一貫性は、デフォルトでは最終的な一貫性です。つまり、マスターノードがトランザクションを正常に実行した場合にのみ、操作は成功したと見なされます。将来、マスターノードは ReplicaLOG をスレーブノードに非同期的に同期します。

3.4 マスターノードとスレーブノード間のトランザクションログの同期

SequoiaDB のマスターノードとスレーブノードは、トランザクションログの同期を通じてデータの一貫性を確保し、マスターノードとスレーブノードのトランザクションログの同期は 1 つのスレッドで完了します。

マスターノードとスレーブノード間の LSN の差が 1 レコードの場合、マスターノードは最新のトランザクションログをスレーブノードにアクティブにプッシュします。

マスターノードとスレーブノード間の LSN の差が 1 レコードを超える場合、スレーブノードはマスターノードにトランザクションログの同期を積極的に要求します。マスターノードは、同期要求を受信すると、スレーブノードの LSN 番号に対応するトランザクションログをマスターノードの最新の LSN 番号にパッケージ化し、一度にスレーブノードに送信します。

3.5 スレーブノードのログを再生する

スレーブノードは、マスターノードによってプッシュされたトランザクションログを取得すると、自動的にトランザクションログを解析して再生します。スレーブノードがトランザクションログを再生する場合、デフォルトでは同時実行数 10 でトランザクションログを再生します。

同時ログ再生を実行する場合、スレーブノードには条件付きの制限があります。つまり、コレクション内の一意のインデックスの数が 1 以下の場合、INSERT、DELETE、UPDATE、LOB WRITE、LOBUPDATE、および LOB REMOVE 操作は、トランザクションログの同時再生をサポートできます。スレーブノードが同時再生を実行する場合、記録された OID によって同時実行を分割し、同じレコードに対する操作によって同時再生によるデータの不整合が発生しないようにします。

ただし、スレーブノードがトランザクションログを再生している場合、DROP CL 操作は同時再生をサポートできないことに注意する必要があります。

4. SequoiaDB データ整合性アプリケーション

現在、SequoiaDB データパーティショングループのデータ一貫性はコレクションレベルで構成されています。 SequoiaDB を使用する場合、ユーザーはいつでもデータ一貫性の強さを調整できます。

4.1 コレクションを作成するときに指定する

マルチレプリカ SequoiaDB クラスターでは、コレクションのデフォルトのデータ整合性レベルは「最終的な整合性」です。コレクションを作成するときに、コレクションの「データ一貫性の強度」を明示的に指定できます。たとえば、SequoiaDB Shell で次のコマンドを実行できます。

db.CSNAME.createCL("CLNAME",{ReplSize:3})

ReplSizeパラメータの入力範囲

4.2 既存のコレクションの変更

コレクションの作成時に「データ整合性」ReplSize パラメータが設定されていない場合、ユーザーは既存のコレクションを変更することもできます。 SequoiaDB Shellの変更コマンドは次のとおりです。

db.CSNAME.CLNAME.alter({ReplSize:3})

ReplSize の値の範囲は、コレクションを作成するときと同じです。

4.3 コレクションのReplSizeパラメータを表示する方法

ユーザーが現在のコレクションの RepliSize パラメータ値を確認したい場合は、データベーススナップショットを通じてそれを表示できます。 SequoiaDB Shellで表示するコマンドは次のとおりです。

 db.snapshot(SDB_SNAP_CATALOG,{}, { "名前" : null 、 "IsMainCL" : null 、 "MainCLName" : null 、 "ReplSize" : null })

印刷情報は以下の通りです

{ 
 
 "MainCLName" : "test.main2" 、 
 
 「名前」 : 「foo.bar2」 、 
 
 "IsMainCL" : null 、 
 
 「ReplSize」 : null   
 
 } 
 
 { 
 
 "IsMainCL" : true 、 
 
 「名前」 : 「test.main2」 、 
 
 "MainCLName" : null 、 
 
 「ReplSize」 : null   
 
 } 
 
 { 
 
 「名前」 : 「foo.tt」 、 
 
 「ReplSize」 : 3, 
 
 "IsMainCL" : null 、 
 
 "MainCLName" : null   
 
 }

5. 結論

分散データベースは、分散状況でのデータの一貫性を確保するために Raft アルゴリズムを使用します。カタログパーティショングループとデータパーティショングループでは、データの一貫性に関する要件が異なります。カタログパーティショングループでは常に複数のコピーで強力なデータ一貫性が求められますが、データパーティショングループはコレクションの作成時にユーザーが強制できます。強度が高ければ高いほど、データのセキュリティは向上しますが、実行効率は相対的に低下します。逆もまた同様です。

現在、SequoiaDB は、データ一貫性シナリオにおいてユーザーに多くの調整の余地を提供しています。ユーザーは、さまざまなビジネス要件に応じてデータ一貫性の強度を調整し、ビジネスを満たしたり、最適なパフォーマンスや最も安全なデータ技術要件を追求したりすることができます。

<<: 分散ストレージシステムHBaseのアーキテクチャ

>>: ガートナーは、クラウドコンピューティング市場が2020年に4,110億ドルに達すると予測している。

テンセントクラウドとスマートアイテクノロジーは、自動化とインテリジェントな品質検査の課題を克服するために、Tenghui Feitong AI品質検査機器を共同でリリースしました。

分散データベースのデータ一貫性の原則の説明と実装

テンセントクラウドとスマートアイテクノロジーは、自動化とインテリジェントな品質検査の課題を克服するために、Tenghui Feitong AI品質検査機器を共同でリリースしました。

AppleはiOS 6で新しいマッピング技術を取得する予定と報じられている

Huayun Data: ping が失敗した場合は、家主に問い合わせてください - ping パケットからネットワーク転送の原理を分析する

エッジコンピューティングの 5 つのベストユースケース

Directspace - 年間 15 ドル、768M メモリ/西海岸ポートランド

「InnoCloud」がデビュー、データセンターのクラウド化の進化を強力に推進

光技術の革新がクラウドインフラストラクチャのパフォーマンス、容量、回復力を向上させる

検索エンジンの今後の発展方向についての簡単な議論

ソフト記事プロモーション：ユーザー理解からコミュニケーション分裂まで、重要な要素とは？

アニメウェブサイトのユーザーの定着率と忠誠度に影響を与える6つの要因

推薦する

注: Baidu Webmaster Platformの「ハッキングアラートと不正行為アラート」機能が本日正式にリリースされました

年末レビュー: 2023 年に注目すべきクラウドセキュリティスタートアップ 10 社

仮想化を学んだとしても、まだ分からないことがあります。

JVM の全体的な構造、実行プロセス、および 2 つのアーキテクチャモデルの図解による説明。学びましたか？

ホストオンはどうですか?ニューヨークデータセンターのVPSの簡単なレビュー

クラウドにおけるアプリケーションの依存関係の管理: 戦略とベストプラクティス

テスラが自動車販売を再開

キーワードランキングを維持する方法

VPS でデータをバックアップするにはどうすればいいですか?

ブランド構築におけるブランドワードの役割

有名人のブログから独立したブログの発展を探る

Linkerd 2.10 (ステップバイステップ) - Linkerd による分散トレース

無線ネットワーク向け将来の通信インフラの革新

#BlackFriday# hosthatch: 素晴らしいものがいっぱい、年間 16 ドル、KVM/1G メモリ/1 コア/15gNVMe/1T トラフィック。超大容量ハードドライブ VPS もあります

ニュース：BandwagonHostの公式サイトのドメイン名は「言葉にできない」、最新のドメイン名は2月27日に使用される予定