Hadoop 分散ファイルシステム - RAID から始める

Hadoop 分散ファイルシステム - RAID から始める

ビッグデータ技術が解決しなければならない主な問題は大規模データの計算処理であるため、最初に解決すべき問題は大規模データの保存です。大規模データストレージが解決する必要がある主要な問題は 3 つあります。

データ保存容量の問題。ビッグデータはPB規模のデータを計算する問題を解決するものであり、一般的なサーバーのディスク容量は通常1〜2TBであるため、このような大量のデータをどのように保存するのでしょうか。

データの読み書き速度については、一般的なディスクの連続読み書き速度は数十MBです。この速度では、数十 PB のデータの読み取りと書き込みにはおそらく永遠にかかるでしょう。

データの信頼性の問題に関して言えば、ディスクはおそらくコンピュータ機器の中で最も脆弱なハードウェアです。ウェブサイトでは、ディスクの耐用年数は約1年です。ディスクが破損した場合、データはどうなりますか?

ビッグデータ技術が登場する前は、人々はこれらのストレージの問題に直面しており、それに対応する解決策が RAID 技術でした。

[[235495]]

RAIDから始めましょう

RAID (Redundant Array of Independent Disks) テクノロジーは、主にストレージ容量、ディスクの読み取りおよび書き込み速度を向上させ、ディスクの可用性と耐障害性を強化するために使用されます。現在、サーバーレベルのコンピューターは複数のディスク(8 台以上)の挿入をサポートしており、RAID テクノロジを使用することで、複数のディスク上のデータの同時読み取りと書き込み、およびデータのバックアップを実現できます。

図に示すように、一般的に使用される RAID テクノロジはいくつかあります。

サーバーに N 個のディスクがあると仮定します。

0 の

データがメモリ バッファからディスクに書き込まれるとき、ディスクの数に応じて N 個の部分に分割されます。これらのデータは N 台のディスクに同時に書き込まれるため、全体的なデータ書き込み速度は 1 台のディスクの N 倍になります。読み取り時も同様で、RAID0 はデータの読み取りと書き込みの速度が非常に速いですが、RAID0 ではデータのバックアップは行われません。 N 台のディスクのうち 1 台が破損すると、データの整合性が破壊され、すべてのディスク上のデータが破損します。

1.RAID1 とは

データがディスクに書き込まれると、1 つのコピーが同時に 2 つのディスクに書き込まれるため、いずれかのディスクが損傷してもデータが失われることはありません。新しいディスクを挿入すると、データをコピーして自動的に修復できるため、信頼性が極めて高くなります。

RAID10

RAID0 と RAID1 を組み合わせると、すべてのディスクが 2 つの均等な部分に分割され、両方のディスクに同時にデータが書き込まれます。これは RAID1 と同等です。ただし、各ディスクの N/2 ディスクでは、同時読み取りと書き込みに RAID0 テクノロジが使用されるため、信頼性が向上するだけでなく、パフォーマンスも向上します。ただし、RAID10 ではディスク使用率が低く、ディスクの半分がバックアップ データの書き込みに使用されます。

RAID3

一般的に、サーバー上の 2 つのディスクが同時に損傷することはありません。 1 つのディスクのみが破損した場合、破損したディスクのデータを他のディスクのデータを使用して復元できれば、信頼性とパフォーマンスを確保しながらディスクの使用率を大幅に向上できます。

ディスクにデータを書き込む際、データは N-1 個の部分に分割され、N-1 個のディスクに同時に書き込まれ、検証データは N 番目のディスクに記録されます。いずれかのディスクが破損した場合(検証データ ディスクを含む)、他の N-1 個のディスクのデータを使用して修復できます。

ただし、データが頻繁に変更されるシナリオでは、ディスクが変更されると、N 番目のディスクで検証データが書き換えられることになります。頻繁に書き込みが行われる結果、N 番目のディスクは他のディスクよりも損傷を受けやすくなり、頻繁に交換する必要があるため、RAID3 は実際にはほとんど使用されません。

RAID5

RAID3 と比較すると、RAID5 の方が一般的に使用されています。

RAID5 は RAID3 と非常に似ていますが、チェック データは N 番目のディスクに書き込まれるのではなく、スパイラル方式ですべてのディスクに書き込まれます。この方法により、チェックサム データへの変更がすべてのディスクに均等に分散され、RAID 3 がディスクを頻繁に損傷することが防止されます。

RAID6

データに高い信頼性が求められ、2 つのディスクが同時に破損した場合でも修復が必要な場合 (または、運用保守管理レベルが比較的低く、1 つのディスクが破損したが、適切なタイミングで交換されず、別のディスクが破損した場合) は、RAID6 を使用できます。

RAID6 は RAID5 に似ていますが、データは N-2 台のディスクにのみ書き込まれ、パリティ情報 (異なるアルゴリズムを使用して生成) は 2 つのディスクに螺旋状に書き込まれます。

同じディスク数 (N) の場合、さまざまな RAID テクノロジの比較を次の表に示します。

RAID テクノロジは、専用の RAID カードやマザーボードからの直接サポートなどのハードウェアで実装することも、ソフトウェアで実装することもできます。ソフトウェアでは、複数のディスクがオペレーティング システム レベルで RAID にグループ化され、論理的に単一のアクセス ディレクトリとして表示されます。 RAID テクノロジは、従来のリレーショナル データベースやファイル システムで広く使用されており、コンピュータのストレージ特性を向上させる重要な手段です。

RAID テクノロジーは、単一のサーバー上の複数のディスク上にのみアレイを形成します。ビッグデータには、より大きなストレージスペースとアクセス速度が必要です。 RAID テクノロジーの原理を分散サーバー クラスターに適用すると、Hadoop 分散ファイル システム HDFS のアーキテクチャ概念が形成されます。

<<:  エッジコンピューティングの未来: IoTだけにとどまらない

>>:  Red Hat 2018 テクノロジー オープン デー: オープンソースの本質は文化、コミュニティ、コラボレーションにあります

推薦する

pumpcloud: 香港 HGC データセンター VPS の簡単なレビュー

pumpcloud は設立されてから数年が経ち、主に香港のダイナミック IP VPS、香港の固定 I...

Alipayはワイヤレス決済の開発に数億ドルを投資:まず土地を占領し、それから減算を行う

アリペイはワイヤレス決済事業に数億元を投資した。彭磊最高経営責任者(CEO)と他の同社幹部は同紙に対...

ウェブサイトデザイン分析: アクションリクエストボタンをデザインするための6つの必須事項

ここが実践の場です。アクションリクエストボタンは、Web トラフィックを商業価値に変換する上でどの程...

Containerd の詳細な分析 - CRI

この記事は、DCOS (公開アカウントID: indagate) の許可を得て転載したものです。転載...

ウェブサイトは攻撃を受けています。アクセスに異常がある場合は、更新してください。

タイトル通りです! Hostcat の閲覧に慣れているユーザーは、「119083232」を直接追加し...

OneDrive と Dropbox

クラウド ストレージを使用して複数のコンピューター上のファイルを同期することは、非常に基本的な効率化...

SEO作業:公然と板張りの道路を建設せず、密かに陳倉を渡る

ビジネスは戦場のようなもので、失敗も成功も多くの場合、たった一つの考えで決まります。最適化についても...

インターネット マーケティング: 「大きくて完全」 vs. 「小さくて美しい」

オンラインマーケティングといえば、多くの人がすぐに SEO、SEM、EDM などの言葉を思い浮かべま...

Youzhanの登録価格の誤解から抜け出し、イベント登録の基本要素を把握する

「Youzhan」という言葉は、1年前にはほとんどの人にとって馴染みのない言葉ではなくなりました。し...

Baidu によってウェブサイトが降格された後にすべきこと

多くのウェブマスターは、Baidu によってウェブサイトが降格された後、自分のウェブサイトに自信を失...

SEOを学ぼうとしている人へのアドバイス

【SEOの簡単な理解】まず、一般の人が SEO という言葉を聞くと、それが何なのか疑問に思うかもしれ...

柔軟なサプライチェーンが一般的なトレンドとなり、Oracle Fusion Supply Chain Management Cloud はデジタルプロセス管理を完全に強化します。

感染症の流行や世界市場構造の変化など、さまざまな要因の影響により、予測可能性、持続性、安定性を備えた...

漸進的な魅力により、潜在的なユーザーが製品を理解し、実際にコンバージョンを完了できるようになります。

[編集者注] この記事の著者である Nathan Barry は Web アプリケーション開発者であ...

深海の戦い:クラウドコンピューティング企業が海底光ケーブル敷設に深く関与

このテーマについて書こうと思ったのは少し偶然でした。先週末、エコノミスト誌の記事を閲覧中に業界関連の...

ゼロックスの「15%手数料」に関する調査:オンライン募金は信頼の危機に直面

中国ビジネスネットワークの記者、戴高成氏が金華から報告する。中国でオンライン募金モデルの先駆者である...