Hadoop 分散ファイルシステム - RAID から始める

Hadoop 分散ファイルシステム - RAID から始める

ビッグデータ技術が解決しなければならない主な問題は大規模データの計算処理であるため、最初に解決すべき問題は大規模データの保存です。大規模データストレージが解決する必要がある主要な問題は 3 つあります。

データ保存容量の問題。ビッグデータはPB規模のデータを計算する問題を解決するものであり、一般的なサーバーのディスク容量は通常1〜2TBであるため、このような大量のデータをどのように保存するのでしょうか。

データの読み書き速度については、一般的なディスクの連続読み書き速度は数十MBです。この速度では、数十 PB のデータの読み取りと書き込みにはおそらく永遠にかかるでしょう。

データの信頼性の問題に関して言えば、ディスクはおそらくコンピュータ機器の中で最も脆弱なハードウェアです。ウェブサイトでは、ディスクの耐用年数は約1年です。ディスクが破損した場合、データはどうなりますか?

ビッグデータ技術が登場する前は、人々はこれらのストレージの問題に直面しており、それに対応する解決策が RAID 技術でした。

[[235495]]

RAIDから始めましょう

RAID (Redundant Array of Independent Disks) テクノロジーは、主にストレージ容量、ディスクの読み取りおよび書き込み速度を向上させ、ディスクの可用性と耐障害性を強化するために使用されます。現在、サーバーレベルのコンピューターは複数のディスク(8 台以上)の挿入をサポートしており、RAID テクノロジを使用することで、複数のディスク上のデータの同時読み取りと書き込み、およびデータのバックアップを実現できます。

図に示すように、一般的に使用される RAID テクノロジはいくつかあります。

サーバーに N 個のディスクがあると仮定します。

0 の

データがメモリ バッファからディスクに書き込まれるとき、ディスクの数に応じて N 個の部分に分割されます。これらのデータは N 台のディスクに同時に書き込まれるため、全体的なデータ書き込み速度は 1 台のディスクの N 倍になります。読み取り時も同様で、RAID0 はデータの読み取りと書き込みの速度が非常に速いですが、RAID0 ではデータのバックアップは行われません。 N 台のディスクのうち 1 台が破損すると、データの整合性が破壊され、すべてのディスク上のデータが破損します。

1.RAID1 とは

データがディスクに書き込まれると、1 つのコピーが同時に 2 つのディスクに書き込まれるため、いずれかのディスクが損傷してもデータが失われることはありません。新しいディスクを挿入すると、データをコピーして自動的に修復できるため、信頼性が極めて高くなります。

RAID10

RAID0 と RAID1 を組み合わせると、すべてのディスクが 2 つの均等な部分に分割され、両方のディスクに同時にデータが書き込まれます。これは RAID1 と同等です。ただし、各ディスクの N/2 ディスクでは、同時読み取りと書き込みに RAID0 テクノロジが使用されるため、信頼性が向上するだけでなく、パフォーマンスも向上します。ただし、RAID10 ではディスク使用率が低く、ディスクの半分がバックアップ データの書き込みに使用されます。

RAID3

一般的に、サーバー上の 2 つのディスクが同時に損傷することはありません。 1 つのディスクのみが破損した場合、破損したディスクのデータを他のディスクのデータを使用して復元できれば、信頼性とパフォーマンスを確保しながらディスクの使用率を大幅に向上できます。

ディスクにデータを書き込む際、データは N-1 個の部分に分割され、N-1 個のディスクに同時に書き込まれ、検証データは N 番目のディスクに記録されます。いずれかのディスクが破損した場合(検証データ ディスクを含む)、他の N-1 個のディスクのデータを使用して修復できます。

ただし、データが頻繁に変更されるシナリオでは、ディスクが変更されると、N 番目のディスクで検証データが書き換えられることになります。頻繁に書き込みが行われる結果、N 番目のディスクは他のディスクよりも損傷を受けやすくなり、頻繁に交換する必要があるため、RAID3 は実際にはほとんど使用されません。

RAID5

RAID3 と比較すると、RAID5 の方が一般的に使用されています。

RAID5 は RAID3 と非常に似ていますが、チェック データは N 番目のディスクに書き込まれるのではなく、スパイラル方式ですべてのディスクに書き込まれます。この方法により、チェックサム データへの変更がすべてのディスクに均等に分散され、RAID 3 がディスクを頻繁に損傷することが防止されます。

RAID6

データに高い信頼性が求められ、2 つのディスクが同時に破損した場合でも修復が必要な場合 (または、運用保守管理レベルが比較的低く、1 つのディスクが破損したが、適切なタイミングで交換されず、別のディスクが破損した場合) は、RAID6 を使用できます。

RAID6 は RAID5 に似ていますが、データは N-2 台のディスクにのみ書き込まれ、パリティ情報 (異なるアルゴリズムを使用して生成) は 2 つのディスクに螺旋状に書き込まれます。

同じディスク数 (N) の場合、さまざまな RAID テクノロジの比較を次の表に示します。

RAID テクノロジは、専用の RAID カードやマザーボードからの直接サポートなどのハードウェアで実装することも、ソフトウェアで実装することもできます。ソフトウェアでは、複数のディスクがオペレーティング システム レベルで RAID にグループ化され、論理的に単一のアクセス ディレクトリとして表示されます。 RAID テクノロジは、従来のリレーショナル データベースやファイル システムで広く使用されており、コンピュータのストレージ特性を向上させる重要な手段です。

RAID テクノロジーは、単一のサーバー上の複数のディスク上にのみアレイを形成します。ビッグデータには、より大きなストレージスペースとアクセス速度が必要です。 RAID テクノロジーの原理を分散サーバー クラスターに適用すると、Hadoop 分散ファイル システム HDFS のアーキテクチャ概念が形成されます。

<<:  エッジコンピューティングの未来: IoTだけにとどまらない

>>:  Red Hat 2018 テクノロジー オープン デー: オープンソースの本質は文化、コミュニティ、コラボレーションにあります

推薦する

ftrack レビューが Alibaba Cloud Marketplace で利用可能になりました

2018 年 9 月、世界有数の映画およびテレビ番組制作パイプライン管理ソフトウェア企業である ft...

最適化以外に SEO を行うために知っておくべきことは何ですか?

SEO について話すとき、誰もがキーワードの最適化と外部リンクの掲載を思い浮かべるでしょう。ウェブサ...

エッジクラウドとは何かを説明します。

近年、新たな科学技術革命と産業変革の深化に伴い、デジタル経済時代が本格的に到来し、コンピューティング...

データレポート | 2019年ソーシャルトレンド分析レポート!

サブセクターが成長ポイント: 2019年2月、ソーシャルネットワーク業界のユーザー規模は9億7,30...

PolarDBデータベース並列クエリ技術の詳細な分析

[[399309]] 1. 背景データの規模が拡大し続けるにつれて、ユーザー SQL の実行時間はま...

2017年51CTO第12回中国企業年次選考結果発表

【原文は51CTO.comより】2018年の新年を迎え、工業情報化部中国電子情報産業発展研究所が主導...

経済学者の郎先平が分析:なぜタオグンは人気があるのか​​?

今年の「ダブル11」の24時間で、タオバオとアリペイの売上高は合計191億元に達し、そのうち天猫(タ...

マイクロマーケティング: 小規模ウェブサイトが大規模ウェブサイトに勝つための販売戦略

オンライン販売戦略について話しているとき、多くの小規模ウェブサイトが、ようやく市場セグメントを選択し...

ウェブサイトを分析する能力は、初心者ウェブマスターにとって必須のスキルです。

まず、なぜ「ウェブサイトの分析が得意であることは、初心者ウェブマスターにとって必須のスキルです」とい...

SEO とブランディングは相反するものですか?それとも、この 2 つは互いに補完し合うのでしょうか?

現在のSEOの傾向は、2011年の同時期よりもはるかに実用的です。誰もがテクノロジーに集中しているわ...

マルチクラウド自動フェイルオーバーで災害復旧戦略を強化

災害の発生を完全に防ぐことはできませんが、災害による事業中断は回避できます。適切なツールを使用し、適...

最新のページランクが10に更新されたURL

Page Rank は、Google の中心的な検索結果ランキング テクノロジーです。 URL への...

ウェブサイトの最適化は、経験だけでなく、より良い結果を得るために定説を取り除くことも重要です。

ウェブサイトの運用や最適化の初心者であれば、経験があれば回り道が少なくなるため、ぜひ指導を受けたいと...

サーバー仮想化の動向分析

サーバー仮想化技術は短期間で大きく進歩しました。 IT テストおよび開発パイロット プロジェクトの初...

「鯉」が新たなマーケティング手法に?他に低コストで効果的な方法はありますか?

月給5,000~50,000のこれらのプロジェクトはあなたの将来です初リリース!帝都鯉が来た!スーパ...