インターネット分散ストレージ入門

インターネット分散ストレージ入門

Google、Amazon、Tencent などの大手インターネット企業では、事業が広範囲にわたるため、保存する必要があるユーザーデータが大量にあるため、分散ストレージ システムがこのような企業のインフラストラクチャになることがよくあります。分散ストレージには、単一マシンのストレージ エンジンや分散システム プロトコルなど、多くの領域が関係します。この記事は、分散ストレージ システムの基本概念の紹介となります。

分散ストレージが満たすべき基本条件

  • スケーラブル

WeChat Moments の写真を例にとると、WeChat の動作時間が長くなるにつれて、保存する必要がある Moments の写真の数も必然的に増加するため、これらの写真を保存する分散ストレージ システムは拡張可能でなければなりません。

  • 低コスト

大規模なインターネット企業の場合、保存するデータの量が非常に多いため、ストレージシステムをオンラインで運用できるかどうかを検討する上で、コストは非常に重要な指標となります。

  • 高性能

分散ストレージ クラスター全体であっても、単一マシンのストレージ エンジンであっても、高いパフォーマンスを保証する必要があります。そうでなければ、低コストは問題外です。

  • 使いやすさ

分散ストレージ システムは、インフラストラクチャとして、さまざまなビジネスにさらに貢献できるように使いやすくなければなりません。たとえば、Amazon の S3 はインターフェースが統一されており、アクセスが容易です。

分散ストレージシステムが直面する主な技術的課題

  • データ配信

ストレージ システム全体がクラスターです。データが複数のサーバーに均等に分散されるようにするにはどうすればよいでしょうか?特定のデータが複数のサーバーに分割されて保存されていると仮定した場合、サーバー間の読み取りと書き込みをどのように実現できるでしょうか?

  • 一貫性

データの信頼性を確保するために、同じデータを複数のコピーで保存する必要があります。これらの複数のデータコピーの一貫性を確保するにはどうすればよいでしょうか?

  • フォールトトレランス

クラスターの場合、マシンの障害は避けられません。障害をタイムリーに検出し、障害が発生したマシン上のデータとサービスを障害のないマシンに自動的に移行するにはどうすればよいでしょうか?

  • 負荷分散

どのクラスター システムにも負荷分散戦略の問題があり、分散ストレージ システムも例外ではありません。

  • トランザクションと同時実行制御

分散ストレージ システムがトランザクションと同時実行制御機能をサポートする必要がある場合、どのように実現できますか?

  • 使いやすさ

使いやすさについてはすでに述べたので、ここでは繰り返しません。

  • 圧縮/解凍

圧縮によって節約されるスペースと消費される CPU コンピューティング リソースのバランスをとるために、データの特性に基づいて適切な圧縮/解凍アルゴリズムを設計および選択する方法。

分散ストレージシステムにおけるデータ分類

インターネット ビジネスに関係するデータは、一般的に次の 3 つのカテゴリに分類できます。

1. 非構造化データ

代表的な例としては、画像、音声、ビデオファイルなどが挙げられます。

2. 構造化データ

リレーショナル データベースに保存される従来の 2 次元テーブル構造データ。

3. 半構造化データ

構造化データと非構造化データの違いの典型的な例としては、HTML ドキュメントが挙げられます。

分散ストレージシステムの分類

上記のデータ タイプを保存する実際のニーズに基づいて、分散ストレージ システムは徐々に次の 4 つのタイプに進化してきました。

1. 分散ファイルシステム

通常、非構造化データを保存するために使用されます。たとえば、HDFS、TFS (Taobao File System)、FastDFS などです。

2. 分散型キーバリューシステム

これは一般的に、Taobao の Tair、Redis、memcached などの半構造化データを格納するために使用されるハッシュ テーブルとして理解できます。

3. 分散テーブルシステム

非構造化データの保存にも使用されます。分散キーバリューシステムと比較すると、主キーに基づいた読み取りと書き込みを提供するだけでなく、Google の Big Table などの特定の主キー範囲のスキャンもサポートします。

4. 分散データベース

スタンドアロン データベースから開発され、構造化データを保存するために使用されます。典型的な例は、MySQL Sharding クラスターです。

<<:  面接官向け Java 仮想マシンの概要

>>:  WAN 変革: クラウド コンピューティングからユビキタスなエラスティック ネットワークへ

推薦する

bluevm - 強力な構成サーバー - 特別価格!

Bluevm は、ほぼ 2 か月間、誰の実装からも消え去っています。512M メモリの KVM VP...

すべてのネットユーザーへ: SolusVMパネルの特別なセキュリティ警告

最近、SolUSVMは一連の高リスクの脆弱性に襲われ、現在、公式のSolUSVMがパッチをリリースす...

pumpcloud - 香港 VPS/50Gbps 防御/1Gbps 帯域幅/中国への直接接続/月間 10T トラフィック

pumpcloud の香港 HKBN データセンターが新しい VPS を開始しました。今回の違いは、...

観光ウェブサイト向け SEO マーケティング戦略の分析

10月1日のゴールデンウィークがまたやってきました。特に、新しい場所が好きで憧れ、新しい環境を楽しむ...

ウェブサイトのランキングが下がったらどうすればいい?内部分析

最近、私が運営している心理カウンセリングサイトの順位が下がっています。一週間ほど経ちますが、ざっと観...

Coremail Lunke メールボックス クライアントは、安全な共同オフィス ソリューションを作成します。

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますAI、ビッ...

音楽ウェブサイトは、著作権者から今後5日以内に有料サービスを試すよう圧力を受けている。

新浪科技は6月3日朝、ユニバーサル、ソニー、ワーナーの3大レコード会社が先月、国内の主流インターネッ...

Longhorn クラウド ネイティブ コンテナ分散ストレージ - エアギャップ インストール

[[420203]] Longhorn は、マニフェスト ファイル、Helm チャート、または Ra...

Weiboを通じてウェブサイトのページ構築のデザインと詳細を分析する

プロのページ構築エンジニアとして、専門的なスキルに対する高い要件に加えて、設計図面をレビューする一定...

ウェブサイトのタイトルが見つかりませんか?接続が切れるのは検索エンジンの遅れによるものでしょうか?

多くの人がウェブサイトを最適化するとき、サイト内最適化とサイト外最適化の両方を怠ることはありません。...

swiftway-$5/クラウド/メモリ1g/ハードディスク40g/トラフィック2T/オランダ

SwiftwayCloud は第 3 フェーズに入り、現在はオランダのデータ センターのみで通常のク...

簡単な議論:百度入札における悪質なクリックの概要と対処方法

悪意のあるクリックは、入札競争の一般的な手段です。Baidu Fengchao システムのバックエン...

張一鳴が円なしで勝利?

急成長し、高い評価を得ている企業であれば、必ず壁にぶつかるが、ByteDance がぶつかった壁はコ...

bluevm-12 USD/年 256M メモリ/10G ハードディスク/500G トラフィック/ロサンゼルス

Bluevmは現在、全面的に在庫切れです。検索してみると、まだ在庫がある製品が2つあることがわかりま...

クラウドコンピューティングはどれほど重要ですか?軍事分野に計り知れない影響を与えるかもしれない

クラウド コンピューティングは、第 3 世代のインターネット ネットワーク テクノロジーの中核を成す...