360度自社開発の分散型大規模小型ファイルストレージシステムの設計と実装

近年、同社の事業は急速に発展し、数多くのビジネスシーンで画像、文書、音声、動画などの非構造化データが大量に生成されています。特に、モバイルインターネット、AI、IoT技術の成熟とアプリケーション市場の本格的な勃興により、多数のスマートハードウェアデバイスからさらに大量の非構造化マルチメディアデータが生成されるようになります。これほど大量の小さなファイルをどのように保存するかという疑問が生じます。従来のストレージベンダーが販売するストレージサービスは高価であり、パブリッククラウドベンダーには特定のビジネスシナリオに合わせたカスタマイズされた変換機能が欠けています。そこで、私たちは独自の小規模なファイルストレージサービスを開発することにしました。

NebulasFs の紹介

小さなファイルストレージ技術に注目している学生であれば、Facebook が発表した、大規模な小さな画像ストレージシステムである Haystack に関する論文 (Finding a Needle in Haystack: Facebook's photo storage) を読んだことがあるかもしれません。 Haystack は、複数の小さなファイルを 1 つの大きなファイルにマージしてファイル数を減らし、多数の小さなファイルを保存する場合の通常のファイルシステムの問題を解決します。つまり、ファイルのメタデータ情報を 1 回で複数回読み取る必要があること、ファイルアクセスの「ロングテール」効果により大量のファイルメタデータをキャッシュすることが困難になることです。 Haystack の論文を参考にして学んだ教訓に基づいて、私たちは独自の分散型小規模ファイルストレージシステムである NebulasFs を開発しました。これは、数百億の小さなファイルを保存できる、分散型、高可用性、高信頼性、永続的な小さなファイルストレージシステムです。

建築デザイン

分散役割の観点から見ると、マスターとデータノードという 2 つの主要な役割に分けられます。

このうち、マスターはクラスターのメタデータの保存、クラスターの管理、タスクのスケジューリングなどを担当します。そのデータの一貫性は現在、外部の一貫性ツール (ETCD など) によって実現されています。マスターはプライマリであり、複数のバックアップがあります。

データノードはユーザー指向であり、主にデータの保存とユーザー要求のルーティングおよび配布を担当します。 Datanode ノードには、ストレージボリュームファイルとプロキシモジュールが含まれます。次の図に示すように:

ユーザーのリクエストは任意の Datanode ノードに送信できます。ノードのプロキシモジュールは、ユーザーの要求を適切なデータストレージノードにプロキシし、ユーザー構造に返します。複数のレプリカへの書き込み要求の場合、プロキシモジュールは、すべての要求が成功して返されるまで、レプリカの一貫した順序に従って並列に書き込みます。読み取り要求の場合、最初のレプリカのみが読み取られます。

NebulasFsの機能

ストレージ容量、一貫性、可用性などの側面を改善し、大規模で小さなファイルストレージのニーズを満たすために、Haystack の論文と比較して、インターフェイスサービスと分散アーキテクチャの最適化をさらに進めました。主に次の側面に反映されています。

1. ユーザーに提供されるサービスインターフェースはシンプルで軽量、そして普遍的である

NebulasFs は、よりシンプルなプロトコルを持ち、より使いやすい Http Restful インターフェースをユーザーに提供します。ユーザーは、簡単な PUT、GET などの操作を通じてファイルをアップロードおよびダウンロードできます。ユーザーはカスタマイズされたクライアントを使用する必要がないため、より軽量になります。

2. ユーザの要求による完全なプロキシと自動ルーティング

Datanode にはデータ保存機能があることはわかっていますが、Datanode の数が多い場合、どのデータがどの Datanode に保存されているかをユーザーが知りたい場合は、まずマスターからデータルーティングのメタデータを取得する必要があり、ユーザー要求の複雑さが増します。ユーザーのリクエストを適切なデータノードに自動的にプロキシしてルーティングするリクエストプロキシおよびルーティングモジュールをデータノードに追加し、ユーザーが 1 回のリクエストでデータを取得できるようにしました。

3. マルチテナント、相互影響を回避するためのテナントリソース分離メカニズムの提供

クラスターによって提供されるサービスは、複数のユーザーによって使用される場合があります。相互干渉を避けるために、NebulasFs はリソースプールの概念を抽象化します。異なるリソースプールは、異なるハードウェア上に物理的に分散されます。リソースプールはマシン次元内で交差しないため、リソースの分離を効果的に実現できます。異なるユーザーを異なるリソースプールに分散したり、リソースプールを共有したりできるため、管理者は事前に計画を立てる必要があります。リソースプールにはさまざまな種類があり、その範囲はデータセンター間、キャビネット間、またはキャビネット内になる場合があります。さまざまな物理ハードウェアのパフォーマンスとデータコピーストレージの冗長性要件に応じて、さまざまな種類のデータストレージ要件も事前に計画する必要があります。

4. カスタマイズ可能なデータマルチコピーストレージソリューション、データ損失なし、複数の障害ドメインの組み合わせ

可用性を提供し、書き込まれたデータが失われないようにするために、ファイルデータは通常、災害復旧用に 1 を超える数のコピーで保存され、回復不可能なハードウェア障害が発生した場合にデータの可用性を確保し、後でコピーの数を自動的に補います。重要度レベルや障害タイプのレベルが異なるデータによって、使用するストレージソリューションのレベルが決まります。 NebulasFs は、データセンター、キャビネット列、キャビネット、マシン、ディスクの 5 つのレベルの障害ドメインを事前定義します。高可用性データストレージが必要な場合は、データセンター全体が使用できない場合に別のデータセンターのデータを使用できるように、データセンター間の災害復旧コピーを使用します。要件がそれほど厳しくないデータの場合、ディザスタリカバリレプリカ戦略を実装するときにキャビネット間ストレージを選択して、エッジスイッチに障害が発生した後でもデータを利用できるようにします。

NebulasFs 障害ドメインとリソース分離プールの関係は次のとおりです。

S はサーバーを表し、R-1 と R-2 はデータセンター DC-1 に属する 2 つのキャビネット、R-3 と R42 はデータセンター DC-2 に属する 2 つのキャビネットです。プール 1 はキャビネット障害ドメイン全体のリソース分離プール、プール 2 はデータセンター障害ドメイン全体のリソースプール、プール 3 はサーバー障害ドメイン全体のリソースプールです。

Nebulas の障害ドメインの論理的および物理的な概念は、次のとおりです。

上部は論理的概念であり、下部は物理的概念です。ユーザーとリクエストは論理的な概念に関連し、管理と操作は物理的な概念に関連します。ユーザーは 1 つ以上のコレクションに対応し、コレクションは複数のボリュームに対応し、各ボリュームは DataNode に保存されるファイルです (レプリカの数と同じ数のファイルがあります)。一般的に、DataNode はサーバー上のハードディスクに相当します。サーバー上には複数の DataNode が存在します。サーバーの上位層は、ラック、ラックの列、およびデータセンターです。

5. 自動拡張と再バランス調整

容量拡張は、ストレージ容量不足による容量拡張と、リクエストトラフィックの過負荷による容量拡張に分けられます。容量不足による拡張後に再バランスをとる必要がないため、リクエストトラフィックが大量になったために拡張した後にのみデータの再バランスをとる必要があります。再バランス調整は、災害復旧レプリカの数などの戦略に従って実行されます。戦略に従って追加されたデータノードはマスターに自動的に登録され、マスターは事前に決められたルールに従ってリバランスを調整します。

拡張シナリオは 2 つあります。

6. 自動コピー修復と完了

一定規模のクラスター障害が頻繁に発生する可能性があります。当社のシステムでは、障害は主にデータのコピーの損失を意味します。データのコピーを手動で完了するのは大きな作業負荷となるため、自動コピー完了は比較的重要な機能となっています。自動レプリケーションでは、不足しているレプリカを検出し、レプリケーションを調整するためにマスターに依存します。完了プロセス中、すべてのデータコピーは読み取り専用になります。プロセスは次のとおりです。

自動コピー全体は以下のように完了します。

ハードディスクの障害により、データノード 2 および 3 上のボリューム 3 および 6 のコピーが失われます。自動入力により、データノード 4 と 5 上のこれら 2 つのコピーが自動的に入力され、クラスターに追加されます。

まとめ

NebulasFs は、社内で約 1 年間使用されてきました。さらに、NebulasFs は、大きなファイルを保存するための別のオブジェクトストレージ (AWS S3 プロトコル) のバックエンドストレージとしても機能します。

より多くのビジネスが追加されるにつれて、NebulasF はビジネスの成長をより良く保護するために改善され続けます。

[この記事は、51CTOコラムニスト360 Technology、WeChatパブリックアカウント「360 Technology（id: qihoo_tech）」からのオリジナル記事です]

この著者の他の記事を読むにはここをクリックしてください

>>: マイクロソフトとオラクルの提携：蜜月は甘いが、破局には注意

360度自社開発の分散型大規模小型ファイルストレージシステムの設計と実装

クラウドサービス利用の課題: 間違ったアーキテクチャは硬直性と失敗を意味する

Windows Server のインストールと構成 IIS8.5 チュートリアル

ケース分析: オンライン旅行電子商取引はどのようにマーケティングを行うのか?

企業ウェブサイト構築における暗黙のルールを数える

Baidu Smart Cloudは、企業のデジタル変革を促進するワンストップのインテリジェントなビッグデータソリューションを構築します

dedipath: シアトルのデータセンターVPSの簡単なレビュー。データからdedipathの優秀さがわかる

Weiboでトラフィックを集める方法、ウェブマスターが知っておくべきこと

Ammann Cloud が世界的に有名な大学を結び付ける: MIT 教授 Zhu Haoxiang 博士との対談

友好的なリンク交換を利用してウェブサイトの関連性を高める方法

顧客に真実を伝えるか、検索エンジンに関する真実を明らかにするか

推薦する

コアネットワークに仮想化 (NFV) が必要な理由は何ですか?

#ニュース# Linode: 現在 24 のデータセンターに拡大、クラウドサーバーの料金は引き続き月額 5 ドルから

中国SNSは定着率の危機に直面、ユーザーの需要が変革の鍵に

世界中の安価で安定したVPS業者をいくつかリストアップ

水戸型枠：高品質な手作り型枠

クラウドネイティブアプリケーションのセキュリティ組織アーキテクチャの簡単な分析

ネットワーク + ストレージ + 仮想化: 新しいネットワークを構築するための 3 つの要素

Bilibiliの野望は「iQIYI、Youku、Tencent Video」です！

クラウド支出を管理するための6つのヒント

学習ノート - 分散型デジタル華容路（第2部）

#BlackFriday# virpus: シアトル VPS が 70% オフ、年間 15 ドルから、独自の大きな独立したコンピュータルーム付き

cloudiplc: 泉州 CN2、HK/TW/JP/SG およびその他の ntt、pccw リンクに直接接続

エンタープライズサイト向け SEO の作成方法

OpenStack、氷と炎の世界？

hostmybytes - アジア向けに最適化された KVM VPS、512M、年間 9 ドル、Windows 搭載