Ceph オブジェクト ストレージに基づく階層型ハイブリッド クラウド ストレージ ソリューション

Ceph オブジェクト ストレージに基づく階層型ハイブリッド クラウド ストレージ ソリューション

ハイブリッドクラウドストレージソリューションのトレンド

パブリッククラウドストレージ

  • 容量無制限。パブリッククラウドストレージサービスは簡単に拡張できます。ユーザーは、ストレージ容量のニーズに応じて、既存のストレージ サービスの容量を簡単に拡張できます。そのため、ユーザーの観点から見ると、パブリッククラウドストレージサービスは最大容量という特徴を持っています。
  • 低コスト。パブリック クラウド ストレージ サービスは従量課金モデルを採用しており、実際の容量使用量に基づいた課金をサポートしています。同時に、ストレージインフラストラクチャが不要なため、コストが低いという利点もあります。
  • パフォーマンスがよくありません。パブリック ネットワーク経由でストレージ サービスにアクセスする際のネットワーク オーバーヘッド、クラウド サービス プロバイダーが使用する共通の共有ハードウェア リソース、および仮想化テクノロジを通じて提供されるサービスにより、パブリック クラウド ストレージ サービスのアクセス パフォーマンスはそれほど高くありません。
  • セキュリティと制御性は良好ではありません。前述したように、パブリック クラウドでは、すべてのハードウェア、ソフトウェア、およびその他のサポート インフラストラクチャはクラウド サービス プロバイダーによって所有および管理され、すべての組織とテナントが同じハードウェア、ストレージ デバイス、およびネットワーク デバイスを共有します。したがって、データのセキュリティと制御性の観点から、パブリック クラウド ストレージ サービスは理想的な選択肢ではありません。

プライベートクラウドストレージ

  • 高性能。プライベート ネットワークや専用回線によってネットワーク オーバーヘッドが低く抑えられ、ソフトウェアおよびハードウェア リソースの選択に優れた柔軟性があるため、プライベート クラウド ストレージ サービスはパブリック クラウドよりも優れたアクセス パフォーマンスを提供できます。
  • 高いセキュリティと制御性。プライベート クラウド ストレージ サービスの場合、ソフトウェアおよびハードウェア リソースが他の組織やテナントと共有されず、サービスを完全にプライベート ネットワーク内に構築できるため、より高いレベルの制御とセキュリティを実現できます。
  • 容量制限あり。プライベート クラウド ストレージ サービスの場合、すべてのリソースが自己所有されており、ストレージ クラスターの拡張を含めて自己メンテナンスが必要であるため、容量の観点から、ストレージ クラスターの拡張にかかる明示的および暗黙的なコストは非常に高くなります。したがって、ユーザーの観点から見ると、プライベート クラウド ストレージ サービスは 100% 容量ベースではありません。
  • コストが高い。前述のように、プライベート クラウド ストレージ サービスでは、データ センターの構築と運用、プライベート ネットワークや専用ネットワークの構築、クラスターのメンテナンスなど、すべてのソフトウェアおよびハードウェア リソース コスト、ストレージ クラスターの運用および保守コストをすべてプライベート クラウド ストレージ サービスのコストに含める必要があります。また、オンデマンドで容量を割り当てて必要な分だけ利用できるパブリッククラウドストレージとは異なり、プライベートクラウドストレージでは、将来予測される最大容量需要を満たし、頻繁な容量拡張による高額な運用・保守コストを回避するために、クラスターを構築する際には計画的な容量で構築されることが多いです。これにより、実際にはストレージ クラスター全体の使用容量が長時間にわたって不飽和状態になり、一部のストレージ リソースが長時間にわたってアイドル状態になります。

上記の 2 つの側面により、プライベート クラウド ストレージはパブリック クラウド ストレージよりも高価になるという問題が生じます。

ハイブリッドクラウドストレージ

  • ハイブリッド クラウド ストレージは、プライベート クラウド ストレージとパブリック クラウド ストレージを接続し、これら 2 つを組み合わせて外部に共同でストレージ サービスを提供します。プライベートクラウドストレージとパブリッククラウドストレージの利点をすべて統合したものと言えます。
  • 高性能。アクティブ データはプライベート クラウド ストレージに保存され、アーカイブ データはパブリック クラウド ストレージに保存されます。まず、パフォーマンスの観点から、アクティブ データと頻繁にアクセスされるデータをプライベート クラウド ストレージに保存することで、ハイブリッド クラウド ストレージはより高いアクセス パフォーマンスを提供できます。
  • 高いセキュリティと制御性。ハイブリッド クラウド ストレージのプライベート クラウド部分のソフトウェアおよびハードウェア リソースは自社所有かつ排他的であるため、重要な機密データ情報をプライベート クラウド ストレージに保存すると、より高い制御性とセキュリティを実現できます。
  • 容量無制限。ハイブリッドクラウドストレージは、パブリッククラウドストレージとの相互接続により、パブリッククラウドストレージの最大容量の特性を活用した最大容量の特性も備えています。
  • 比較的低コスト。一部のアーカイブ データ、アクセス頻度の低いデータ、アクセス パフォーマンス要件が低いデータをパブリック クラウド ストレージに保存することを選択できます。プライベート クラウド ストレージのコストを節約しながら、パブリック クラウド ストレージをオンデマンドで割り当てるというコスト上の利点も得られます。そのため、ハイブリッド クラウド ストレージには、プライベート クラウド ストレージに比べてコストが低いという利点もあります。

既存のソリューションの限界

パブリック クラウド ストレージやプライベート クラウド ストレージと比較すると、ハイブリッド クラウド ストレージはより包括的で完全です。 Ceph のオブジェクト ストレージは、ハイブリッド クラウド シナリオ向けのソリューション、つまり Cloud Sync 機能も提供します。 Ceph RGW の Cloud Sync 機能は、RGW マルチサイト メカニズムに基づいて実装されています。まず、RGW マルチサイト メカニズムを見てみましょう。

RGW マルチサイト

Ceph RGW のマルチサイト メカニズムは、複数の Ceph オブジェクト ストレージ クラスター間でデータを同期するために使用されます。関連する中核概念は次のとおりです。

  • ゾーン: RGW のグループによって外部サービスが提供される独立したクラスターに対応します。
  • ゾーングループ: 名前が示すように、各ゾーングループは複数のゾーンに対応し、ゾーン間でデータとメタデータを同期できます。
  • レルム: 各レルムは独立した名前空間であり、複数のゾーングループを含めることができます。メタデータはゾーングループ間で同期されます。

マルチサイトの仕組みは次のとおりです。

Multisite はゾーン レベルの機能処理メカニズムであるため、デフォルトではゾーン レベルのデータ同期になります。つまり、Multisite を構成すると、ゾーン全体のデータが同期されます。

ゾーン全体のレベルでのデータ同期は操作の粒度が粗すぎるため、多くのシナリオには適用できません。現在、Ceph RGW は、バケット同期の有効化/無効化を通じてバケットレベルのデータ同期の有効化/無効化もサポートしており、より細かい操作粒度と高い柔軟性を備えています。

RGWクラウド同期

Cloud Sync は RGW マルチサイトに基づいて実装されており、Ceph 内のオブジェクト データを S3 インターフェイスをサポートするパブリック クラウド ストレージに同期することをサポートします。デフォルトはゾーン レベルのデータ同期です。上記の紹介から、RGW のマルチサイト メカニズムは、複数の Ceph オブジェクト ストレージ クラスターと複数のデータ センター間のデータ同期を実現するために使用されていることがわかります。ゾーン自体は抽象的な概念です。より抽象的な観点から見ると、単なる Ceph オブジェクト ストレージ クラスター以上のものを表すことができます。

RGW Cloud Sync機能はこの考えに基づいて実装されています。 Cloud Sync フレームワークでは、スレーブ ゾーンは Ceph オブジェクト ストレージ クラスターだけに対応するのではなく、より抽象的な概念になっています。つまり、任意のクラスターを表すことができ、このクラスターは Ceph オブジェクト ストレージ クラスターにすることも、もちろん AWS の S3 にすることもできます。 Cloud Sync 機能は、S3 インターフェースをサポートするストレージ クラスターをスレーブ ゾーンの概念に抽象化し、Multisite メカニズムを通じて Ceph 内のオブジェクト データを外部オブジェクト ストレージに同期します。

バケット同期の有効化/無効化を介して、バケット レベルのデータ同期を有効化/無効化できます。

クラウド同期の制限

Ceph オブジェクト ストレージを使用する場合、RGW の Cloud Sync 機能は、基本的にハイブリッド クラウド ストレージのアプリケーション シナリオを満たすことができます。ただし、RGW Cloud Sync 機能の現在の実装に関しては、次のような制限が残っています。

  • サポートされる最も細かい同期粒度はバケット レベルです。一部のアプリケーション シナリオでは、バケット レベルの同期の粒度では十分な柔軟性が得られません。
  • 時間制御: RGW Multisite のデータ同期処理は、RGW 独自のコルーチン ライブラリを通じて実装されます。処理プロセス全体は非同期で完了し、データ同期処理の開始時間を手動で制御することはできません。したがって、このデータ同期処理の時間制御は柔軟性が十分ではなく、時間に敏感なシナリオには適用できません。

UMStor、Ceph をベースにした階層型ハイブリッド クラウド ストレージ ソリューション

上記の制限を踏まえて、より柔軟なデータ管理および移行ソリューションを提供するために、より細かい管理粒度とより優れた時間制御を備えたメカニズムを実装できるかどうかを検討し始めました。オブジェクトデータストレージの階層化、オブジェクトのライフサイクル管理、自動生成と移行などの一連の実践を通じて、Ceph ベースの階層型ハイブリッドクラウドストレージソリューション UMStor を開発しました。

ソリューション 1: オブジェクト データ ストレージ層

まず、オブジェクト データのストレージを分類するために、Ceph オブジェクト ストレージでストレージ クラスを実装する方法を紹介します。

ストレージシステムのサイジング

ストレージ システムを分類する必要があるのはなぜですか?それは次の3つの側面から考えられると思います。

ストレージメディア

まず、ストレージクラスターでは、アクセス性能やコストなどの考慮により、SSDとHDDの両方を導入する場合があります。この場合、ストレージ階層化が行われないと、アクセス性能要件が低いデータやアーカイブされたデータは SSD に保存され、アクセス性能要件が高いデータは HDD に保存されることになり、データアクセス性能に影響を与え、データ保存コストが増加してしまうことは間違いありません。

ストレージポリシー

  • 3部
  • 2部
  • 消去コード

一部のデータには非常に高い信頼性が求められるため、3 つのコピーの形式で保存します。一部のデータについては、信頼性に対する要件がそれほど高くない場合があります。この場合、ストレージスペースを節約するために 2 つのコピーを保存することをお勧めします。

ストレージプロバイダー

  • ユークラウド
  • AWS の

したがって、ストレージ システムでストレージ グレーディングを実行することが実際には非常に重要です。

RGWデータ保存ルール

RGW 自体には、データの保存ルールである配置ルールの概念があります。配置ルールでは、バケット インデックス データを格納するインデックス プール、オブジェクト データを格納するデータ プール、および Multipart 経由で大きなファイルをアップロードするときに一時データを格納するデータ エクストラ プールを定義できます。

配置ルールは使用するストレージ プールに対して定義され、ストレージ プールはゾーン下の概念であるため、RGW では配置ルールはゾーン レベルの構成として使用され、影響の粒度はバケット レベルになります。つまり、バケットが使用する配置ルールを指定でき、バケットにアップロードされたすべてのオブジェクト データは、バケットの配置ルールで定義されたストレージ ルールに従って保存されます。ユーザーは、異なるバケットに異なる配置ルールを構成して、異なるストレージ メディアの異なるバケットにオブジェクト データを保存したり、異なるストレージ ポリシーを使用したりすることができます。

ただし、バケット レベルのデータ ストレージ ルールは、特定のアプリケーション シナリオのニーズを満たすほど柔軟ではありません。

オブジェクトデータストレージ戦略

ストレージクラスの概念自体は、AWS S3 の重要な機能です。 S3 では、各オブジェクトにはオブジェクトのデータのストレージ ポリシーを定義する「ストレージ クラス」属性があります。 S3 のストレージ クラス機能は、次の定義済みストレージ ポリシーをサポートしています。

  • STANDARD は頻繁にアクセスされるデータ用です。
  • STANDARD_IA は、アクセス頻度は低いが、必要なときに高速アクセスが必要なデータに使用されます。
  • ONEZONE_IA は、アクセス頻度は低いが、必要なときに高速アクセスが必要なデータに使用されます。他の Amazon オブジェクトストレージクラスでは少なくとも 3 つのアベイラビリティーゾーン (AZ) にデータが保存されますが、S3 One Zone-IA では 1 つの AZ にデータが保存されます。
  • REDUCED_REDUNDANCY は主に、高いストレージ信頼性を必要としないデータに使用されます。データストレージのコピー数を減らすことで、ストレージコストを削減します。
  • 氷河。

前述の分散ストレージ システムのストレージ分類の要求と、RGW が現在サポートしているデータ配置ルール メカニズムを組み合わせて、Ceph オブジェクト ストレージにオブジェクト ストレージ クラスの概念を導入しました。

  • まず、ストレージ プールの概念をより高いレベルに抽象化しました。これにより、現在の Ceph オブジェクト ストレージがサポートされるだけでなく、次のこともサポートされます。
  • ストレージ プールは、異なるストレージ メディア (HDD/SSD) に応じて分割できます。
  • ストレージ プールは、さまざまなストレージ戦略 (データ冗長性戦略) (2 倍のレプリケーション/ 3 倍のレプリケーション/消去コード) に従って分割できます。
  • 外部ストレージ (外部パブリック クラウド ストレージおよびプライベート クラウド ストレージを含む) は、ストレージ プールに抽象化できます。

• RGW ゾーンの配置ルールの適用範囲は、オブジェクト レベルで動作するように細かく設定されており、オブジェクト レベルのストレージ グレーディングを実現します。同じストレージ バケット内でも、異なるオブジェクト データを異なるストレージ プールに保存できます。

ソリューション2: オブジェクトライフサイクル管理

オブジェクトレベルのストレージクラス機能を実装した後、データ移行時間の制御性をどのように実現するかを検討し始めました。以下で紹介するのはこれです。

AWS S3 オブジェクトライフサイクル管理

オブジェクトのライフサイクル管理も AWS S3 の非常に重要な機能です。バケットのライフサイクル管理ルールを設定することで、バケット内の特定のオブジェクト セットに対してライフサイクル管理を実行できます。現在、AWS S3 のオブジェクトライフサイクル管理では以下がサポートされています。

  • 移行処理。つまり、指定された時間間隔または特定の時点で、バケット内の特定のオブジェクト セットを現在のストレージ クラスから別の指定されたストレージ クラスに移行することをサポートします。
  • 有効期限削除処理では、指定された時間間隔後または特定の時点でバケット内の特定のオブジェクト セットをクリアすることがサポートされます。

RGW オブジェクトライフサイクル管理

現在、Ceph RGW オブジェクト ストレージは、LC オブジェクト ライフサイクル管理もサポートしています。ただし、RGW 自体はオブジェクト ストレージ クラス/配置ルールをサポートしていないため、オブジェクト ライフサイクル管理は現在、有効期限切れアクションと削除処理のみをサポートしています。

完全なオブジェクトライフサイクル管理の実装

上記で実装したオブジェクトストレージクラスをベースに、RGWの既存のLC実装をベースにRGW LCの処理ロジックを拡張し、オブジェクトライフサイクル管理によるオブジェクトデータの他のストレージクラスへの移行をサポートするLC移行機能を実装しました。たとえば、SSD から HDD への移行、3 コピー プールから 2 コピー プールへの移行、コピー プールから消去コード プールへの移行、Ceph クラスターから外部の Ufile パブリック クラウド ストレージへの移行などをサポートし、完全なオブジェクト ライフサイクル管理を実現します。

  • 標準の AWS S3 オブジェクトライフサイクル管理関連インターフェースをサポートします。
  • 上記の紹介から、私たちが実装したストレージクラス機能は、外部ストレージをストレージクラスとして指定することをサポートしています。したがって、バケットの LC ルールを構成することによって、バケット内の特定のオブジェクト セットを UFile、S3 などの外部ストレージに移行することをサポートします。

RGW の Cloud Sync 機能と比較して、LC 移行ルールを設定して Ceph クラスター内のオブジェクト データを外部のクラウド ストレージに移行すると、次の利点があります。

  1. 操作の粒度がより細かくなり、オブジェクト内で直接データを操作できるようになります。
  2. 時間は制御可能です。 LC ルールで操作が有効になる時間を設定および指定し、データ移行の時間を手動で制御することで、時間をより制御しやすくなります。

これまでに、ゾーン レベルからバケット レベル、そしてオブジェクト レベルまで、Ceph オブジェクト ストレージに基づく完全かつ完全な粒度データ移行処理メカニズムを実装しており、基本的にすべてのアプリケーション シナリオの共通ニーズをカバーできます。

ソリューション3: 移行戦略を自動的に生成する

バケットログ

バケット ログは、特定のバケットに対する操作とアクセスを記録および追跡するために使用される機能です。バケット ログ内の各ログ レコードには、要求の開始者、バケット名、要求時刻、要求された操作、返されたステータス コードなど、対応するバケットへの操作アクセス要求の詳細が記録されます。

移行戦略を自動的に生成

バケット ログの操作記録と設定可能なスケール パラメータに基づいて、バケット内のオブジェクト データの人気度が分析され、分析結果に応じて移行戦略が自動的に生成され、オブジェクト データが管理されます。

このプロセスを要約した図を以下に示します。

  • ターゲット バケットからバケット ログを読み取ります。
  • ログ レコードをフィルター処理して分析し、ユーザーが設定したルールでマークされたオブジェクト データのアクセス人気度を取得します。
  • 対応するライフサイクル管理ルールを生成します。
  • 生成されたライフサイクル管理ルールを対応するバケットに設定します。

未来

Ceph オブジェクト ストレージに基づく階層型ハイブリッド クラウド ストレージ ソリューションは、ユーザーのニーズを十分に満たすことができますが、双方向のデータ同期やプロキシの読み取りと書き込みなどの機能のサポートには、まだ改善の余地があります。

<<:  クラウドコンピューティングアーキテクチャに基づくスマート政府業務プラットフォームの設計と実装

>>:  Docker をすぐに使い始めるのに役立つ 6 つのツール

推薦する

専門家がデジタル変革とビジネス中心のハイブリッドクラウドの構築について議論

デジタル経済の台頭、インターネットビジネスモデルの変革、そして現在の経済環境の複雑化により、伝統的な...

クラウドネイティブが従来のアプリケーションの近代化を簡素化する方法

レガシー アプリケーションをクラウドに移行する「リフト アンド シフト」の現状では、企業のリスクと技...

ハイパースケールクラウドコンピューティングプロバイダーはAIクラウドサービスへの投資に注力している

今日、AI クラウド サービスは、データ サイエンティストや開発者を惹きつけ、自社のプラットフォーム...

Googleが検索ページをアップグレード、検索エンジンのユーザーエクスペリエンスの嵐を巻き起こす

百度と360検索エンジンが争っている間に、Googleは静かに検索ページをアップグレードし、検索ペー...

SEO 外部リンク最適化戦略: まだ包含だけを気にしていますか?

いつからかは覚えていませんが、SEOの外部リンク操作は役に立たないという話をよく聞きました。とにかく...

SEOVIPの助けを借りてSEOの長所と短所について話しましょう

数日前、元旦の休みにA5で見た「百度アルゴリズム更新、SEOVIPランキングが消えた原因を推測」とい...

ブランド マーケティング: デュレックスの 419 マーケティングの失敗についてお話しましょう。

4月19日、デュレックス微博は他のブランドとのインタラクティブな微博投稿をいくつか投稿した。中でも、...

王通: サイト内検索エンジン向け SEO 戦略

大規模および中規模のウェブサイトにはオンサイト検索エンジンが導入されるケースが増えています。オンサイ...

Baiduの評価期間の理解

Baidu にはウェブサイトの評価期間があることは誰もが知っていますが、公式には評価期間というものが...

hostcircle: オランダ サーバー (equinix)、月額 299 ユーロ、2*AMD Epyc Naples 7301/128g メモリ/2*480G SSD/300T トラフィック/10G 帯域幅

Hostcircle(2011年〜)は、オランダのデータセンター事業を主に運営するオランダの企業で、...

Baidu 音声検索についての考察

私たちがまだ PC で入力して検索している間、Baidu はすでにモバイル デバイスで音声検索を提供...

Friends Linkプラットフォームは、初心者のウェブマスターがアクセスしやすいプラットフォームです。

Friends Linkプラットフォームは、初心者のウェブマスターがアクセスしやすいプラットフォーム...

謝文:インターネットは涙を信じません。伝統的なメディアは3〜5年以内に急速に変化するはずです。

3年前、私は伝統的なメディア界に新しいメディアを紹介するよう何度か依頼されました。彼は厳しい口調と期...

58.comがニューヨーク証券取引所に上場

中国株は1年間沈黙していたが、今こそこの状況を打破すべき時だ!中国最大の分類情報サイト58.comは...

Baiduのアルゴリズムは頻繁に更新されるため、SEO担当者がアップグレードしないと手遅れになる。

百度はここ数ヶ月頻繁にアップデートしているので、SEOの世界は混乱しています。まず、「青大根アルゴリ...