Tencent Cloud ビッグデータ チームが Apache コミュニティの新世代分散ストレージ システム Ozone 1.0.0 のリリースを主導

Tencent Cloud ビッグデータ チームが Apache コミュニティの新世代分散ストレージ システム Ozone 1.0.0 のリリースを主導

Tencent Cloud Big Data チームが主導する Ozone 1.0.0 バージョンが、Apache Hadoop コミュニティで正式にリリースされたことがわかりました。コミュニティによる2年以上の継続的な開発と、1,000を超える内部ノードでの実際の実装検証を経て、Ozone 1.0.0は大規模な本番環境に実際に導入できる能力を備えていることがわかりました。

Ozone は、Apache Hadoop コミュニティによって立ち上げられた新世代の分散ストレージ システムです。その登場により、多数の小さなファイルの保存問題が解決され、Hadoop 分散ファイルシステムのスケーラビリティの欠陥が解決されました。 Hadoop エコシステムにおける新しいオブジェクト ストレージ システムとして、数百億、さらには数千億のファイルのストレージをサポートできます。

テンセントクラウドビッグデータチームのオゾンプロジェクトリーダーである陳毅氏は、ビッグデータ分野の大手メーカーとして、テンセントはコミュニティに参加した最初の国内一流インターネット企業であると語った。すでにOzoneプロジェクトにおいて、クラスターネットワークトポロジ認識の開発とデータ書き込みMulti-Raftパイプライン機能の開発をリードしています。同時に、先進的なStorageContainerManager(SCM)高可用性HA機能も開発中です。

オゾンアーキテクチャ図

クラスター ネットワーク トポロジ認識を例にとると、従来のビッグ データ アーキテクチャでは、ネットワーク トポロジ構造を使用して、コンピューティング エンジンのスケジューラがデータに最も近いノードにタスクをスケジュールし、「データ ローカリティ」を実現できます。新たなコンピューティングとストレージの分離アーキテクチャでも、データのフォールト トレランスと高可用性を確保するために、クラスター ネットワーク トポロジ情報が必要です。

陳毅氏はさらに、Ozoneのアルファ版リリース後、テンセントの社内ビッグデータプラットフォームがOzoneプロダクションクラスターを立ち上げ、業務の一部のデータストレージを引き継いだと紹介した。データ サービスの量が増えるにつれて、Ozone の書き込みパフォーマンスに一定の変動とボトルネックがあることが徐々にわかりました。この発見に基づいて、Tencent Ozone プロジェクト チームはデータ書き込み Multi-Raft Pipeline 機能を設計および開発し、Ozone の書き込みスループットとパフォーマンスが大幅に向上しました。

さらに、Ozone の全体的な安定性とパフォーマンスをテストするために、アプリケーション導入の先駆者チームである Tencent は、1,000 個のデータ ノードのクラスターを社内に導入しました。数か月にわたる安定性およびストレステストが実施されました。この期間中、チームは OOM、ノードのクラッシュ、期待を下回るパフォーマンスなど、さまざまな問題に遭遇し、解決しました。包括的な最適化により、1,000 ノードの単一クラスターが長期間安定して稼働できるようになり、すべてのデータが正しいことが検証されました。

バージョン 1.0.0 では、1,000 ノードのクラスターでのテストに加えて、10 億のメタデータ オブジェクトもテストおよび最適化され、長年 HDFS を悩ませてきた多数の小さなファイルの問題がさらに解決されました。現在、Ozone 1.0.0 は、メタデータ ノードのメモリ使用量が 64 GB を超えない範囲で、10 KB の小さなオブジェクト 10 億個の書き込みを簡単にサポートできます。

Ozone と Hive、Spark、Impala などのコンピューティング フレームワークとのシームレスな統合を保証するために、Ozone 1.0.0 は Hive LLAP、Spark、Impala と統合されました。 TPC-DS テストでは、データ サイズが 100 GB と 1 TB の場合、Ozone は HDFS よりも全体的に 3.5% 優れていることが示されています。

継続的なテストと最適化を経て、アップグレードされた Ozone 1.0.0 ではバージョン機能において質的な飛躍が実現しました。 Ozone 1.0.0 は、Hadoop 互換ファイルシステム、Hadoop 2.x、Hadoop3.x 環境のサポートに加えて、Hadoop エコシステムの Kerberos 認証システムとも互換性があり、ユーザーに気付かれずに暗号化されたデータ ストレージと Ranger 認証統合、GDPR「消去権」、およびネットワーク アーキテクチャ認識をサポートします。

今後、テンセントクラウドビッグデータは、自社の技術優位性と蓄積を活かし、OzoneをベースとしたSCMに基づく新世代の高性能分散ファイルシステムを開発し、テンセントのより多くの内外業務へのOzoneの導入を推進し、より大規模な本番クラスターを展開していきます。同時に、オープンソースをさらに推進し、Hadoop コミュニティに深く参加して、Ozone の信頼性、安定性、パフォーマンスを向上させ、新世代のビッグデータ ファイルとオブジェクトのハイブリッド ストレージ システムに構築していきます。

特筆すべきは、Ozoneプロジェクトへの貢献に加え、テンセントのビッグデータチームは近年オープンソース分野での貢献を徐々に加速しており、現在ではコアビッグデータ機能のオープンソース化を完了していることだ。同時に、実際のビジネスシナリオを組み合わせてオープンソース技術の実装を加速し、技術的な実践と革新を通じてコミュニティに還元し、オープンソースに貢献し続けます。 Apache Foundation のビッグデータ プロジェクトでは、Tencent は Hadoop、Spark、Flink などの主流プロジェクトに多数の機能とパッチを提供してきました。


<<:  エッジインテリジェンス: この技術シフトが受け入れられつつある5つの理由

>>:  これらの企業は、ファーウェイのクラウドナレッジコンピューティングソリューションを基盤として、知識の力を解き放ちました。

推薦する

Google検索エンジンの原理

本稿では、ハイパーテキスト アプリケーションで広く使用されている大規模検索エンジンのプロトタイプであ...

キューブクラウド:元旦にすべての VPS が 12% オフ、300M 香港 CN2 GIA、2Gbps ロサンゼルス CN2 GIA、2Gbps ロサンゼルス AS4837

キューブクラウド(~)は新年特別プロモーションを開始し、すべてのVPSが12%割引となります。香港C...

怠け者のためのSEO: コンテンツ構築が重要

SEO に関しては、私はかなり怠け者だと認めざるを得ません。 SEO ウェブマスターとして、私が怠け...

中国情報通信研究院が分散クラウドとクラウドエッジ連携標準システムをリリース

現在、分散型クラウドおよびクラウドエッジ連携業界は急速な発展期にあり、関連する標準システムを早急に改...

舌先で中国語を聞き、舌先でマーケティングを味わう

「A Bite of China」に関して、最近とても人気がある言葉があります。それは「美食家」です...

Google ランキング アルゴリズムの調整: 広告が多すぎるとランキングに影響します

2月7日、Googleのアルゴリズムが新たな調整を受けたというニュースが届きました。その主な内容は、...

周紅一:製品を開発するには、まず自分自身を「バカモード」に切り替える必要があります

Qihoo 360 CEO 周紅毅唯一自慢できることは、ネット上で最も多くの失敗をし、最も多くの批判...

アマゾン ウェブ サービス、中国事業の「3つの柱」を築くための中国事業戦略を発表

アマゾンウェブサービスは2021年3月25日、北京でメディアコミュニケーション会議を開催し、「3つの...

58.comはどうやって石を触って川を渡るのでしょうか?試行錯誤の小さな一歩 B2B + タオバオ + 百度

58.com の創設者、ヤオ・ジンボ氏はじめに: 58.com は設立から 7 年経ち、石を手探りで...

サイトの内外両方に焦点を当ててSEOの二重の保険を作りましょう

ウェブサイトのランキングは、オンサイトとオフサイトの 2 つの側面によって決まります。多くの人は、S...

この記事はIaaS、PaaS、SaaSを理解するのに役立ちます

クラウド コンピューティングについて関係者と話していると、最後に IaaS、PaaS、SaaS など...

ウェブサイト最適化のアイデアと方法に関する個人的な洞察

SEO が批判されているインターネットの一般的な環境では、ほとんどの人が多かれ少なかれ混乱しています...

ウェブサイトがブロックされた後、トラフィックが減少するのではなく増加したのはなぜですか?

皆さんとコミュニケーションをとるためにA5に記事を書いてから、かなり長い時間が経ちました。私の心の中...

クラウドコンピューティングのコストを管理する4つの方法

[[421467]] COVID-19 パンデミックとそのロックダウン措置により、クラウド コンピュ...

クラウドデータベースはテクノロジースタックの重要な部分です

適切なクラウド データベースを導入すると、クラウドからモバイル、エッジに至るまで、企業が依存するさま...