ビッグデータとクラウドコンピューティングの深い統合はどのような側面に反映されていますか?

[[386838]]

ITエコシステム全体のさらなる発展に伴い、2021年には、IT実務家の間ではビッグデータの開発動向について一般的なコンセンサスが形成され、ビッグデータとクラウドコンピューティングのさらなる深い統合、つまりビッグデータがクラウドコンピューティングを取り入れてクラウドネイティブへと移行するという動向が高まっています。

ミン兄弟がここにいます。私たちは、ディープインテグレーションのトレンドの中で、ビッグデータとクラウドコンピューティングのディープインテグレーションが具体的にどこに現れるのかを一緒に見ていきます。

ビッグデータとクラウドコンピューティングの緊密な統合は、次の側面に反映されています。

1. アプリケーション側のビッグデータプラットフォームはクラウド上にあります。ビッグデータテクノロジを使用するビジネスアプリケーションビルダーは、独自のデータセンターを構築するのではなく、ビッグデータプラットフォームをクラウドに移行します。クラウドベンダーの IaaS レイヤー上に独自のビッグデータプラットフォームを構築する企業もあります。現状では、このようにクラウド上でビッグデータを活用する事例は比較的少ないです。クラウドベンダーが提供するPaaS層のビッグデータ関連製品を直接利用する企業もあれば、クラウドベンダーが発売するSaaS層のビッグデータ関連製品を直接利用する企業もあります。「クラウド移行」において強調する必要がある傾向が 1 つあります。それは、ベンダーロックインが発生しないことを誰もが非常に重視しているということです。基盤となるクラウドは、複数のパブリッククラウドとプライベートクラウドを統合したハイブリッドクラウドである場合があります。

2. クラウドコンピューティングベンダーは、ビッグデータに基づく独自の付加価値サービスを継続的にリリースしています。主要なクラウドベンダーは、市場競争力を高め、市場での地位をさらに強化/拡大するために、最も基本的な S3/OSS、EMR/E-MapReduce、前述の AWS RedShift、Alibaba Cloud の MaxCompute など、独自の統合ビッグデータ関連製品を積極的にリリースしています。さらに、さまざまなクラウドデータベース、クラウド上のサーバーレス形式のさまざまなビッグデータサービスなどがあります。次のスクリーンショットに示すように、このリストはまだ増え続けています。

3. 従来のビッグデータベンダーは、自社の製品やサービスを提供するためにクラウドに依存するようになりました。たとえば、Elastic は長年クラウドをベースとした独自の ELK テクノロジースタックを提供しており、Databricks のビッグデータプラットフォームと製品は常にクラウドをベースとして顧客にサービスを提供しており、Cloudera はビジネスモデルの変更を常に模索しています。

4. それぞれの特定のビッグデータコンポーネントは、独自のアーキテクチャを積極的に変更し、クラウドネイティブから「クラウド化」へと積極的に移行しています。概念レベルでは、ビッグデータは、初期の「データの局所性」と「モバイルデータはモバイルコンピューティングほど優れていない」という重視から、現在の「ストレージとコンピューティングの分離」に進化しました。新しくリリースされた各コンポーネントとフレームワークは、クラウドネイティブを積極的に採用しています。たとえば、Pulsa と TiDB は、ストレージとコンピューティングが分離されたクラウドネイティブアーキテクチャに基づいています。伝統的なコンポーネントには歴史的な負担が伴いますが、常に革新と変化を求めています。たとえば、Flink/Spark は深く統合されており、Kubernetes クラスターモードをサポートしています。 Kafka は、Zookeeper と Rebalance Protocol の静的メンバーシップへの依存を完全に排除するなど、フラワーのクラウド化も継続的に検討しています。古いことわざに「意志に従えば繁栄し、従わなければ滅びる」というのがあります。クラウドネイティブアーキテクチャに適さない一部の技術コンポーネントの市場は縮小しています。たとえば、多くのシナリオでは、Kubernetes が Yarn に取って代わり、オブジェクトストレージ OSS/S3 も HDFS に取って代わります。また、Apache コミュニティによって Ozone がリリースされたことも注目しています。このコンポーネントはオブジェクトストレージに基づいて、ファイルシステム API も統合して起動します。このコンポーネントの背後には、元の HDFS コミュニティからの多くのコミッターがコードを提供しており、このコンポーネントは Cloudera CDP プラットフォームにも組み込まれています。次の図は、Flink/Spark と Kubernetes の深い統合を示しています。(k8s オペレーターを使用して k8s クラスターで Spark/Flink ジョブを実行するだけでなく、ネイティブの深い統合であることに注意してください)

<<: 分散システムのCAP定理とBASE理論

>>: SpringBootとデータベーステーブルレコードに基づく分散ロックの実装