クラウドネイティブのビッグデータ知識マップを1つの記事で学ぶ

1. 一般的な傾向: クラウドネイティブのビッグデータ

業界の急速な発展とビジネスの高速反復により、データ量も爆発的に増加しました。従来のビッグデータアーキテクチャには、リソースの利用、効率的な運用と保守、可観測性などに多くの欠点があり、現在の開発ニーズに適応できなくなっています。具体的には、従来のビッグデータアーキテクチャには次のような問題があります。

従来のビッグデータには多数のコンポーネントがあり、インストールとメンテナンスが複雑で、実稼働での使用には多くの人的サポートが必要になります。
オンラインサービスやビッグデータサービスでは独立したリソースプールが使用されるため、リソースの転送が困難になり、使用率が低下し、コストが上昇します。
従来のビッグデータアーキテクチャには CICD メカニズムがなく、テストおよび品質管理プロセスが欠けています。
従来のビッグデータには、高可用性、マルチテナント、ログ記録、監視、アラーム、認識、承認、監査、課金などのすぐに使用できる機能が欠けています。

クラウドネイティブビッグデータは、ビッグデータプラットフォームの次世代アーキテクチャと運用形式です。クラウドネイティブなプラットフォーム展開、クラウドネイティブなコンピューティングスケジューリング、統合されたストレージ負荷を特徴とするビッグデータ処理および分析プラットフォームです。複数のコンピューティング負荷をサポートし、より柔軟なコンピューティングスケジューリングと高いストレージ効率を実現します。クラウドネイティブビッグデータは、次の3つの観点から、ビッグデータの活用と運用に大きな変化をもたらしました。

ビジネスレベル: 従来のモデルでは、ビジネスは独立してリソースを占有します。ビジネスのピーク時にはすべてのリソースが占有されますが、オフピーク時にはリソースの使用率は 20% ～ 30% にしかならない場合があります。クラウドネイティブモデルでは、オンラインビジネスやオフラインビジネスなどのビジネスが同じ場所に配置され、タイムシェアリング多重化方式でリソースを呼び出すことができます。
リソースのスケジューリング: 従来のモードでは、Flink クラスターに 100 台のマシンがある場合、これらの 100 台のマシンが排他的に使用されます。クラウドネイティブモードは、リソースプールの概念を仮想化します。リソースプールは、Flink クラスターや Spark クラスターなど、さまざまな種類のビッグデータクラスターを実行できます。さらに、これらのクラスターはオンデマンドでプルアップされ、すぐにリサイクルでき、不要になったら解放できます。
統合されたデプロイメントと運用保守インストール: 本来の運用保守方法では、各クラスターが各クラスターの状態を維持する必要があります。クラスター間で遅延や障害が発生すると、問題の場所がより複雑になります。クラウドネイティブには、Helm Chart または Operator の形式で統一された方法でサービスを公開、運用、保守する統合サービス管理インターフェースがあります。これにより、問題が発生した場合、統一されたインターフェースを通じて問題を表示および管理できるようになります。監視アラームログもK8s Pod（プロセス）とNodeのコレクションと統合されます。監視アラームでは、K8s ノードとコンテナの両方、およびサービスの実行ステータスを確認できます。

2. 「3+1」アーキテクチャモデル: 3つのプラットフォームと1つのサポートシステム

クラウドネイティブビッグデータプラットフォームの機能アーキテクチャは、「3 つの主要プラットフォームと 1 つの主要サポートシステム」として要約できます。 3 つの主要なプラットフォームは、プラットフォームサービス層、コアエンジン層、リソーススケジューリング層です。

プラットフォームサービス層はオープンソースコンポーネントプラグインによって統合されており、柔軟な構成と選択をサポートします。
コアエンジン層には、Flink、Spark、クラウドネイティブメッセージングエンジン、リアルタイムサービス分析エンジン、クラウドネイティブログ検索、統合ストレージ HDFS などのコアコンポーネントが含まれており、ストレージとコンピューティングの分離と自動チューニングをサポートします。
リソーススケジューリングレイヤーは、統合コンピューティングリソーススケジューリングと統合エンジンクラウドネイティブライフサイクル管理をサポートします。

主要な支援システムは、オープンソースコンポーネント、サービスライフサイクル、クラスター、災害復旧、可観測性を統合したワンストップ管理プラットフォームである運用保守管理プラットフォームです。

1. プラットフォームサービス層

プラットフォームサービス層は、オープンソースコンポーネントによってプラグイン方式で統合されており、柔軟に構成および選択することができ、これがプラットフォームアーキテクチャ全体の重要な設計となっています。

既存のユーザー習慣を尊重するために、ユーザーが使い慣れているオープンソースコンポーネントがプラグインの形で統合されています。現在主流のビッグデータの作業シナリオには、主に情報ポータル、データエンジニアリング、データサイエンスが含まれます。それぞれのシナリオには、ユーザーがよく使用するオープンソースコンポーネントが多数あります。

情報ポータル:一般的には、Superset、Apache Ranger などの BI レポートタイプ。
データエンジニアリング:一般的には、ビッグデータ開発エンジニアやデータウェアハウスエンジニアであり、データ開発、データ ETL、データ処理、およびクリーニングに使用されるコンポーネントを担当します。たとえば、データ開発には Zeppelin Notebook を使用し、データガバナンスプラットフォームやスケジューリングプラットフォームに接続します。
データサイエンス: Jupyter、Ray などの AI シナリオに一般的に適用できます。

上記の 3 つのシナリオは、ビッグデータの作業では非常に一般的です。クラウドネイティブビッグデータプラットフォームは、これらのオープンソースコンポーネントをプラグイン方式で統合しており、すぐに使用でき、利便性と柔軟性に優れています。

2. コアエンジン層

コアエンジン層は、ストレージとコンピューティングを分離する特性を持っています。

コンピューティング面では、Flink や Spark などの主流のビッグデータコンピューティングエンジンに加え、クラウドネイティブメッセージングミドルウェア、リアルタイムサービス分析エンジン、クラウドネイティブログ検索サービスを統合しています。

ストレージ面では、HDFS セマンティクスと互換性があり、TOS 透過アクセラレーション、キャッシュアクセラレーション、データレイク管理をサポートする統合ストレージが採用されています。

自動チューニング

クラウドネイティブに向けたビッグデータの開発には、コンピューティングエンジンとクラウドネイティブの深い統合を促進し、自動チューニングに向けて進化することが必要です。私たちの経験から、このプロセスは次の 4 つの段階に分けられます。

フェーズ1

#K8s クラスターのデプロイと管理

#コンテナとイメージの管理に適用

フェーズII

# リソースプーリング: 基盤となる K8s リソースを認識しない

#リソースコロケーション: オフラインジョブでのクラスターリソースの共有

#ジョブリソースの割り当てと並列性のみに焦点を当てる

#スムーズな進化: YARN と Kubernetes ジョブの共存

フェーズ3

#仮想キュー: クラスターやコンピュータルーム間でのジョブの自動スケジュールをサポートします

#アイドルリソースを活用する: 過剰発行と排除のメカニズムを使用してアイドルリソースを活用する

#半自動エンジンチューニング:インテリジェントチームを使用してタスク構成パラメータを推奨し、手動で確認して発行します

第4段階（現在の最終目標でもある）

#グローバル自動災害復旧: データセンター全体の自動スケジュールと災害復旧

#自動リソース最適化: 負荷がない場合、リソース使用量を 0 に減らすことができます。ミリ秒レベルのコールドスタート遅延

#エンジン自動チューニング：AI技術を使わず、コンピューティングネットワークやメモリなどのリソースの使用を最適化するハイブリッド

ストレージとコンピューティングの分離

クラウドネイティブの具体的な作業は、主に次の 3 つの部分で構成されます。

統合管理とスケジュール:

セキュリティリスクを軽減するためにデータ権限を統一する: リソースプールにはデータが含まれており、セキュリティリスクを軽減するために権限とセキュリティ管理を統一する必要があります。
統合されたリソースのスケジュールと再利用: リソースプールでは、統合されたリソースのスケジュールと再利用も必要です。例えば、ストレージを統合した後は、異なる業務で再利用する際にも統合スケジューリングを行うことができます。

ストレージ容量の共有:

データのコピーを統一し、データのアンロードを削減します。データタスクは頻繁にエラーが発生し、同期によってリソースが消費されます。タスク同期エラーが発生した場合、その原因の特定が困難で、非常に手間がかかるため、データのアンロードは可能な限り削減する必要があります。
高い信頼性要件を保証する統合データ災害復旧: ストレージとコンピューティングの分離の複数の展開形式をサポートします。コンピューティングとストレージの 2 つのクラスターに完全に分割することも、コンピューティングとストレージを K8s クラスター上で混在させることもできますが、この場合はコンピューティングとストレージは別々に管理されます。

ストレージとコンピューティングの分離負荷:

スケールアップ、スケールダウン、データの再バランス調整にかかる時間を短縮: クラウドネイティブのデータレイク、データウェアハウス、メッセージキュー、検索エンジンがストレージとコンピューティングの分離の展開モードをサポートしている場合は、ストレージを統合されたビッグデータファイルストレージまたはオブジェクトストレージに配置できるため、スケールアップ、スケールダウン、データの再バランス調整にかかる時間を短縮できます。
要求応答性の向上: 統合されたビッグデータファイルストレージまたはオブジェクトストレージにストレージを配置すると、要求応答性も向上します。

3. リソーススケジューリングレイヤー

リソーススケジューリングレイヤーは、主にコンピューティングリソーススケジューリングとエンジンクラウドネイティブライフサイクル管理を統合するために使用されます。次の 4 つのモジュールが含まれます。

マルチクラウドの展開とスケジューリング: クロスクラウドのクォータ管理 (統合クォータ) を提供し、高可用性を実現します。
統合リソースプール: 統合負荷計算とオフラインコロケーションをサポートします。
クラウドネイティブ YARN: YARN リソースロードと互換性があり、既存の Hadoop ロードをスムーズに移行します。
Cloud Native Operator: Helm Chart を使用して、エンジン全体のクラウドネイティブライフサイクルを管理します。

従来のリソーススケジューリングシステムをクラウドネイティブに進化させるには、2 つの並行した方法があります。次の 2 つのいずれかを選択できます。

サーバーレス YARN : 上の図からわかるように、リソースマネージャー、ノードマネージャー、アプリケーションマスターは、YARN の 3 つの主要コンポーネントです。このソリューションはリソースマネージャーで変更され、新しいコンポーネントが追加されます。この変換後、お客様にとって、新しいシステムは YARN クライアントを介してジョブを送信する使用方法を引き続き維持しますが、リソースマネージャーレイヤーでそれらをカプセル化してスケジュールし、ユーザーが API サーバー (実際には K8s API サーバー) に直接ジョブを送信できるようにします。つまり、YARN のリソースマネージャーを変革することで、もともと YARN を使用してリソース要求を送信していた企業は、K8s にビジネスをスムーズに送信できるようになります。
Cloud Native Operator : このソリューションは、既存のビッグデータコンポーネントをクラウドネイティブに展開し、Flink や Spark などのコンピューティングエンジンをクラウドネイティブな方法で K8s に展開するためのものです。このソリューションには 2 つの利点があります。 1 つ目は、オペレーターを使用してコンピューティングエンジンをそのライフサイクル全体にわたって管理できるため、ユーザーはより優れたバッチジョブの再起動戦略を実装できるようになります。 2 つ目は、クラウドネイティブと K8s がより適切に統合されていることです。 Pod 上のログをより細かく収集し、ビッグデータエンジン全体とジョブの実行状態を追跡できます。

統合リソースプール（左）クラスター間、コンピュータルーム間、リージョン間をサポートするグローバルリソースレイク (右)

スケジュールレベルでは、クラウドネイティブを実現するために次の 2 つのことを行う必要があります。

統合リソースプール

仮想リソースプールの概念には、次のような基本的な要件が必要であると考えています。

キューのプロパティ: リソースプールの最小値と最大値のプロパティを設定する
より強力なスケジューリング戦略: タスク優先度スケジューリング、GANG スケジューリング、DRF スケジューリング (GANG スケジューリング戦略では、ジョブのすべてのコンテナが一緒にスケジュールされ、DRF アルゴリズムでは、リソースプール内の各ジョブにリソースが公平に割り当てられます)
より優れた分離制御: 各ポッドのCPUタイムスライスとメモリ使用量を制限します
より柔軟なリソース使用: アイドルリソースの利用とキューのプリエンプション

グローバルリソースレイク

ResLakeは、リソース、グローバルリソースプール、クォータ管理のグローバルビューを備えています。
コンピュータルームやクラスタに制限はなく、最終的なスケジュール目標はリソースの利用を最適化することです。

たとえば、現在、クラスター A にリソースプールがあり、クラスター B にリソースプールがあります。災害復旧の要件を満たすために、これらの 2 つのリソースプールをプライマリリソースプールとバックアップリソースプールとして使用し、仮想キューの概念を抽象化することができます。このように、タスクを送信するときに、ユーザーはリソースプールに注意を払う必要はなく、仮想キューに送信するだけで済みます。クラスタA/コンピュータ室に割り当てるか、クラスタB/コンピュータ室に割り当てるかは、以下のクラスタ/コンピュータ室の稼働状況に応じて自動的に決定されます。

4. 運用保守管理プラットフォーム

オープンソースコンポーネント、サービスライフサイクル、クラスタリング、ディザスタリカバリ、および可観測性を統合したワンストップ管理プラットフォーム。

ビッグデータプラットフォームには、可観測性、オープンソースコンポーネント管理、サービスライフサイクル管理、クラスター管理、災害復旧管理の機能とサービスが必要です。図中の青い部分は、クラウドネイティブコンピューティング向けに特別に強化されています。詳細な説明は次のとおりです。

フルリンク監視：コールチェーン、コール関係などを含むリンク全体で各サービスの実行状態を監視できるため、障害が発生した場合に問題のある特定のコールリンクを特定できます。
オープンソースコンポーネント管理: Helm Chart を通じてコンポーネントをデプロイし、開始、停止、クリーンアップなどの一連の操作を含む実行中のコンポーネントのライフサイクル全体を Operator を通じて管理します。したがって、オープンソースコンポーネント管理は、エンジンや特定のオープンソースコンポーネント、さらには K8s プラットフォーム上のタスクを管理するための特別なモードです。このモードの利点は、より高速で、よりきめ細かいことです。
サービスライフサイクル管理: 統合されたビジュアル管理インターフェイスを通じて、サービスコンポーネントのレンダリング、公開、およびステータス管理サービスを提供します。
クラスター管理：クラスターの拡張と縮小、クラスター情報の統計に加え、ジョブ全体の実行状況やサービスの実行状況をより適切に監視するために、コンテナのログをより細かく収集する必要がある場合が多いため、この部分を強化しました。また、コンテナの実行状況を把握するために、Web Shell 経由で Pod にログインし、コマンドライン形式で Linux の指示を入力し、ローカル端末上でリモートサーバーを操作するのと同様に、ブラウザ上でジョブ実行環境を直接操作できるサービスを提供しています。これは、ジョブの開発と問題の特定に非常に実用的なツールです。

3. コスト削減と効率化：ユーザーシナリオと価値

1. ハイブリッド展開によりリソースの利用率が向上する

ハイブリッドユーザーシナリオでは、クラウドネイティブビッグデータプラットフォームは、オンライン、ストリーミング、オフライン、クエリ分析、バッチ処理など、さまざまなビジネスシナリオをサポートします。

ビジネスシナリオが異なれば、基盤となるリソースの応答に関するコア指標も異なるため、基盤となるリソースの最適化要件も異なります。これらのさまざまなシナリオのビジネス指標の要件を満たすには、コロケーション中に対応する最適化に重点を置く必要があります。コロケーションの典型的なシナリオを 2 つ示します。

FlinkとSparkの共存 。つまり、Flink がリソースを使用しない場合や負荷が低い場合は、リソースを Spark に解放することができます。 Spark がバッチコンピューティングを完了すると、アイドルリソースをストリーミングコンピューティング (Flink) に解放することもできます。
APP リアルタイム呼び出しとビッグデータシナリオのハイブリッド展開 。上の図に記載されている 5 つのシナリオのうち、右側の 4 つはビッグデータシナリオです。ビッグデータシナリオでは、APP リアルタイム呼び出しシナリオでリソースを再利用できます。つまり、APP のオンラインリソース使用量が少ない場合は、ビッグデータシナリオに解放することができ、その逆も同様です。

ByteDance を例にとると、さまざまなコンピューティングリソースを組み合わせて展開およびスケジュール設定することで、顕著なメリットが得られました。

1 つ目は効率的なリソース切り替えで、数分以内に数万のオフラインリソースを解放できます。例えば、2022年の春節期間中、Douyinのオンラインリソースの需要は非常に高く、数分以内に数十万コアのオフラインリソースをオンラインリソースに割り当てました。突然のソーシャルホットスポットによって極端に弾力性のあるシナリオが発生した場合、効率的なリソースの切り替えは、ビジネスにとって「命を救う武器」となることさえあります。
2つ目は利用率の向上です。コロケーションにより、全体的なパブリックオーバーヘッドを削減でき、ByteDance 内での利用率が 2% 向上しました。
最後に、オフラインリソースの統合管理とすべてのオフラインリソースの共有により、割り当て制御、スケジュール、操作、および機械の操作とメンテナンスを統合できます。

2. マルチクラウド展開により、マルチクラウドコストの最適な再利用が実現

マルチクラウドユーザーシナリオでは、マルチクラウドの展開とスケジュール設定を提供して、マルチクラウドのコストを最適化した再利用とクロスクラウドキューの災害復旧を実現できます。

グローバル仮想キューの提供: ユーザーが複数のクラウドを使用する場合、まずグローバル仮想キューの概念を提供する必要があります。上の図に示すように、仮想キューは 2 つの異なる物理リソースプールに対応するリソースプールです。送信時に、ユーザーは実際の対応するクラスターに注意を払う必要はなく、代わりに仮想キューに送信します。下位層はそれに応じてジョブをスケジュールし、適切なクラスター/コンピュータールーム/キューに自動的に配布するため、災害復旧機能が効果的に向上します。
アプリケーションは複数の要素に基づいてトラフィック分散を選択します。マルチクラウド展開のもう 1 つの利点は、複数の要素を総合的に考慮してトラフィック分散を選択できることです。たとえば、マルチクラウドのシナリオでは、AZ1 はメーカー 1、AZ2 はメーカー 2 であると理解されます。ここで、同じ数の CU を使用すると、メーカー 2 の方がメーカー 1 よりも 50% コストが高くなることがわかります。この場合、マルチクラウドスケジューリングを使用して、トラフィックを可能な限りメーカー 1 に分散できます。これはコストの観点から考慮された状況です。もちろん、コストは削減されるものの、ダウンタイムが頻繁に発生したり、応答時間が長くなったり、タスクステータスのエラー率が高くなったりする状況も考えられます。この場合、重要なアプリケーションをあらゆる面でより優れた指標を備えたコンピュータルームに配置する必要があります。一般的に、トラフィックの配分は複数の要素を総合的に考慮して行われます。マルチクラウド展開シナリオでは、ユーザーがマルチクラウドコストを最適に再利用できるように支援します。

<<: Docker はクリーンな Ubuntu システムを作成し、Android ソースコードをコンパイルします

>>: [クラウドネイティブ] 一般的な Helm コマンド (チャートのインストール、アップグレード、ロールバック、アンインストールなど)

digital-vm: ロサンゼルスの 10Gbps 無制限帯域幅 VPS を 8 か月使用してレビュー

クラウドネイティブのビッグデータ知識マップを1つの記事で学ぶ

1. 一般的な傾向: クラウドネイティブのビッグデータ

2. 「3+1」アーキテクチャモデル: 3つのプラットフォームと1つのサポートシステム

1. プラットフォームサービス層

2. コアエンジン層

自動チューニング

ストレージとコンピューティングの分離

3. リソーススケジューリングレイヤー

4. 運用保守管理プラットフォーム

3. コスト削減と効率化：ユーザーシナリオと価値

1. ハイブリッド展開によりリソースの利用率が向上する

2. マルチクラウド展開により、マルチクラウドコストの最適な再利用が実現

digital-vm: ロサンゼルスの 10Gbps 無制限帯域幅 VPS を 8 か月使用してレビュー

インターネットSEOから：個人の生活のSEO最適化について語る

ハッカーが闇産業チェーンの秘密を暴露：最大の抜け穴はユーザー自身

vpshostingdeal-128m メモリ/Xen/20g ハードディスク/500g トラフィック/年間 20 ドル

見逃せない人気の継続的インテグレーションツール 8 選

クラウドサービスは標準になるのでしょうか? 2020年までにワークロードの83%がクラウドで実行される

flokinet: ルーマニア VPS/ルーマニアサーバー、プライバシー保護、1Tbps の高防御を内蔵

ファッションEコマースサイトLittleBlackBagがモデル分析のために275万ドルを調達

SEOピラミッドマトリックスとその動作原理の簡単な分析

オランダのvpsのCUII（AS9929）ラインを使用したlocvpsの簡単なテスト

推薦する

#11.11# ホスト: 米国 VPS、50% 割引、年間 18 ドル、1G メモリ/1 コア (Ryzen 9 5950X)/30g NVMe/2T トラフィック/10Gbps 帯域幅、複数のコンピュータルーム

Dockerイメージとコンテナの簡単な分析

中国のP2Pオンライン融資：疎外と越境への懸念

AIがクラウドネットワークにもたらす破壊力

SEO最適化を満たすためにCMSシステムに必要な機能について簡単に説明します。

ウェブサイトのナビゲーション分析: 迷子にならないようにする (パート 1)

Docker ネットワークの基礎 |仮想ネットワークデバイスペア（Veth）の原理

食品安全ウェブサイト、アクセス過多で麻痺：創設者が卒業を延期

Paipaiwo Allianceのプロモーションが効果を発揮するまでにどれくらい時間がかかりますか？Paipaiwo Allianceのプロモーションの効果は明らかですか？

テンセントクラウドが新しい星星海サーバーをリリース、従来製品のアプリケーション規模は前年比30倍に増加

クラウド戦略 Q&A: 企業が知っておく必要があることは何ですか?

KubeDL が CNCF Sandbox に参加し、AI 業界のクラウドネイティブ化を加速

オンラインでブランドをマーケティングする際に避けるべき 7 つの間違い

スマートホストデンバー VPS はいかがでしょうか? 「コロラド - 米国」データセンターの VPS の簡単なレビュー、Netflix\ChatGPT\Spotify\Tiktok のロックを解除

#BlackFriday# V.PS: VPS フラッシュセール €20.23/年。通常の VPS を 1 年間購入すると 6 か月間無料、完全に最適化されたルート、香港/東京/サンノゼ/フランクフルト/アムステルダム