Alibaba ビッグデータ クラウドネイティブプラクティス、EMR Spark on ACK 製品紹介

Alibaba ビッグデータ クラウドネイティブプラクティス、EMR Spark on ACK 製品紹介

1. クラウドネイティブの課題とAlibabaの実践

ビッグデータ技術開発動向

クラウドネイティブの課題

コンピューティングとストレージの分離

オブジェクトストレージをベースにしたHCFSファイルシステムの構築方法

既存のHDFSと完全に互換性があります
HDFSに匹敵するパフォーマンスを低コストで実現

シャッフルストレージとコンピューティングの分離

ACKハイブリッド異種モデルの問題を解決する方法

異種モデルにはローカル ディスクがありません。コミュニティ [Spark-25299] では、Spark の動的リソースについて議論およびサポートが行われ、業界のコンセンサスとなりました。

キャッシュソリューション

クロスコンピュータルームとクロス専用線ハイブリッドクラウドを効果的にサポートする方法

コンテナ内のキャッシュシステムをサポートする必要がある

ACK スケジューリング

スケジューリングパフォーマンスのボトルネックを解決する方法

パフォーマンスベンチマークYarn
マルチレベルキュー管理

他の

ピークシフトスケジュール
Yarnon ACKノードリソース相互認識

Alibaba Practice - ACK 上の EMR

全体的なソリューションの紹介

データ開発クラスター/スケジューリング プラットフォームを介してさまざまな実行プラットフォームに送信し、段階的なスケジューリングを行い、ビジネスのピークとオフピークの戦略に応じてクラウド ネイティブ データ レイク アーキテクチャを調整します。ACK は強力な弾力的な拡張および縮小機能を備えており、専用回線を使用してクラウド内外でハイブリッド スケジューリングを実行します。
ACKは優れた柔軟性で異種クラスタを管理します

2. Sparkコンテナ化ソリューション

ソリューションの紹介

RSS よくある質問

1. リモートシャッフルサービスが必要な理由は何ですか?

RSS を使用すると、Spark ジョブで Executor Pod にクラウド ディスクをマウントする必要がなくなります。クラウド ディスクをマウントすることは、スケーラビリティと大規模な生産慣行には役立ちません。
クラウド ディスクのサイズを事前に決定することはできません。大きすぎるとスペースが無駄になります。小さすぎると、シャッフルは失敗します。 RSS は、ストレージとコンピューティングの分離シナリオ向けに特別に設計されています。
Executor は、シャッフル データの管理を担当する RSS システムにシャッフル データを書き込みます。 Executor はアイドル状態のときにリサイクルできます。 [スパーク-25299]
動的リソースを完全にサポートし、データ偏りのあるロングテール タスクが Executor リソースを保持して解放されないようにすることを防ぎます。
2. RSS のパフォーマンス、コスト、スケーラビリティはどの程度ですか?

RSS はシャッフルに対して高度な最適化が施されており、ストレージとコンピューティングの分離シナリオや K8s のエラスティック シナリオ向けに特別に設計されています。
Shufflefetch ステージでは、reduce ステージでのランダム読み取りをシーケンシャル読み取りに変換できるため、ジョブの安定性とパフォーマンスが大幅に向上します。
シャッフル用にクラウド ディスクを追加することなく、元の K8s クラスター内のディスクを直接デプロイに使用できます。コスト効率が非常に高く、導入方法も柔軟です。

スパークシャッフル

numMapper * numReducerブロックを生成する
連続書き込みおよびランダム読み取り書き込み中の流出
単一レプリカ、データ損失にはステージの再計算が必要

EMR リモートシャッフルサービス

追加書き込みおよび書き込みなしの順次読み取り時のスピル
2部;コピーがメモリにコピーされると、そのコピーはパブリックネットワーク帯域幅を必要とせずにイントラネット経由でバックアップされます。

RSS TeraSort ベンチマーク

注: 10T Terasort を例にとると、圧縮後のシャッフル ボリュームは約 5.6T になります。 RSS シナリオでは、シャッフル読み取りがシーケンシャル読み取りに変更されるため、この規模のジョブのパフォーマンスが大幅に向上することがわかります。

ECI効果のスパーク

まとめ

<<:  配布中の地域的な問題により、300ラウンドの戦いに至った

>>:  クラウドテクノロジー|ハイブリッドクラウド管理プラットフォームのマルチリージョンアーキテクチャ

推薦する

ウェブサイトのランキングに影響を与える6つの主な要因

最近、Baiduは大きなアップデートを行っておらず、ウェブマスターは非常に落ち着いていますが、多くの...

ウェブサイトを訪問したBaiduスパイダーの数を分析する方法

最近、蔡蔡は何もすることがないときは、いろいろなフォーラムに行って見るのが好きです。なぜでしょうか。...

ラジオ2023、未来はすぐそこ

VMware が設立されてから 25 年が経ち、イノベーションは VMware の代名詞となりました...

奇伝中国網は利益相反を抱えており、侯小強は山大文学を統合する機会を捉えている

陳天橋氏が未来の二大原動力の一つとみなす山大文学は、「七電嵐」への対応に追われながらも、IPOの再開...

サーバーNV-$5/KVM/1g メモリ/55g ハードディスク/1.25T トラフィック/G ポート/英国

serversnv は正式に登録された会社 (No.09023246) で、現在は主に KVM と ...

ウェブサイトのページと機能の主な目的:ユーザーの心理的ニーズを調整する(パート 2)

前回のウェブサイトのウェブページと機能開発に関する記事では、主に業界の共通コンテンツと業界の設計につ...

韓国の文化産業の台頭により、オンライン販売商品の人気が高まり、文化マーケティングが韓国の主流のマーケティングモデルになりました。

1993年に韓国CCTVが初めて紹介した韓国ドラマ「嫉妬」に始まり、「愛がなんだ」「天橋風雲」「銭湯...

5つの異なるタイプのエッジソリューション

IDC の調査によると、人工知能、5G、ネットワーク、IoT テクノロジーの急増により、エッジ ソリ...

同城旅行は数千万元を投じてLY.comという新しいドメイン名を購入し、無線端末の開発に注力している。

蘇州の一角にある有名な「草の根」企業であるTongcheng.com(現在はTongcheng Tr...

ビッグテクノロジー時代のネットワーク変革

テクノロジーは常に急速に発展しており、私たちの日常生活にますます統合されつつあります。インターネット...

8億人を超えるユーザーを抱えるPinduoduoは次に何をするのでしょうか?

5月26日夜、ピンドゥオドゥオは第1四半期の財務報告を発表した。これは黄正氏が会長を退任し、陳磊氏が...

大規模インターネットに不可欠なアーキテクチャ技術: 高性能 + 分散 + オープンソースフレームワーク + マイクロサービス

一部の Java プログラマーにとって、Java アーキテクトはキャリア目標として考えるべきものです...

分析データの氾濫を克服するクラウドコンピューティングの役割

情報インフラストラクチャを近代化する戦略の一環として、企業はクラウド コンピューティングをより有効に...