Alibaba ビッグデータ クラウドネイティブプラクティス、EMR Spark on ACK 製品紹介

Alibaba ビッグデータ クラウドネイティブプラクティス、EMR Spark on ACK 製品紹介

1. クラウドネイティブの課題とAlibabaの実践

ビッグデータ技術開発動向

クラウドネイティブの課題

コンピューティングとストレージの分離

オブジェクトストレージをベースにしたHCFSファイルシステムの構築方法

既存のHDFSと完全に互換性があります
HDFSに匹敵するパフォーマンスを低コストで実現

シャッフルストレージとコンピューティングの分離

ACKハイブリッド異種モデルの問題を解決する方法

異種モデルにはローカル ディスクがありません。コミュニティ [Spark-25299] では、Spark の動的リソースについて議論およびサポートが行われ、業界のコンセンサスとなりました。

キャッシュソリューション

クロスコンピュータルームとクロス専用線ハイブリッドクラウドを効果的にサポートする方法

コンテナ内のキャッシュシステムをサポートする必要がある

ACK スケジューリング

スケジューリングパフォーマンスのボトルネックを解決する方法

パフォーマンスベンチマークYarn
マルチレベルキュー管理

他の

ピークシフトスケジュール
Yarnon ACKノードリソース相互認識

Alibaba Practice - ACK 上の EMR

全体的なソリューションの紹介

データ開発クラスター/スケジューリング プラットフォームを介してさまざまな実行プラットフォームに送信し、段階的なスケジューリングを行い、ビジネスのピークとオフピークの戦略に応じてクラウド ネイティブ データ レイク アーキテクチャを調整します。ACK は強力な弾力的な拡張および縮小機能を備えており、専用回線を使用してクラウド内外でハイブリッド スケジューリングを実行します。
ACKは優れた柔軟性で異種クラスタを管理します

2. Sparkコンテナ化ソリューション

ソリューションの紹介

RSS よくある質問

1. リモートシャッフルサービスが必要な理由は何ですか?

RSS を使用すると、Spark ジョブで Executor Pod にクラウド ディスクをマウントする必要がなくなります。クラウド ディスクをマウントすることは、スケーラビリティと大規模な生産慣行には役立ちません。
クラウド ディスクのサイズを事前に決定することはできません。大きすぎるとスペースが無駄になります。小さすぎると、シャッフルは失敗します。 RSS は、ストレージとコンピューティングの分離シナリオ向けに特別に設計されています。
Executor は、シャッフル データの管理を担当する RSS システムにシャッフル データを書き込みます。 Executor はアイドル状態のときにリサイクルできます。 [スパーク-25299]
動的リソースを完全にサポートし、データ偏りのあるロングテール タスクが Executor リソースを保持して解放されないようにすることを防ぎます。
2. RSS のパフォーマンス、コスト、スケーラビリティはどの程度ですか?

RSS はシャッフルに対して高度な最適化が施されており、ストレージとコンピューティングの分離シナリオや K8s のエラスティック シナリオ向けに特別に設計されています。
Shufflefetch ステージでは、reduce ステージでのランダム読み取りをシーケンシャル読み取りに変換できるため、ジョブの安定性とパフォーマンスが大幅に向上します。
シャッフル用にクラウド ディスクを追加することなく、元の K8s クラスター内のディスクを直接デプロイに使用できます。コスト効率が非常に高く、導入方法も柔軟です。

スパークシャッフル

numMapper * numReducerブロックを生成する
連続書き込みおよびランダム読み取り書き込み中の流出
単一レプリカ、データ損失にはステージの再計算が必要

EMR リモートシャッフルサービス

追加書き込みおよび書き込みなしの順次読み取り時のスピル
2部;コピーがメモリにコピーされると、そのコピーはパブリックネットワーク帯域幅を必要とせずにイントラネット経由でバックアップされます。

RSS TeraSort ベンチマーク

注: 10T Terasort を例にとると、圧縮後のシャッフル ボリュームは約 5.6T になります。 RSS シナリオでは、シャッフル読み取りがシーケンシャル読み取りに変更されるため、この規模のジョブのパフォーマンスが大幅に向上することがわかります。

ECI効果のスパーク

まとめ

<<:  配布中の地域的な問題により、300ラウンドの戦いに至った

>>:  クラウドテクノロジー|ハイブリッドクラウド管理プラットフォームのマルチリージョンアーキテクチャ

推薦する

Google Earth 10周年記念アップデートで新機能が追加

Google Earth は、Google の世界で最も人気のある製品の 1 つです。最近、Goog...

Baidu PaddlePaddleは、2019年世界人工知能会議で、世界中の開発者を支援する5つのコア機能を備えて発表されました。

ますます成熟するディープラーニング技術は、魅力的なインテリジェンスの時代を先導しています。 8月31...

addressnode-$7/4IP/1gメモリ/15gSSD/1.5Tトラフィック/ダラス

addressnode サーバーはダラスにあり、openvz をベースとし、純粋な SSD ハード ...

#送钱Linode-17ドルを送るための最新の割引コード

聖パトリックデーを祝して、Linode は 17 ドルのアカウント クレジットが付与される割引コード...

認定資格やリモートワークがクラ​​ウドコンピューティングの給与に与える影響

COVID-19 パンデミックにより、クラウド コンピューティング関連の職種の需要が急増しており、エ...

エージェントがWeChatモーメンツを活用する方法

2011年にWeChatが台頭して以来、私の周りの友人たちもどんどんWeChatやモーメントを使い始...

Pacificrack: クアドラネット傘下の新しい独立ブランド、中国でのルート最適化、Alipay/PayPal

Pacificrackは2008年11月にquadranetから分離し、独立して運営を開始しました。...

ssdvps-1g メモリ/30g SSD/2T トラフィック/4IP/年間 48 ドル/ロサンゼルス/ニューヨーク/カナダ

ssdvps は多くのプロモーションを開催しており、SSD ハードドライブとほぼ無料の安価な IP ...

1qcloud - $7/xen/onapp/1g メモリ/30g SSD/100M 無制限

1qcloud は最近設立されました。基盤となるインフラストラクチャは XEN 仮想化で、ONAPP...

WeChatのO2Oクローズドループシステムが失敗した場合、ビッグデータの金鉱をどうやって活用するのか?

編集者注:WeChatのユーザー数は2億人を超えており、これは中国移動の携帯電話ユーザーの3分の1と...

ウェブサイトSEOの焦点は最適化ではなく監視です

みなさんこんにちは。私はMuzi Chengzhouです。 Baidu 検索研究開発部の公式ブログの...

フォーラムの外部リンクで私の経験を共有する

最近、フォーラムの外部リンクは不安定で削除されやすいので、フォーラムの外部リンクを避けるようにすべき...

クラウド技術を未開発市場に導入

ハイパースケール クラウド リージョンは素晴らしいですが、小規模で発展途上国にクラウド サービスを導...

ブランドプロモーションのためのQ&Aプラットフォーム

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますインターネ...

百度ニュースはニュースサイト上の広告スタイルのニュースを拒否するために剣を抜く

現在、6月中旬に始まった「百度地震」は、依然として大多数のウェブマスターとSEO担当者の注目を集めて...