OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

[51CTO.com からのオリジナル記事] 現在、OpenStack プライベート クラウド アプリケーションは、長い期間にわたる技術の蓄積と市場の開拓を経て、製品の成熟度と顧客の認知度の面で成熟期に達しています。 OpenStack をベースとしたクラウド環境は増加していますが、多くの OpenStack クラウド環境では、AWS と同様の Elastic MapReduce、ビッグデータ用 SQL、OLAP のサポートなどのビッグデータ サービスが提供されていません。同時に、ユーザー ビジネスが徐々にクラウドに移行するにつれて、クラウド上にビッグデータ システムを展開する需要がますます一般的かつ緊急になっています。

2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開催されました。 2日目の午前中に開催された「OpenStack イノベーションと実践」フォーラムでは、OStorage の創設者兼 CTO である Li Mingyu 氏が「OpenStack クラウド上でのビッグデータ システムの実行: 問題、方法、実践」と題した素晴らしい講演を行いました。 OpenStack クラウド環境でビッグデータ システムを実行する方法、実際の運用でよくある問題、およびこれらの問題を解決するためにオブジェクト ストレージを使用する方法について詳しく説明しました。会議後、51CTOの記者がWOT2018グローバルソフトウェアおよび運用技術サミットでの李明宇氏の講演内容をまとめました。

OpenStack環境でビッグデータシステムを実行する2つの方法

李明宇氏は以前、中国科学院ソフトウェア研究所に勤務していた。彼は科学的研究に加えて、実用的なエンジニアリング問題の解決に重点を置き、分散およびクラウド コンピューティング システムに関する関連研究開発作業を行うチームを率いました。中国科学院を退職後、李明宇氏はOpenStackなどのクラウドコンピューティングやビッグデータに関連するオープンソース技術の研究と普及に尽力し、企業に対してコンサルティング、評価などの技術サービスを提供しています。

彼はスピーチの中で、OpenStack は多くの小さなオープンソース プロジェクトを含む大規模なシステムであり、その中で最もよく知られているのは、仮想マシンを管理する Nova、ネットワークを管理する Neutron、クラウド ハード ドライブを管理する Cinder、認証を管理する Keystone、イメージとテンプレートを管理する Glance、および Swift オブジェクト ストレージの 6 つのコア プロジェクトであると述べました。

Li Mingyu 氏は、OpenStack 環境でビッグデータ システムを実行するには 2 つの方法があり、1 つ目の方法は OpenStack サービス コンポーネント Sahara をベースにしたものであると述べました。彼は、Sahara の使い方を皆に知ってもらうために、現場でデモを披露しました。 Sahara は、実際には OpenStack によって Hadoop を実行するために特別に構築されたプロジェクトです。ユーザーが使用する OpenStack クラウド環境に Sahara がデプロイされていない場合はどうなりますか?この場合、2 番目の方法を使用できます。 2 番目の方法は、Heat および Hadoop コミュニティのデプロイメント ツールを使用して、ユーザーが Hadoop/ビッグ データ システム ノードを直接管理することです。 OpenStack クラウド プラットフォームは、OpenStack Sahara に依存するだけでなく、ベアメタル上に Hadoop をインストールすることもできます。

では、この 2 つの方法のどちらが優れているのでしょうか? Li Mingyu 氏は、Sahara はクラウド コンピューティング ベンダーの視点であると分析しました。 Sahara を使用する利点は、サービス プロバイダーが Sahara に基づいてビッグ データ サービスを提供しており、ユーザーにとってより便利で、一般的に安定していることです。しかし、Sahara はサービスの種類が限られており、柔軟性も高くないため、実際にはそれほど優れているわけではありません。 Sahara を直接管理に使用しないことの利点は、ユーザーの観点から見ると、柔軟性があり、ユーザーが制御できる点ですが、ビッグデータ クラスターをユーザーが管理する必要があり、クラウド インフラストラクチャの基本的な特性を把握することが難しいという欠点があります。 「ユーザーはニーズに応じて最適な方法を選択できます。」

4つの主要なストレージの問題

現在、OpenStack は多くの部署で使用されており、使用過程で多くの疑問が生じています。 OpenStack クラウド上でビッグデータ システムを実行するときに発生する最も一般的な問題は、ストレージです。

Li Mingyu 氏は、ストレージに関して直面する最初の問題は、ブロック ストレージの冗長性、仮想マシン ブロック ストレージ/ボリュームの基礎となる冗長性、および HDFS 自体の冗長性であると述べました。仮想基盤レイヤーが Ceph を使用して仮想マシン ブロック ストレージをサポートする場合、仮想マシンのブロック デバイス/ボリュームには実際には Ceph 上に 3 つのコピーがあり、HDFS 上に 3 つのコピーがあるため、ブロック ストレージの冗長性が過剰になります。

2 番目の問題は、データ移動のオーバーヘッドが計算タスクの移動オーバーヘッドよりも大きいことです。 Hadoop クラスターは常に同じ負荷圧力に耐えるわけではありません。私たちは、Hadoop クラスターが仮想化環境で弾力性を持つようになることを期待しています。 5 ノードから 10 ノードに拡張し、次に 50 ノードに拡張し、最後に 5 ノードに縮小します。データがこれらのノードの HDFS に保存されている場合は、データを再バランスする必要があります。データ移動のオーバーヘッドは大きく、時間がかかり、ネットワークと I/O リソースを消費します。

3 番目の問題は、多くのデータ処理/分析タスクがアドホックであることです。 Hadoop クラスターまたはビッグデータ処理クラスターを使用するには、データ分析またはデータ ウェアハウスを実行するクラスターを作成します。ジョブが完了したら、クラスターを破棄できます。しかし、HDFS を使用する場合、データを保存している仮想マシンを破壊することは不可能であり、追加のオーバーヘッドも発生します。これらの費用と比較すると、ネットワーク費用は減少しており、全体的なネットワークコストも減少しています。上記の問題に対処するには、HDFS が使用されなくなった場合は、オブジェクト ストレージに置き換えることができます。つまり、クラウド環境でビッグデータ システムを実行する場合、仮想マシンは計算のみを実行し、データはオブジェクト ストレージに保存されます。

4 番目の問題は、複数のリージョンのシステムにわたってストレージ クラスターを構築することです。この問題は、OpenStack Swift オブジェクト ストレージによって解決できます。 OpenStack Swift は、複数のデータセンターと複数のリージョンにまたがるストレージ クラスターの構築をサポートできます。これにより、ユーザーはデータセンター間ビッグデータ システムを簡単に構築できるようになります。データ処理ジョブを送信する際、ユーザーはデータがどのデータセンターに保存されているかを気にする必要がなく、1 つのタスク バッチで複数のデータセンターや複数のリージョンのデータを処理できます。

上記内容は、WOT2018 グローバルソフトウェアおよび運用技術サミットにおける OStorage (Osdata) 創設者兼 CTO の Li Mingyu 氏へのインタビューに基づいて 51CTO 記者がまとめたものです。 WOT の詳細については、.com をご覧ください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  クラウド コンピューティングの状況が決定されました。巨人たちが次に競い合うターゲットは何だろうか?

>>:  中小規模のチーム向けの Docker ベースの DevOps プラクティス

推薦する

「大きいよりも大きい」iPhone 6のスローガンはネットユーザーから嘲笑された

Appleが新型携帯電話iPhone 6と6 Plusを発表した際、会場の大型スクリーンの背景には「...

クラウド コンピューティングについて知っておくべきことすべて: コンプライアンスからデータ保護まで

企業はコンプライアンスを達成できますが、業界の変化、ビジネスの成長、規制の変更のペースを考えると、コ...

パブリックアカウントの禁止:アリババ、360、ポータルが協力してWeChatに反撃するときが来た

【最近、WeChatの大規模なパブリックアカウント禁止は、セルフメディア関係者の間でパニックを引き起...

Amazon Web Services がアクセンチュアおよび Anthropic と提携し、企業の責任ある AI 構築を支援

アマゾン ウェブ サービスは、アクセンチュアおよび人工知能企業アントロピックとの世界的なコラボレーシ...

「SEO産業発展の道」より

陳凱さんはSEO関連の仕事に従事しており、以前Zacさんが書いた「SEO実用コード」を読む機会に恵ま...

3か月後の新しいウェブサイトの最適化のアイデアとプロセス分析

ご存知のとおり、電子商取引の発展に伴い、ウェブサイトの最適化における企業間の競争はますます激しくなっ...

IBMハイブリッドクラウドソフトウェアの次の大きなイノベーション:AI駆動型自動化プラットフォーム

人工知能時代における自動化の明るい未来と大きな商業的価値。 COVID-19 によってもたらされた課...

digitalocean: VPSリソースの無料ダブルアップグレード、無料$100

digitalocean からの最新ニュース: 通常の VPS の価格は変更されていませんが、メモリ...

ヤフーの取締役会がマイクロブログサイトTumblrの11億ドルの買収を承認

[Caixin.com] (MarketWatch-Ruth Mantell) ウォールストリート・...

A2hosting: Windowsホスティング/Windows仮想ホスティングの追加を発表

1999 年に設立されたアメリカの老舗ホスティング会社である A2hosting は、17 年間 L...

OpenStack Cinder サービスステータスのトラブルシューティング

[[333895]]この記事はWeChatの公開アカウント「New Titanium Cloud S...

ファーウェイは、世界で初めてクラウドネイティブコンピューティング財団(CNCF)認定のKubernetesサービスプロバイダーの1つになりました。

[中国、深セン、2017年9月18日] 先日ロサンゼルスで開催されたオープンソースサミットにおいて、...

モバイルアプリのデザイン: ナビゲーションバーの戻るボタンの代替案

ふう、また夜に新商品を更新する時間です。実際、私は時々 Be For Web にアクセスして、約 2...

継続的に進化するAI機能は、ハイブリッドマルチクラウドで企業が将来勝利するのに役立つ

パンデミック後、人工知能は特定のアプリケーションから企業のデジタル機能へと徐々に進化しました。 AI...