OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

[51CTO.com からのオリジナル記事] 現在、OpenStack プライベート クラウド アプリケーションは、長い期間にわたる技術の蓄積と市場の開拓を経て、製品の成熟度と顧客の認知度の面で成熟期に達しています。 OpenStack をベースとしたクラウド環境は増加していますが、多くの OpenStack クラウド環境では、AWS と同様の Elastic MapReduce、ビッグデータ用 SQL、OLAP のサポートなどのビッグデータ サービスが提供されていません。同時に、ユーザー ビジネスが徐々にクラウドに移行するにつれて、クラウド上にビッグデータ システムを展開する需要がますます一般的かつ緊急になっています。

2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開催されました。 2日目の午前中に開催された「OpenStack イノベーションと実践」フォーラムでは、OStorage の創設者兼 CTO である Li Mingyu 氏が「OpenStack クラウド上でのビッグデータ システムの実行: 問題、方法、実践」と題した素晴らしい講演を行いました。 OpenStack クラウド環境でビッグデータ システムを実行する方法、実際の運用でよくある問題、およびこれらの問題を解決するためにオブジェクト ストレージを使用する方法について詳しく説明しました。会議後、51CTOの記者がWOT2018グローバルソフトウェアおよび運用技術サミットでの李明宇氏の講演内容をまとめました。

OpenStack環境でビッグデータシステムを実行する2つの方法

李明宇氏は以前、中国科学院ソフトウェア研究所に勤務していた。彼は科学的研究に加えて、実用的なエンジニアリング問題の解決に重点を置き、分散およびクラウド コンピューティング システムに関する関連研究開発作業を行うチームを率いました。中国科学院を退職後、李明宇氏はOpenStackなどのクラウドコンピューティングやビッグデータに関連するオープンソース技術の研究と普及に尽力し、企業に対してコンサルティング、評価などの技術サービスを提供しています。

彼はスピーチの中で、OpenStack は多くの小さなオープンソース プロジェクトを含む大規模なシステムであり、その中で最もよく知られているのは、仮想マシンを管理する Nova、ネットワークを管理する Neutron、クラウド ハード ドライブを管理する Cinder、認証を管理する Keystone、イメージとテンプレートを管理する Glance、および Swift オブジェクト ストレージの 6 つのコア プロジェクトであると述べました。

Li Mingyu 氏は、OpenStack 環境でビッグデータ システムを実行するには 2 つの方法があり、1 つ目の方法は OpenStack サービス コンポーネント Sahara をベースにしたものであると述べました。彼は、Sahara の使い方を皆に知ってもらうために、現場でデモを披露しました。 Sahara は、実際には OpenStack によって Hadoop を実行するために特別に構築されたプロジェクトです。ユーザーが使用する OpenStack クラウド環境に Sahara がデプロイされていない場合はどうなりますか?この場合、2 番目の方法を使用できます。 2 番目の方法は、Heat および Hadoop コミュニティのデプロイメント ツールを使用して、ユーザーが Hadoop/ビッグ データ システム ノードを直接管理することです。 OpenStack クラウド プラットフォームは、OpenStack Sahara に依存するだけでなく、ベアメタル上に Hadoop をインストールすることもできます。

では、この 2 つの方法のどちらが優れているのでしょうか? Li Mingyu 氏は、Sahara はクラウド コンピューティング ベンダーの視点であると分析しました。 Sahara を使用する利点は、サービス プロバイダーが Sahara に基づいてビッグ データ サービスを提供しており、ユーザーにとってより便利で、一般的に安定していることです。しかし、Sahara はサービスの種類が限られており、柔軟性も高くないため、実際にはそれほど優れているわけではありません。 Sahara を直接管理に使用しないことの利点は、ユーザーの観点から見ると、柔軟性があり、ユーザーが制御できる点ですが、ビッグデータ クラスターをユーザーが管理する必要があり、クラウド インフラストラクチャの基本的な特性を把握することが難しいという欠点があります。 「ユーザーはニーズに応じて最適な方法を選択できます。」

4つの主要なストレージの問題

現在、OpenStack は多くの部署で使用されており、使用過程で多くの疑問が生じています。 OpenStack クラウド上でビッグデータ システムを実行するときに発生する最も一般的な問題は、ストレージです。

Li Mingyu 氏は、ストレージに関して直面する最初の問題は、ブロック ストレージの冗長性、仮想マシン ブロック ストレージ/ボリュームの基礎となる冗長性、および HDFS 自体の冗長性であると述べました。仮想基盤レイヤーが Ceph を使用して仮想マシン ブロック ストレージをサポートする場合、仮想マシンのブロック デバイス/ボリュームには実際には Ceph 上に 3 つのコピーがあり、HDFS 上に 3 つのコピーがあるため、ブロック ストレージの冗長性が過剰になります。

2 番目の問題は、データ移動のオーバーヘッドが計算タスクの移動オーバーヘッドよりも大きいことです。 Hadoop クラスターは常に同じ負荷圧力に耐えるわけではありません。私たちは、Hadoop クラスターが仮想化環境で弾力性を持つようになることを期待しています。 5 ノードから 10 ノードに拡張し、次に 50 ノードに拡張し、最後に 5 ノードに縮小します。データがこれらのノードの HDFS に保存されている場合は、データを再バランスする必要があります。データ移動のオーバーヘッドは大きく、時間がかかり、ネットワークと I/O リソースを消費します。

3 番目の問題は、多くのデータ処理/分析タスクがアドホックであることです。 Hadoop クラスターまたはビッグデータ処理クラスターを使用するには、データ分析またはデータ ウェアハウスを実行するクラスターを作成します。ジョブが完了したら、クラスターを破棄できます。しかし、HDFS を使用する場合、データを保存している仮想マシンを破壊することは不可能であり、追加のオーバーヘッドも発生します。これらの費用と比較すると、ネットワーク費用は減少しており、全体的なネットワークコストも減少しています。上記の問題に対処するには、HDFS が使用されなくなった場合は、オブジェクト ストレージに置き換えることができます。つまり、クラウド環境でビッグデータ システムを実行する場合、仮想マシンは計算のみを実行し、データはオブジェクト ストレージに保存されます。

4 番目の問題は、複数のリージョンのシステムにわたってストレージ クラスターを構築することです。この問題は、OpenStack Swift オブジェクト ストレージによって解決できます。 OpenStack Swift は、複数のデータセンターと複数のリージョンにまたがるストレージ クラスターの構築をサポートできます。これにより、ユーザーはデータセンター間ビッグデータ システムを簡単に構築できるようになります。データ処理ジョブを送信する際、ユーザーはデータがどのデータセンターに保存されているかを気にする必要がなく、1 つのタスク バッチで複数のデータセンターや複数のリージョンのデータを処理できます。

上記内容は、WOT2018 グローバルソフトウェアおよび運用技術サミットにおける OStorage (Osdata) 創設者兼 CTO の Li Mingyu 氏へのインタビューに基づいて 51CTO 記者がまとめたものです。 WOT の詳細については、.com をご覧ください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  クラウド コンピューティングの状況が決定されました。巨人たちが次に競い合うターゲットは何だろうか?

>>:  中小規模のチーム向けの Docker ベースの DevOps プラクティス

推薦する

Istio と Flagger を組み合わせたグレースケール リリース

グレースケール リリース (カナリア デプロイメントとも呼ばれます) とは、トラフィック比率を制御し...

ユーザーの活性化と維持のためのゲーミフィケーション設計

ゲーミフィケーション デザインは多くの製品で採用されています。製品の使用率やユーザー アクティビティ...

2019 年はエンタープライズ クラウド サービスにとって画期的な年となるでしょうか?

クラウド コンピューティングにおける革新は引き続き生まれています。拡大する市場を背景に、クラウド コ...

微博マーケティングはインターネットの新時代を成功裏に導いた

Weibo の台頭により、人々は Weibo を使って自社製品を宣伝し、このチャネルを通じて広め、皆...

soladrive: 米国サーバー 35% オフ、月額 61 ドル、e3-1230v6/16g/2T ハード ドライブ/10T トラフィック

2009 年に設立された Soladrive は、マネージド VPS、マネージド独立サーバー、マネー...

1対1のスマートプロモーションソリューションがマーケティングの問題を解決

月収10万元の起業の夢を実現するミニプログラム起業支援プランマーケティングにおける1アイテム1コード...

ウェブサイトはランキングの奇妙な消失をどのように回避できるでしょうか?

2014 年 3 月 20 日、これまで非常に高いランキングを獲得していた多くの Web サイトが突...

Baidu の新規サイトのインデックス作成時間の調整は何を反映しているのでしょうか?

以前、新しいウェブサイトを立ち上げた時、サイト申請後、毎日記事を定期的に更新し、外部リンクもどんどん...

エッジコンピューティングとその進化

エッジ コンピューティングは、ネットワーク化された世界に大きな変化をもたらしている新たなパラダイムで...

最も速い VPS はどれですか?

多くの人が VPS を購入しましたが、VPS の速度が遅すぎるため諦めざるを得ず、お金だけでなく時間...

企業向けWeChatマーケティングに存在する問題点を数える

WeChat は、日常のコミュニケーションや交流に欠かせない媒体です。また、モバイル端末向けの最も代...

クラウド コンピューティングの基礎: CPU 仮想化

仮想化技術の分類には、主にサーバー仮想化、ストレージ仮想化、ネットワーク仮想化、アプリケーション仮想...

コンテンツこそが王様。コンテンツウェブサイトを4年間運営した経験

ウェブサイト構築の6年間の経験を振り返ると、スパムサイトを構築し、ランキングを通じてトラフィックを稼...

Henghost: 日本CN2 GIAラインVPSレビュー、データからHenghostがいかに優れているかがわかる

henghost はどうですか、henghost クラウド サーバーはどうですか、henghost ...

SEO担当者の育成プロセスにおける5つの閾値

半年前に、「中国の SEO 担当者にはさまざまなレベルがありますが、あなたはどのカテゴリに属しますか...