OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

OpenStack 環境でビッグデータ システムを実行するための 4 つの主要なストレージの問題

[51CTO.com からのオリジナル記事] 現在、OpenStack プライベート クラウド アプリケーションは、長い期間にわたる技術の蓄積と市場の開拓を経て、製品の成熟度と顧客の認知度の面で成熟期に達しています。 OpenStack をベースとしたクラウド環境は増加していますが、多くの OpenStack クラウド環境では、AWS と同様の Elastic MapReduce、ビッグデータ用 SQL、OLAP のサポートなどのビッグデータ サービスが提供されていません。同時に、ユーザー ビジネスが徐々にクラウドに移行するにつれて、クラウド上にビッグデータ システムを展開する需要がますます一般的かつ緊急になっています。

2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開催されました。 2日目の午前中に開催された「OpenStack イノベーションと実践」フォーラムでは、OStorage の創設者兼 CTO である Li Mingyu 氏が「OpenStack クラウド上でのビッグデータ システムの実行: 問題、方法、実践」と題した素晴らしい講演を行いました。 OpenStack クラウド環境でビッグデータ システムを実行する方法、実際の運用でよくある問題、およびこれらの問題を解決するためにオブジェクト ストレージを使用する方法について詳しく説明しました。会議後、51CTOの記者がWOT2018グローバルソフトウェアおよび運用技術サミットでの李明宇氏の講演内容をまとめました。

OpenStack環境でビッグデータシステムを実行する2つの方法

李明宇氏は以前、中国科学院ソフトウェア研究所に勤務していた。彼は科学的研究に加えて、実用的なエンジニアリング問題の解決に重点を置き、分散およびクラウド コンピューティング システムに関する関連研究開発作業を行うチームを率いました。中国科学院を退職後、李明宇氏はOpenStackなどのクラウドコンピューティングやビッグデータに関連するオープンソース技術の研究と普及に尽力し、企業に対してコンサルティング、評価などの技術サービスを提供しています。

彼はスピーチの中で、OpenStack は多くの小さなオープンソース プロジェクトを含む大規模なシステムであり、その中で最もよく知られているのは、仮想マシンを管理する Nova、ネットワークを管理する Neutron、クラウド ハード ドライブを管理する Cinder、認証を管理する Keystone、イメージとテンプレートを管理する Glance、および Swift オブジェクト ストレージの 6 つのコア プロジェクトであると述べました。

Li Mingyu 氏は、OpenStack 環境でビッグデータ システムを実行するには 2 つの方法があり、1 つ目の方法は OpenStack サービス コンポーネント Sahara をベースにしたものであると述べました。彼は、Sahara の使い方を皆に知ってもらうために、現場でデモを披露しました。 Sahara は、実際には OpenStack によって Hadoop を実行するために特別に構築されたプロジェクトです。ユーザーが使用する OpenStack クラウド環境に Sahara がデプロイされていない場合はどうなりますか?この場合、2 番目の方法を使用できます。 2 番目の方法は、Heat および Hadoop コミュニティのデプロイメント ツールを使用して、ユーザーが Hadoop/ビッグ データ システム ノードを直接管理することです。 OpenStack クラウド プラットフォームは、OpenStack Sahara に依存するだけでなく、ベアメタル上に Hadoop をインストールすることもできます。

では、この 2 つの方法のどちらが優れているのでしょうか? Li Mingyu 氏は、Sahara はクラウド コンピューティング ベンダーの視点であると分析しました。 Sahara を使用する利点は、サービス プロバイダーが Sahara に基づいてビッグ データ サービスを提供しており、ユーザーにとってより便利で、一般的に安定していることです。しかし、Sahara はサービスの種類が限られており、柔軟性も高くないため、実際にはそれほど優れているわけではありません。 Sahara を直接管理に使用しないことの利点は、ユーザーの観点から見ると、柔軟性があり、ユーザーが制御できる点ですが、ビッグデータ クラスターをユーザーが管理する必要があり、クラウド インフラストラクチャの基本的な特性を把握することが難しいという欠点があります。 「ユーザーはニーズに応じて最適な方法を選択できます。」

4つの主要なストレージの問題

現在、OpenStack は多くの部署で使用されており、使用過程で多くの疑問が生じています。 OpenStack クラウド上でビッグデータ システムを実行するときに発生する最も一般的な問題は、ストレージです。

Li Mingyu 氏は、ストレージに関して直面する最初の問題は、ブロック ストレージの冗長性、仮想マシン ブロック ストレージ/ボリュームの基礎となる冗長性、および HDFS 自体の冗長性であると述べました。仮想基盤レイヤーが Ceph を使用して仮想マシン ブロック ストレージをサポートする場合、仮想マシンのブロック デバイス/ボリュームには実際には Ceph 上に 3 つのコピーがあり、HDFS 上に 3 つのコピーがあるため、ブロック ストレージの冗長性が過剰になります。

2 番目の問題は、データ移動のオーバーヘッドが計算タスクの移動オーバーヘッドよりも大きいことです。 Hadoop クラスターは常に同じ負荷圧力に耐えるわけではありません。私たちは、Hadoop クラスターが仮想化環境で弾力性を持つようになることを期待しています。 5 ノードから 10 ノードに拡張し、次に 50 ノードに拡張し、最後に 5 ノードに縮小します。データがこれらのノードの HDFS に保存されている場合は、データを再バランスする必要があります。データ移動のオーバーヘッドは大きく、時間がかかり、ネットワークと I/O リソースを消費します。

3 番目の問題は、多くのデータ処理/分析タスクがアドホックであることです。 Hadoop クラスターまたはビッグデータ処理クラスターを使用するには、データ分析またはデータ ウェアハウスを実行するクラスターを作成します。ジョブが完了したら、クラスターを破棄できます。しかし、HDFS を使用する場合、データを保存している仮想マシンを破壊することは不可能であり、追加のオーバーヘッドも発生します。これらの費用と比較すると、ネットワーク費用は減少しており、全体的なネットワークコストも減少しています。上記の問題に対処するには、HDFS が使用されなくなった場合は、オブジェクト ストレージに置き換えることができます。つまり、クラウド環境でビッグデータ システムを実行する場合、仮想マシンは計算のみを実行し、データはオブジェクト ストレージに保存されます。

4 番目の問題は、複数のリージョンのシステムにわたってストレージ クラスターを構築することです。この問題は、OpenStack Swift オブジェクト ストレージによって解決できます。 OpenStack Swift は、複数のデータセンターと複数のリージョンにまたがるストレージ クラスターの構築をサポートできます。これにより、ユーザーはデータセンター間ビッグデータ システムを簡単に構築できるようになります。データ処理ジョブを送信する際、ユーザーはデータがどのデータセンターに保存されているかを気にする必要がなく、1 つのタスク バッチで複数のデータセンターや複数のリージョンのデータを処理できます。

上記内容は、WOT2018 グローバルソフトウェアおよび運用技術サミットにおける OStorage (Osdata) 創設者兼 CTO の Li Mingyu 氏へのインタビューに基づいて 51CTO 記者がまとめたものです。 WOT の詳細については、.com をご覧ください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  クラウド コンピューティングの状況が決定されました。巨人たちが次に競い合うターゲットは何だろうか?

>>:  中小規模のチーム向けの Docker ベースの DevOps プラクティス

推薦する

疑似独創性とは、独創性を盲目的に盗用することではありません

この記事では、疑似オリジナリティの問題について説明しています。疑似オリジナリティを軽蔑したり、疑似オ...

SEOの観点から見た外部リンク構築におけるスラッシュとスペースの使用の利点

ほとんどの SEO 関係者にとって、日常的な外部リンク構築では、権威の高い外部リンク リソースを見つ...

2018年の上海ウェブサイト構築会社の最新ランキングは何ですか?どれが信頼できるでしょうか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています2018年...

SEO の専門家が、最も人気のある 7 つのリンク ベイトを明かす

有能な SEO 担当者として、インターネットの重要な特性の 1 つがリンクであることは誰もが知ってい...

検索エンジンランキングの総合分析

SEO に携わる皆様、長年 SEO に携わってこられ、専門家が書いた記事を数多くお読みになったことで...

#アフリカサーバー# estnoc: ケニア VPS - 月額 10 ユーロから、ケニア専用サーバー - 月額 189 ユーロから、1Gbps 帯域幅

estnocはアフリカのケニアに独自のデータセンターを持ち、ケニアVPS、ケニアクラウドサーバー、ケ...

キーワードの選択は重要

キーワードは、SEO 最適化を行う際に最も基本的なものです。 したがって、SEO作業を行う際には、キ...

tragicservers: ハロウィーン VPS 60% オフ、ロサンゼルスとシカゴのデータセンター

ハロウィーンが近づいており、tragicservers はハロウィーン VPS プロモーションを事前...

良いサーバーを選ぶ理由とは?ウェブサイトの最適化をスタートラインで失敗させないでください

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスウェブサイトを構築する際...

Meilishuo を使って Taobao を宣伝し、トラフィックを増やす方法を共有します

現在、Taobao を宣伝する方法は無数にありますが、Taobao が使い古した方法は効果を発揮しに...

Google Analytics の新しい秘密 – 訪問を定義する方法

【はじめに】訪問指標はウェブサイト分析の基礎となります。しかし、このような基本的な指標であっても、G...

Linux 割り込み仮想化 1

[[437491]]割り込みはコンピュータ システムの非常に重要な部分です。基本的なコンピュータ理論...

「金銭集約型」産業である医療業界に対して、あなたは同情しますか?

以前はオンラインショッピング業界で働いていましたが、最近は医療業界に転向しました。医療業界の上司は皆...

dedipath - 春のプロモーション、超ハイエンド VPS、月額 2.78 ドルから

dedipath の春のプロモーション: ハイブリッド サーバーと VPS がすべて 32% オフ。...

数十億のリクエストと高可用性を備えた Redis (codis) 分散クラスターの秘密を簡単に紹介します。

概要: NoSQL の KV データベースの王様である Redis は、その高いパフォーマンス、低レ...