【WOT2018】Li Mingyu: OpenStackクラウド上でビッグデータシステムを実行する際の難しさと方法

【WOT2018】Li Mingyu: OpenStackクラウド上でビッグデータシステムを実行する際の難しさと方法

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続で15回のサミットを開催し、多数の技術専門家を集め、幅広い視野を持ち、経験を選択的に活用し、知見を蓄積し、凝縮した形で公開しています。 2018 WOT グローバル ソフトウェアおよび運用テクノロジー サミットがスタートしました。12 のコア ホットスポットに焦点を当て、国内外から 60 人の第一線の専門家を集めてハイエンドのテクノロジーの饗宴を繰り広げます。

5月19日午前に開催される「OpenStackイノベーションと実践」フォーラムでは、OStorageの創設者兼CTOであるLi Mingyuが「OpenStackクラウドでのビッグデータサービスの提供:問題、方法、実践」と題した素晴らしい講演を行います。会議の前に、51CTO の記者たちは彼にインタビューし、彼が共有する主要な内容を少しだけ紹介するという栄誉に恵まれました。

OStorage (Osdata) の創設者兼 CTO/OpenStack コミュニティの伝道者および貢献者

李明宇とは誰ですか?彼はWOTサミットで何を共有するのでしょうか?

Li Mingyu 氏は、OStorage の創設者兼 CTO であり、OpenStack コミュニティの伝道者および貢献者でもあります。 OStorage を設立する前は、中国科学院の研究グループの責任者を務め、クラウド コンピューティング、分散ストレージなどのテクノロジーを造船、航空宇宙、国防の分野における大規模な国家工学プロジェクトに適用することに成功しました。近年はOpenStack関連のクラウドコンピューティングやクラウドストレージ技術の研究・普及に積極的に取り組んでおり、OpenStack Summitなど国内外の主要カンファレンスで技術講演を行っている。

今回のWOTサミットでは、Li Mingyu氏がHadoopとSpark、さらにはHiveなどのSQLソリューションを組み合わせて、ビッグデータシステムのクラウド実践で遭遇する可能性のある問題と解決策について説明します。また、彼は次のように明らかにした。「共有中に、交流に参加した聴衆に、私たちが翻訳し、Electronic Industry Press から出版された書籍『Object Storage: OpenStack Swift Application, Management and Development』のコピーを配布します。」

最終的にこのトピックを選んだ理由は、OpenStack ベースのクラウド環境の数は増加しているものの、多くの OpenStack クラウド環境では、AWS と同様の Elastic MapReduce、ビッグデータ用 SQL、OLAP のサポートなどのビッグデータ サービスが提供されていないためだと述べています。また、ユーザー企業が徐々にクラウドに移行するにつれて、クラウド上にビッグデータ システムを展開する需要がますます一般的かつ緊急なものになってきています。

しかし、ビッグデータ システムの特殊性により、クラウド プラットフォーム上で仮想マシンのバッチを開き、Hadoop などのビッグデータ システムを物理マシンにインストールして展開する場合と同様に、これらの仮想マシン上で直接展開して実行すると、パフォーマンス、信頼性などの面で期待に応えられないことがよくあります。

しかし、これは仮想化やクラウド プラットフォームのせいではありません。代わりに、これらの問題を解決するには適切なアプローチが必要です。さらに、適切なアプローチにより、仮想化とクラウドの俊敏性、弾力性、災害復旧などのメリットをより有効に活用でき、ビッグデータ システムの機能が強化されます。

「ネタバレ」: OpenStack クラウドでビッグデータ システムを実行する方法

では、OpenStack クラウド上でビッグデータ システムを実行する方法は何でしょうか?この点に関して、Li Mingyu 氏は、OpenStack Foundation が公式に次の 2 つの方法を推奨していると述べました。

最初の方法は、OpenStack サービス コンポーネント Sahara に基づいています。 Sahara は、OpenStack の EDP (Elastic Data Processing) サービスとしても知られています。これにより、ユーザーは OpenStack 環境で Hadoop や Spark などのビッグ データ システムを簡単に導入および実行できるようになります。また、クラウド環境の弾力性も有効活用し、OpenStack の Swift オブジェクト ストレージとの接続も良好です。

しかし、サハラプロジェクトにも問題点はあります。例えば、サポートするビッグデータシステムの種類が限られていたり、ノードイメージを事前に用意しておく必要があったりします。 S3 からのデータの読み取りと書き込みはサポートされておらず、Hive と Pig のサポートも制限されています。

Sahara がインストールされていない場合は、2 番目の方法を使用できます。つまり、関連する API を呼び出して仮想マシン (またはコンテナー) のバッチを作成し、それらをクラウド プラットフォームの SDN ネットワークに接続し、Ambari を使用して Hadoop クラスターを展開および構成します。このとき、仮想マシンの設定とネットワーク ソリューションはビッグ データ システムのニーズを満たす必要があり、Ambari の構成はクラウド環境の特性に適合する必要があることに注意してください (具体的な手順は会議当日に提供されます)。さらに、上記のプロセスは、Heat スクリプトなどのサービス オーケストレーション スクリプトを使用して自動化できます。

この方法は Hadoop や Spark に適用できるだけでなく、他のさまざまなビッグデータ システムでも使用できることは注目に値します。デメリットは、ユーザー(クラウド環境のエンドユーザー)が仮想マシンとそのネットワークを自分で作成、管理し、Ambari などのツールを使用して Hadoop クラスターをインストール、展開する必要があることです。もちろん、IaaS クラウド サービス プロバイダーは、ユーザーが自分で行う必要のある作業を減らすために、Heat テンプレートのサンプルや仮想マシン イメージを提供することもできます。

「ネタバレ」は1つではありません: OpenStackクラウドでビッグデータサービスを提供する場合は、ストレージの問題に注意してください

OpenStack クラウド上でビッグデータ システムを運用する際に注意すべき問題について語る際、Li Mingyu 氏は記者団に次のように分析しました。「ストレージは比較的遭遇しやすい問題です。」

現在、多くの OpenStack クラウド プラットフォームでは、分散ストレージを仮想マシンのブロック ストレージとして使用し、クラウド ハード ディスクなどのサービスを提供しています。これらのストレージ システム自体には、ある程度の冗長性があり、コピーが 3 つある場合もあります。一部のビッグデータ システムには、Hadoop の HDFS など、データ ストレージ コンポーネントが組み込まれているものもあります。 HDFS では、データ ストレージの信頼性を確保するために、3 つのコピーまたは消失訂正符号を使用することもよくあります。仮想マシンを直接作成し、Hadoop(HDFS を含む)をインストールすると、ストレージ リソースが無駄になります。極端ですが非常によくある状況があります。仮想マシンのブロック ストレージ バックエンドは分散ストレージのコピーを 3 つ使用し、HDFS もコピーを 3 つ使用するため、最終的には 1 つのデータを保存するのにデータのコピー 9 つ分のスペースが占有され、大きな無駄が発生します。この時点では、基盤となるストレージにはすでに冗長性があるため、HDFS コピーの数を 1 に設定するのがより直接的なアイデアですが、このアプローチでは新たな問題が発生します。仮想化技術に精通しているエンジニアは、仮想マシンがサーバーの物理ストレージ ハード ディスクに直接侵入して使用できるようにすることを検討するかもしれませんが、これによって他のいくつかの問題も発生します。

実践では、オブジェクト ストレージの方が優れた選択肢であることがわかっています。オブジェクト ストレージは非常に成熟したクラウド サービスです。 AWS と OpenStack の両方の最初の 2 つのサービスにオブジェクト ストレージが含まれています。さらに重要なことは、OpenStack Swift がビッグデータ分析サービスのサポートにおいて優れたパフォーマンスを発揮していることです。 OpenStack Swift は、複数のデータセンターと複数のリージョンにまたがるストレージ クラスターの構築もサポートしているため、ユーザーはデータセンターをまたがるビッグ データ システムを簡単に構築できます。データ処理ジョブを送信する際、ユーザーはデータがどのデータセンターに保存されているかを気にする必要がありません。さらに、タスクのバッチでは、北京、香港、北米など、複数のデータセンターや複数の地域からのデータを処理できます。

Li Mingyu 氏によると、オブジェクト ストレージに重点を置くメーカーとして、OStorage はユーザーにオブジェクト ストレージ サービスをより適切に提供するために、OpenStack Swift を中心に多くの作業を行ってきました。 OpenStack Swift は優れた分散ストレージ システムです。これは、OpenStack の 6 つのコア プロジェクトの 1 つであり、OpenStack の最も初期の 2 つのプロジェクトの 1 つです。ここ数年で、数百PB規模のSwiftオブジェクトストレージクラスターが国際的に登場しています。中国では、Meituan、Qunar、Phoenix、SF Express などの多くの企業も、Swift ベースのオブジェクト ストレージ サービスを実装することを選択しています。

「しかし、OpenStackにはSwiftの運用・保守管理のためのコンポーネントが欠けており、多くの政府機関や企業ユーザーがSwiftの使用時にさまざまな運用・保守管理の問題に遭遇する原因となっている」とLi Mingyu氏は述べた。

これを考慮して、OStorage は、企業や運用ユーザーが高性能で信頼性が高く、操作しやすい Swift オブジェクト ストレージ クラスターを構築できるように、Swift の導入、運用、管理ツールのセットを開発しました。通信、航空宇宙、銀行など多くの分野のお客様の生産環境で使用されています。さらに、OStorage は、ユーザーが Swift オブジェクト ストレージをより便利に適用できるように、一連の Swift ベースの API 拡張コンポーネント、アプリケーション プラグイン、およびデータ移行ツールも開発しました。

ネタバレ以上のもの:中国における OpenStack の開発について語る

***とのインタビューで、OpenStackコミュニティの伝道者および貢献者として、中国におけるOpenStackの発展について語ったLi Mingyu氏は、2013年からOpenStackコミュニティに参加し、OpenStackが徐々に普及し、安定して成熟し、さまざまな業界に参入するプロセスを目の当たりにしてきたと述べました。現在、OpenStackは国内の金融、オペレーター、交通、政府関係、電力、科学研究などの業界で広く使用されています。 OpenStackは私たちの日々の衣食住、交通、科学、教育、文化、健康、産業、国防などを支えていると言えます。

Tencent Cloudなどの大手一流企業がOpenStackスーパーユーザー賞を受賞し、OpenStack Foundationのプラチナメンバーになったことで、国内のOpenStackエコシステムも新たなレベルに発展しました。

OpenStack 自体や、OpenStack Foundation がサポートする KataContainer などの新しいプロジェクトの今後の位置付けは、「オープン インフラストラクチャ」です。今後も、仮想マシン、コンテナ、SDN、分散ストレージなどのITインフラへの取り組みを強化・拡大し、クラウドアプリケーションの運用をより適切にサポートできるよう努めてまいります。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  大手アナリスト会社IDC:オラクルのクラウド事業は引き続き力強い成長を続けている

>>:  分散データベースとキャッシュの二重書き込み一貫性ソリューションの分析

推薦する

不快な思いをさせたくない消費者から個々のウェブマスターへの手紙

あなたがウェブマスターであれば、仮想サービスを提供するウェブマスターであっても、製品を販売するウェブ...

Google SEO: 2013 年版ウェブサイトに関するよくある質問 (PR、外部リンク、ペナルティ関連、301)

2週間前、私たちはWeiboでオンラインQ&Aイベントを開催し、ウェブマスターからのSEOと...

運営者が知っておくべき無料オンラインプロモーションチャネル37選まとめ

中小企業のインターネット企業は、発展の過程で自社の条件に制限され、最初から専門のプロモーション会社を...

CIOがクラウドコンピューティングプロバイダーに求めるもの

Industry Media は最近、2022 年のオハイオ州 CIO オブ ザ イヤー賞を受賞した...

northhosts-10 ポンド/年/512MB メモリ/30GB ハードドライブ/2TB トラフィック/英国

northhosts.co.uk は英国に登録されたホスティング会社です。公式ウェブサイトの下部に、...

devcapsule-カスタム ISO、オランダのデータセンターに新しい VPS を追加、20 ポンドを支払って 20 ポンドを無料で入手

今年 1 月に、私はブログで devcapsule.com を紹介しました。現在、同社はオランダのア...

SEO最適化におけるプレーンテキスト外部リンクの役割を分析する

従来のSEO最適化の観点から見ると、ハイパーテキスト、アンカーテキスト、プレーンテキストの外部リンク...

ライブストリーミングではピンドゥオドゥオを救えない

2019年11月27日、Pinduoduoは100億補助金チャンネルでライブ放送イベントをテストしま...

推奨: クアドラネット - $5.81/KVM/512m メモリ/15g SSD/1T トラフィック

クアドラネットの価格は常に法外なものでした。非常に高価です。なぜ突然クアドラネットから撤退し、民間の...

tmhhost: VPS 夏季 20% 割引、香港 BGP (200M 帯域幅) + 米国 3 ネットワーク cn2 gia + 米国 cn2 gia 200G 高防御

tmhhost は、四半期ごとの支払いで 20% オフとなる新しい夏の VPS プロモーションを実施...

クラウドコンピューティングからフォグコンピューティングへの移行

[[353221]]フォグ コンピューティングはクラウドを完全に置き換えることはできないかもしれませ...

SEO ブログを使用して個人ブランドを構築できますか?

最近はSEOブログが非常に人気になってきており、Baiduで「city + SEO」を検索すると、最...

おもしろさも大きなビジネス:ジョークを販売する国内ウェブサイトの徹底レビュー

Chrome に対応していない Web サイトを想像できますか? コンテンツのほとんどをボットによっ...

授業からの考察: 草の根のウェブサイト開発者が収益を上げる方法

中国におけるインターネットの20年近くの浮き沈み、特に過去10年間の電子商取引の発展、そして今後のク...

「SAP自閉症人材就職準備スキルスクール」プロジェクトが正式に開始されました

本日、「SAP 自閉症人材就職準備スキルスクール」プロジェクトが正式に開始され、社会に出て就職の準備...