【WOT2018】Li Mingyu: OpenStackクラウド上でビッグデータシステムを実行する際の難しさと方法

【WOT2018】Li Mingyu: OpenStackクラウド上でビッグデータシステムを実行する際の難しさと方法

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続で15回のサミットを開催し、多数の技術専門家を集め、幅広い視野を持ち、経験を選択的に活用し、知見を蓄積し、凝縮した形で公開しています。 2018 WOT グローバル ソフトウェアおよび運用テクノロジー サミットがスタートしました。12 のコア ホットスポットに焦点を当て、国内外から 60 人の第一線の専門家を集めてハイエンドのテクノロジーの饗宴を繰り広げます。

5月19日午前に開催される「OpenStackイノベーションと実践」フォーラムでは、OStorageの創設者兼CTOであるLi Mingyuが「OpenStackクラウドでのビッグデータサービスの提供:問題、方法、実践」と題した素晴らしい講演を行います。会議の前に、51CTO の記者たちは彼にインタビューし、彼が共有する主要な内容を少しだけ紹介するという栄誉に恵まれました。

OStorage (Osdata) の創設者兼 CTO/OpenStack コミュニティの伝道者および貢献者

李明宇とは誰ですか?彼はWOTサミットで何を共有するのでしょうか?

Li Mingyu 氏は、OStorage の創設者兼 CTO であり、OpenStack コミュニティの伝道者および貢献者でもあります。 OStorage を設立する前は、中国科学院の研究グループの責任者を務め、クラウド コンピューティング、分散ストレージなどのテクノロジーを造船、航空宇宙、国防の分野における大規模な国家工学プロジェクトに適用することに成功しました。近年はOpenStack関連のクラウドコンピューティングやクラウドストレージ技術の研究・普及に積極的に取り組んでおり、OpenStack Summitなど国内外の主要カンファレンスで技術講演を行っている。

今回のWOTサミットでは、Li Mingyu氏がHadoopとSpark、さらにはHiveなどのSQLソリューションを組み合わせて、ビッグデータシステムのクラウド実践で遭遇する可能性のある問題と解決策について説明します。また、彼は次のように明らかにした。「共有中に、交流に参加した聴衆に、私たちが翻訳し、Electronic Industry Press から出版された書籍『Object Storage: OpenStack Swift Application, Management and Development』のコピーを配布します。」

最終的にこのトピックを選んだ理由は、OpenStack ベースのクラウド環境の数は増加しているものの、多くの OpenStack クラウド環境では、AWS と同様の Elastic MapReduce、ビッグデータ用 SQL、OLAP のサポートなどのビッグデータ サービスが提供されていないためだと述べています。また、ユーザー企業が徐々にクラウドに移行するにつれて、クラウド上にビッグデータ システムを展開する需要がますます一般的かつ緊急なものになってきています。

しかし、ビッグデータ システムの特殊性により、クラウド プラットフォーム上で仮想マシンのバッチを開き、Hadoop などのビッグデータ システムを物理マシンにインストールして展開する場合と同様に、これらの仮想マシン上で直接展開して実行すると、パフォーマンス、信頼性などの面で期待に応えられないことがよくあります。

しかし、これは仮想化やクラウド プラットフォームのせいではありません。代わりに、これらの問題を解決するには適切なアプローチが必要です。さらに、適切なアプローチにより、仮想化とクラウドの俊敏性、弾力性、災害復旧などのメリットをより有効に活用でき、ビッグデータ システムの機能が強化されます。

「ネタバレ」: OpenStack クラウドでビッグデータ システムを実行する方法

では、OpenStack クラウド上でビッグデータ システムを実行する方法は何でしょうか?この点に関して、Li Mingyu 氏は、OpenStack Foundation が公式に次の 2 つの方法を推奨していると述べました。

最初の方法は、OpenStack サービス コンポーネント Sahara に基づいています。 Sahara は、OpenStack の EDP (Elastic Data Processing) サービスとしても知られています。これにより、ユーザーは OpenStack 環境で Hadoop や Spark などのビッグ データ システムを簡単に導入および実行できるようになります。また、クラウド環境の弾力性も有効活用し、OpenStack の Swift オブジェクト ストレージとの接続も良好です。

しかし、サハラプロジェクトにも問題点はあります。例えば、サポートするビッグデータシステムの種類が限られていたり、ノードイメージを事前に用意しておく必要があったりします。 S3 からのデータの読み取りと書き込みはサポートされておらず、Hive と Pig のサポートも制限されています。

Sahara がインストールされていない場合は、2 番目の方法を使用できます。つまり、関連する API を呼び出して仮想マシン (またはコンテナー) のバッチを作成し、それらをクラウド プラットフォームの SDN ネットワークに接続し、Ambari を使用して Hadoop クラスターを展開および構成します。このとき、仮想マシンの設定とネットワーク ソリューションはビッグ データ システムのニーズを満たす必要があり、Ambari の構成はクラウド環境の特性に適合する必要があることに注意してください (具体的な手順は会議当日に提供されます)。さらに、上記のプロセスは、Heat スクリプトなどのサービス オーケストレーション スクリプトを使用して自動化できます。

この方法は Hadoop や Spark に適用できるだけでなく、他のさまざまなビッグデータ システムでも使用できることは注目に値します。デメリットは、ユーザー(クラウド環境のエンドユーザー)が仮想マシンとそのネットワークを自分で作成、管理し、Ambari などのツールを使用して Hadoop クラスターをインストール、展開する必要があることです。もちろん、IaaS クラウド サービス プロバイダーは、ユーザーが自分で行う必要のある作業を減らすために、Heat テンプレートのサンプルや仮想マシン イメージを提供することもできます。

「ネタバレ」は1つではありません: OpenStackクラウドでビッグデータサービスを提供する場合は、ストレージの問題に注意してください

OpenStack クラウド上でビッグデータ システムを運用する際に注意すべき問題について語る際、Li Mingyu 氏は記者団に次のように分析しました。「ストレージは比較的遭遇しやすい問題です。」

現在、多くの OpenStack クラウド プラットフォームでは、分散ストレージを仮想マシンのブロック ストレージとして使用し、クラウド ハード ディスクなどのサービスを提供しています。これらのストレージ システム自体には、ある程度の冗長性があり、コピーが 3 つある場合もあります。一部のビッグデータ システムには、Hadoop の HDFS など、データ ストレージ コンポーネントが組み込まれているものもあります。 HDFS では、データ ストレージの信頼性を確保するために、3 つのコピーまたは消失訂正符号を使用することもよくあります。仮想マシンを直接作成し、Hadoop(HDFS を含む)をインストールすると、ストレージ リソースが無駄になります。極端ですが非常によくある状況があります。仮想マシンのブロック ストレージ バックエンドは分散ストレージのコピーを 3 つ使用し、HDFS もコピーを 3 つ使用するため、最終的には 1 つのデータを保存するのにデータのコピー 9 つ分のスペースが占有され、大きな無駄が発生します。この時点では、基盤となるストレージにはすでに冗長性があるため、HDFS コピーの数を 1 に設定するのがより直接的なアイデアですが、このアプローチでは新たな問題が発生します。仮想化技術に精通しているエンジニアは、仮想マシンがサーバーの物理ストレージ ハード ディスクに直接侵入して使用できるようにすることを検討するかもしれませんが、これによって他のいくつかの問題も発生します。

実践では、オブジェクト ストレージの方が優れた選択肢であることがわかっています。オブジェクト ストレージは非常に成熟したクラウド サービスです。 AWS と OpenStack の両方の最初の 2 つのサービスにオブジェクト ストレージが含まれています。さらに重要なことは、OpenStack Swift がビッグデータ分析サービスのサポートにおいて優れたパフォーマンスを発揮していることです。 OpenStack Swift は、複数のデータセンターと複数のリージョンにまたがるストレージ クラスターの構築もサポートしているため、ユーザーはデータセンターをまたがるビッグ データ システムを簡単に構築できます。データ処理ジョブを送信する際、ユーザーはデータがどのデータセンターに保存されているかを気にする必要がありません。さらに、タスクのバッチでは、北京、香港、北米など、複数のデータセンターや複数の地域からのデータを処理できます。

Li Mingyu 氏によると、オブジェクト ストレージに重点を置くメーカーとして、OStorage はユーザーにオブジェクト ストレージ サービスをより適切に提供するために、OpenStack Swift を中心に多くの作業を行ってきました。 OpenStack Swift は優れた分散ストレージ システムです。これは、OpenStack の 6 つのコア プロジェクトの 1 つであり、OpenStack の最も初期の 2 つのプロジェクトの 1 つです。ここ数年で、数百PB規模のSwiftオブジェクトストレージクラスターが国際的に登場しています。中国では、Meituan、Qunar、Phoenix、SF Express などの多くの企業も、Swift ベースのオブジェクト ストレージ サービスを実装することを選択しています。

「しかし、OpenStackにはSwiftの運用・保守管理のためのコンポーネントが欠けており、多くの政府機関や企業ユーザーがSwiftの使用時にさまざまな運用・保守管理の問題に遭遇する原因となっている」とLi Mingyu氏は述べた。

これを考慮して、OStorage は、企業や運用ユーザーが高性能で信頼性が高く、操作しやすい Swift オブジェクト ストレージ クラスターを構築できるように、Swift の導入、運用、管理ツールのセットを開発しました。通信、航空宇宙、銀行など多くの分野のお客様の生産環境で使用されています。さらに、OStorage は、ユーザーが Swift オブジェクト ストレージをより便利に適用できるように、一連の Swift ベースの API 拡張コンポーネント、アプリケーション プラグイン、およびデータ移行ツールも開発しました。

ネタバレ以上のもの:中国における OpenStack の開発について語る

***とのインタビューで、OpenStackコミュニティの伝道者および貢献者として、中国におけるOpenStackの発展について語ったLi Mingyu氏は、2013年からOpenStackコミュニティに参加し、OpenStackが徐々に普及し、安定して成熟し、さまざまな業界に参入するプロセスを目の当たりにしてきたと述べました。現在、OpenStackは国内の金融、オペレーター、交通、政府関係、電力、科学研究などの業界で広く使用されています。 OpenStackは私たちの日々の衣食住、交通、科学、教育、文化、健康、産業、国防などを支えていると言えます。

Tencent Cloudなどの大手一流企業がOpenStackスーパーユーザー賞を受賞し、OpenStack Foundationのプラチナメンバーになったことで、国内のOpenStackエコシステムも新たなレベルに発展しました。

OpenStack 自体や、OpenStack Foundation がサポートする KataContainer などの新しいプロジェクトの今後の位置付けは、「オープン インフラストラクチャ」です。今後も、仮想マシン、コンテナ、SDN、分散ストレージなどのITインフラへの取り組みを強化・拡大し、クラウドアプリケーションの運用をより適切にサポートできるよう努めてまいります。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  大手アナリスト会社IDC:オラクルのクラウド事業は引き続き力強い成長を続けている

>>:  分散データベースとキャッシュの二重書き込み一貫性ソリューションの分析

推薦する

優れたオンライン h5 ゲームを設計するにはどうすればよいでしょうか?

本稿では、主にTiantian Ptuの「小学校卒業写真」、「みんなで呉美娘のコスプレ」、「神経質な...

vpsdime-15 USD/年/128 MB RAM/5 GB HDD/200 GB フロー/G ポート

vpsdime、実は皆さんがよくご存知のBackupsyなどと同じブランドです。現在とても有名です!...

数百のWordPressサイトとブログが脆弱性によりハッキングされる

M86 Security Labsは本日、数百のWordPressベースのウェブサイトやブログがハッ...

ソーシャルメディアマーケティング評価のための100の参考指標

ソーシャル メディア マーケティング評価の主なパラメーターには、ネットワーク トラフィック、オンライ...

アマゾンのCTOが2021年を予測: 世界を変える8つのテクノロジートレンド

2020年12月18日、3週間にわたるAmazon re:Inventグローバルカンファレンスの閉幕...

Zang Chengwei: レスポンシブアーキテクチャの実践に基づく Meituan Dianping のクライアント

[51CTO.comからのオリジナル記事] 最近、51CTOの記者は、Meituan-Dianpin...

第9回ソフトコピーライティング&ソフトコピーマーケティング研修の申込受付を開始しました

企業向けでもウェブサイトマーケティング向けでも、ソフトテキストマーケティングは欠かせないマーケティン...

リンクは SEO 環境に影響します: 関連のある外部リンクを構築するいくつかの方法

「最近、百度の不正行為防止アルゴリズムが再び更新され、アップグレードされました。今回の百度のシステム...

クラウドコンピューティングの未来をどう定義するか

アマゾンは、先進国の大半に商品を一夜にして届けることができる世界的な電子商取引帝国を築く過程で、分散...

ユー・ミンホンらが抗議キャンプに参加、シトロンの創設者は犯罪歴があると非難される

李開復氏が始めた中国コンセプト株の空売り機関に対する抗議は大きな反響を呼び、「参加者」の顔ぶれは絶え...

読者の視点からどのようなソフト記事が市場を持っているかを分析する

A5を頻繁に訪れると、毎日のように古いウェブマスターがソフト記事の執筆経験を紹介していることに気付く...

クラウドネイティブへの道: コンテナ技術の実装

コンテナ技術の急速な発展と広範な応用により、クラウドネイティブ技術が将来の発展の必然的なトレンドであ...

servarica: 8T 大容量ハードディスク VPS、8G メモリ、100Mbps 無制限、わずか 20 ドル、カナダのネイティブ IP

Servarica は、もう 1 つの便利な VPS を正式に提供してくれました。8T のハードディ...

VMware で仮想マシンを起動するときに黒い画面が表示される問題を解決するにはどうすればよいですか?

序文: springBoot と Angular に触れたばかりの初心者として、Linux システム...

5G 時代において、通信事業者はどのようにして「クラウド」の空に到達できるのでしょうか?

近年、国内の事業者はクラウドコンピューティング市場の開拓に多大な努力を払い、クラウド分野で独自の領域...