ビッグデータとクラウドコンピューティングを理解し、混乱から抜け出すための10のステップ

ビッグデータとクラウドコンピューティングを理解し、混乱から抜け出すための10のステップ

ステップ1: ビッグデータ

「ビッグデータ」という概念は近年人気が高まり、今ではどこにでもあるようになりました。ビッグデータとは何かを理解する前に、まず従来のデータとは何かを理解しましょう。

従来のデータとは、顧客情報や財務データなど、IT ビジネス システム内のデータを指します。これらのデータは構造化されており、その量はそれほど多くなく、通常は TB レベルです。従来のデータと比較して、「新しいデータ」と呼ばれるタイプのデータがあります。これは、コミュニティ ネットワーク、インターネット、およびその他のチャネルから取得され、テキスト、画像、音声、ビデオなどの非構造化データが含まれます。現在、世界のデータの 75% 以上が非構造化されており、爆発的に増加し続けています。よりよく理解するために、次の図を見てみましょう。

ビッグデータとは、構造化された従来のデータと、非構造化された新しいデータです。

そのため、ビッグデータには「4V」と呼ばれる以下の特性もあります。

  • ボリューム: データ量は TB レベルから PB レベルまで膨大です。
  • 多様性: Web ログ、ビデオ、画像、地理的位置情報など、さまざまな種類のデータが存在します。
  • 速度: 処理速度が速く、さまざまな種類のデータから価値の高い情報を迅速に取得できるため、従来のデータマイニング技術とは根本的に異なります。
  • 価値: データが適切に使用され、正しく正確に分析されれば、高い価値がもたらされます。

ステップ2: ビッグデータの構成

ビッグデータ システムは、インフラストラクチャ、プラットフォーム、アプリケーションで構成されます。私たちが普段使っているコンピューターと比較すると、インフラストラクチャはコンピューターのハードウェア、プラットフォームはそこにインストールされているオペレーティングシステム、アプリケーションはオペレーティングシステム上のさまざまなアプリケーションプログラムです。

ビッグデータの用途は多岐にわたりますが、一般的には「ビジネスアプリケーション」と「データ分析」の2つのカテゴリに分けられます。

前者には ERP や CRM などの業務システムが含まれ、後者はビジネス分析、価値分析、トラフィック分析などのさまざまな分析アプリケーションを指します。分析システムは、業務システムからソースデータを取得し、分析後に業務システムにフィードバックすることで、業務システムを強化 (インテリジェンスを注入) し、インテリジェント化します。この時点で、馴染みがあると感じますか?それは何らかの形で私たちの BI に関連しているのでしょうか?そうです、「ビッグデータプラットフォーム」と「データ分析システム」が合わさってBIのアップグレード版となるのです!アップグレード版ということで、従来の BI との違いは何でしょうか?詳細については以下をお読みください。

低コスト

IOEを排除し、安価なX86ハードウェアを使用し、オープンソースソフトウェアをより多く使用してコストを節約する

優れた災害復旧

プラットフォームは X86 クラ​​スター上に展開されており、問題が発生した場合にはいつでもマシンを切り替えることができます。

優れたスケーラビリティ

X86クラスタは、柔軟性を向上させるために必要に応じていつでも拡張できます。

高い処理効率

データがTBレベルに達すると、処理効率が大幅に向上します

複数の処理タイプ

構造化データ、半構造化データ、非構造化データを処理できる

価値をさらに探求する

処理されるデータの量が多く、種類も多様なので、データの価値をさらに掘り下げることができます。

アップグレードできる領域はたくさんありますか?こうしたアップグレードをサポートするために、ビッグデータ システムにはどのような機能が必要ですか?これにはアーキテクチャの問題が関係します。 Xiaomaiと一緒に読み続けましょう。

ステップ3: ビッグデータアーキテクチャ

ビッグデータ システムは、インフラストラクチャ、プラットフォーム、アプリケーションで構成されていることはすでに知られています。さらに詳しく見ていきましょう。下の図を参照してください。

インフラストラクチャは、ローカル エリア ネットワークまたはインターネットを介して接続された X86 クラ​​スターで構成され、ビッグ データ プラットフォームに最も基本的なハードウェア サポートを提供します。

ビッグデータ プラットフォームは、インフラストラクチャ、データ処理、データ サービスの 3 つの部分で構成されます。

インフラストラクチャは、インフラストラクチャのシステム管理と、データ処理のための分散基盤サービスの提供を担当します。データ処理は、データの収集、保存、計算を担当します。データ サービスは、処理されたデータを上位レベルのアプリケーションに提供して使用できるようにします。ビッグデータ アプリケーションは、ビジネス アプリケーションやデータ分析など、さまざまなユーザー指向のアプリケーション システムです。これがビッグデータ システムの全体的なアーキテクチャです。これは私たちがよく目にする BI アーキテクチャと非常に似ていますか?次の表を比較すると、より明確にわかります。

以下では、このアーキテクチャについて詳しく説明します。このアーキテクチャを理解することで、Xiaomai の目標は達成されました。

ステップ4: 仮想化

インフラストラクチャは、コンピューティング、ストレージ、およびネットワーク機能を提供し、ビッグデータ プラットフォームの基盤となります。しかし、次の問題をどのように解決するのでしょうか。

多数のマシンを管理する方法

クラスターの状態が変わった場合、つまり、一部のマシンが追加または削除された場合、プラットフォーム構成を変更する必要がありますか?

システムリソースを最大限に活用する方法

クラスターの容量の一部のみが使用され、他のシステムを展開するために新しいマシンが必要な場合、新しいマシンを提供するためにクラスターからマシンを削除する必要がありますか?

弾力性の問題を解決する方法

ピーク時には、システムには 20 台のマシンが必要になる場合がありますが、通常時には 10 台しか必要ありません。では、何本の映画を用意すればよいのでしょうか? 20 本のフィルムを提供する場合、通常は使用されない 10 本のフィルムをどう処理すればよいでしょうか?

これらの問題には、仮想化という解決策があります。つまり、クラスターは全体として管理され、必要に応じて特定のマシンから関連するリソースを割り当てて、「新しいマシン」をすばやく形成できます。たとえば、マシン A の CPU パフォーマンスの 1/2、メモリの 1/3、マシン B のハードディスクの 1/5 を使用できます。

クラスターの状態が変わった場合は、仮想化ソフトウェアの構成を変更するだけで、プラットフォームへの影響を軽減できます。クラスターに余分なリソースがある場合、一部の新しいマシンを仮想化して他のシステムで使用できるようにすることで、システム リソースを最大限に活用できます。

仮想化の主流の商用ソフトウェアは VMware であり、オープンソースソフトウェアには Xen、KVM などがあります。

ステップ5: クラウド化

仮想化はリソース構成に柔軟性をもたらしますが、明らかな欠陥もあります。 「新しいマシン」の設定には手動操作が必要であり、非常に面倒です。最大で数百台のコンピューターしか管理できませんが、これは社内のエンタープライズ アプリケーションとしては許容範囲です。しかし、数万台のコンピューターを必要とする公共サービスを提供するインターネット企業にとって、仮想化は実現可能ではありません。そこで、インフラストラクチャをサービスとして提供するクラウド コンピューティングという新しいテクノロジーが登場しました。次の図をご覧ください。

Amazonは自社の電子商取引事業の発展を背景に、オープンソースの仮想化ソフトウェアをベースにしたAWS(Amazon Web Service)を初めて開発しました。従来の IT アーキテクチャではニーズを満たすことができなくなったため、このソフトウェアは超大規模クラスター アプリケーションをサポートできます。 Amazon は自社のビジネスニーズを解決した後、このテクノロジーを別のビジネスとして市場に投入できることを発見しました。これは現在世界市場で第 1 位にランクされている Amazon クラウド サービスです。同様の背景で、アリババもXenをベースにした商用版Alibaba Cloudを立ち上げ、現在では国内クラウド市場のリーダーとなっている。ここから、最も初期かつ最も人気のあるクラウド サービスがインターネット企業によって提供された理由も理解できますね。なぜなら、彼らは自らのビジネスを原動力としているからです。数万台のマシンがリソースプール(データセンター)の形でさまざまな地域に分散され(多くは、電気代や労働力が比較的安く、地元の雇用を促進できる広西チワン族自治区、貴州省、内モンゴル自治区などの発展途上省に建設されています)、ディスパッチセンターによって集中管理されています。これはパブリッククラウドプラットフォームです。

Amazon が商用クラウド サービスを開発していた一方で、Rackspace という別のアメリカの企業も Amazon に対抗するために OpenStack を立ち上げました。 *** は他社と競争することができず、NASA (アメリカ航空宇宙局) と協力して OpenStack をオープンソース化し、オープンソース クラウド プラットフォームを共同で構築することを決定しました。その後、さまざまな伝統的な IT 大手がこのオープンソース コミュニティに加わり、二次開発とパッケージ化を経て、独自のプライベート クラウド プラットフォームを立ち上げ、独自のハードウェアやソリューションと一緒にパッケージ化して販売しました。

パブリッククラウドであってもプライベートクラウドであっても、どちらもインフラストラクチャの時間的柔軟性と空間的柔軟性を実現し、インフラストラクチャをサービスとして提供する、つまり Infrastructure as a Service (IaaS) です。

ステップ6: Hadoop

ビッグデータ プラットフォームのインフラストラクチャでは、HDFS や MapReduce などの Hadoop が使用されます。

  • HDFS はクラスター上に分散ファイル システムを実装し、ファイル操作を担当します。 (Windows のファイル管理システム NTFS に似ています)
  • MapReduce は、クラスター上で分散コンピューティングとタスク処理を実装します。ジョブを複数のタスクに分割し、複数のマシンに割り当てて実行する役割を担います。また、各タスクがスムーズに実行されているか実行状況を監視して、すべてのタスクが完了した後に結果をまとめます。 (図書館で複数の人が本を数えるのと同じように、各人が本棚を数え (Map)、最終的にすべての結果を合計します (Reduce))

では、クラスター内の多数のマシンに Hadoop をインストールするにはどうすればよいでしょうか?各マシンの構成とオペレーティング システムは異なる場合があります。

解決策は、「コンテナ」テクノロジを使用することです。まず Hadoop をクローズド コンテナにパッケージ化し、次にそれを統一された方法で各マシンに公開します。コンテナは、マシンの実際の環境に応じて適切な調整を行い、Hadoop のスムーズなインストールを保証します。 (統一規格のコンテナを使用して商品を輸送するのと同様)

主流のコンテナ技術はオープンソースの Docker です。コンテナ経由でHadoopをインストールできるだけでなく、あらゆるアプリケーションを利用できます。

クラスター内のすべてのマシンに Hadoop がインストールされましたが、Hadoop はどのように実行されるのでしょうか?次の図を参照してください。

Hadoop は、クラスター内のノードの 1 つをマスターとして使用し、他のノードをスレーブとして使用します。 HDFS の場合、マスターは NameNode であり、ファイル システムの名前空間の管理とクライアント アクセスの制御を担当します。スレーブは、保存されたデータの管理を担当するデータノードです。 MapReduce の場合、マスターは JobTracker であり、ジョブを構成するすべてのタスクのスケジュールを担当します。これらのタスクは異なる TaskTracker に分散されます。スレーブは TaskTracker であり、JobTracker によって割り当てられたタスクを実行する役割を担います。

Hadoop はさまざまなアップグレード バージョンを生み出してきましたが、現在最も成熟しており、広く使用されているのは Spark です。

ステップ7: データ処理

データ処理とは、データの収集、保存、計算です。ビッグデータにはさまざまな用途があるため、アプリケーションによってデータのタイプ、構造、リアルタイム要件が異なる場合があります。そのため、実際の状況に応じてデータベースを選択する必要があります。これはビッグデータ プラットフォームの設計の鍵であり、プラットフォーム全体のパフォーマンスに影響を与えます。異なるデータベース タイプを組み合わせて使用​​したり、異なる ETL テクノロジを使用したりできます。

一般的なデータベースの種類は次のとおりです。

従来のデータベース

主流のデータベースとしては、Oracle、DB2、MySQLなどがあり、主に小規模なアプリケーションシステムや、システムアップグレードのリスクを抑えながら既存のリソースを活用する目的で使用されています。使用される ETL テクノロジーは、Datastage、Kettle などです。

インメモリデータベース

主流のデータベースにはSQLiteやHANAがあり、リアルタイム指標表示、精密マーケティングなど、リアルタイム要件の高いデータやリアルタイム処理に主に使用されています。使用されるETL技術は、ストリーム処理技術Kafkaです。

MPP データベース

MPP は大規模並列処理を指します。 MPP データベースは X86 クラ​​スターをサポートします。一般的なものには、Greanplum や Vertica などがあります。主にシグナリング解析やDPI解析などの大規模な構造化データ分析に使用されます。 Kettle は一般的に ETL ツールとして使用されます。

NoSQL データベース

NoSQL は半構造化または非構造化データベースを指します。主流のデータベースには、MongoDB、HBase、HDFS などがあります。 HBase は半構造化データまたは疎構造化データの保存に使用され、HDFS は非構造化データの保存に使用されます。 HBase も HDFS も SQL をサポートしていません。いくつかの簡単なクエリ操作を実行するには、SQL インターフェイスとして Hive を使用する必要があります。 NoSQL データベースは Hadoop プラットフォームをベースとしており、主にインターネット データ分析やドキュメント分析などの大規模な半構造化/非構造化オフライン分析に使用されます。 ETL には一般に Web クローラー テクノロジが使用されます。

ステップ8: データサービス

処理されたデータは通常、データ ウェアハウスとは異なり、直接 SQL アクセスするために上位レベルのアプリケーションに提供されることはありません。データ ウェアハウスは収集されたデータを処理してサマリー レイヤーに保存し、上位レベルのアプリケーションは SQL を使用して直接アクセスします。ただし、ビッグデータ プラットフォームは、処理されたデータをカプセル化して分類し、上位レベルのアプリケーションに柔軟に呼び出し可能なデータ サービス インターフェイスを提供して、データ アクセスの標準化とセキュリティを確保します。インターフェースは、ファイル、メッセージ、API、SDK、インターフェース統合の方法で実行されます。プロセスは次のとおりです。

データのフォーマット

生データをフォーマットし、フィールドをフィルタリングして並べ替えます。

データのカプセル化

フォーマットされたデータとそのメタデータはカプセル化され、一貫性のある標準化されたデータ アクセス インターフェイスを実装します。

データ分類

カプセル化されたデータに基づいて、インターフェースは主題別に分類されます。

データサービス

上位アプリケーションは、データ サービス インターフェイスを介してデータを呼び出し、データ サービス機能を実現できます。

データ サービス インターフェイスは、ビッグ データ プラットフォームのすべての詳細をシールドし、プラットフォームをアプリケーションへのサービスとして提供します。このアプローチは、Platform as a Service (PaaS) と呼ばれます。

パブリック クラウド プロバイダーは通常、Alibaba Cloud の EDAS (Enterprise Distributed Application Service) などの対応する PaaS サービスを提供します。

プライベート クラウドは企業自身によって構築されるため、データ アクセスの制御はそれほど厳密ではありません。開発効率を高めるために、アプリケーションは通常、SQL を介してデータに直接アクセスできます。

ステップ9: ビッグデータアプリケーション

以前、Xiaomai はインフラストラクチャとビッグデータ プラットフォーム、およびプライベート クラウドとパブリック クラウドの違いについて紹介しました。ビッグ データ アプリケーションの場合、プライベート クラウド上のアプリケーションは通常エンタープライズ情報システムと呼ばれますが、これらのシステムはビッグ データ アーキテクチャを使用します。パブリック クラウド上のアプリケーションとは、WeChat、Weibo、Alipay など、私たちが日常的に使用するインターネット サービスを指します。しかし、クラウド サービス市場の発展に伴い、おなじみの Microsoft Office 365 などのパブリック クラウドを通じて一般にサービスを提供する従来の IT ベンダーも増えています。ソフトウェアをサービスとして提供するこの方法は、Software as a Service (SaaS) と呼ばれます。

国際市場では、一般的なエンタープライズレベルの SaaS サービスとして、顧客管理サービスの Saleforce、チームコラボレーションサービスの Google Apps などがあります。国内市場では、Kingdee、Microsoft、Oracle もさまざまな SaaS 製品とサービスを提供しています。 IDC による 2017 年から 2022 年までの中国のパブリック クラウド市場全体の予測を見てみましょう (百万米ドル単位)。

上記の表からわかるように、クラウド サービス市場全体の年平均成長率は 41% に達し、その中でも PaaS サービスの成長が最も速く、55.7% に達しました。中国のエンタープライズ SaaS 市場シェアは世界第 2 位であり、今後 5 年間は年間複合成長率 35.7% で急成長を続けると予想されます。 2022年までに、SaaS市場全体の規模は400億人民元に達するでしょう。

ステップ10: クラウドコンピューティング

これまで長々と話してきましたが、クラウド コンピューティングについてはまだ触れていないことにお気づきでしょうか?実は上記は単なる準備に過ぎません。ここでクラウドコンピューティングについて紹介します。クラウド コンピューティングは、IT リソースを配信および使用するための IT アーキテクチャおよびモデルです。上記で紹介した IaaS、PaaS、SaaS は、クラウド コンピューティング アーキテクチャにおけるさまざまなリソースの配信モデルであり、インフラストラクチャ、プラットフォーム、ソフトウェアをサービスの形でユーザーに提供します。

これまで、Xiaomai は関連するすべての概念をすべての人に紹介してきました。先ほどのビッグデータ アーキテクチャ図をさらに改良してみましょう。理解できましたか?

誰もがそれを理解すれば、今回のXiaomaiの登場は完全な成功と言えるでしょう。それでも理解できない場合は、ステップ***に飛んでもう一度読んでください。 。 。 。

<<:  2019 年のクラウド コンピューティング?待ってください、まずはこの3つの課題に備えてください

>>:  2018年12月の業界イベント

推薦する

gfrack フランスの高防御 VPS (99 元/年、1G メモリ/1 コア/30g NVMe/無制限トラフィック) の簡単なレビュー

新しく設立されたVPSブランドgfrackは現在、フランスの高防御クラウドサーバー事業に注力しており...

クラウド技術特許出願ランキングが発表され、テンセント、アリババ、360がトップ3にランクイン!

1月10日、知的財産出版社i Think Tankは「中国インターネットクラウド技術特許分析レポート...

クラウドにデータを保存する際のセキュリティ上の考慮事項

クラウド コンピューティング テクノロジーが世界中のビジネスの基本的な柱となるまで、それほど時間はか...

#中秋国庆# Mahua Cloud: すべての VPS が 66% オフ、香港 cn2 VPS + 安徽モバイル VPS

馬華クラウド社は2007年に設立されました。現在の主力製品は、安徽モバイルBGPと香港将軍澳クラウド...

ウェブサイトの最適化を恋愛関係のように扱う

恋に落ちることから結婚に至るまでは長いプロセスであり、多くのステップ、多くの浮き沈み、多くの甘い瞬間...

アリババとテンセントが相互接続、ピンドゥオドゥオはパニックに陥っているのか?

WeChatでTaobaoを閲覧すると、中国のインターネット史上最も象徴的なシーンがついに現実のもの...

産業用ソフトウェアのクラウド移行の槍と盾

産業用ソフトウェアは数千種類、中小企業は数万社あるが、その中で「鶏や犬の鳴き声は聞こえるが、死ぬまで...

仮想マシンに Windows 11 をインストールするにはどうすればいいですか?

[[418362]] [51CTO.com クイック翻訳]ほとんどの人にとって、通常の PC に W...

キーワードリサーチの2つのタブーを明らかにする

キーワード調査は SEO 作業において非常に重要な部分です。この仕事では、ウェブサイトの所有者が、ど...

あらゆるクラウドで実行: クラウドの移植性を検討しましたか?

クラウド ポータビリティは、スケーラブルで回復力のあるクラウド ネイティブ アプリケーションを構築す...

電子商取引に欠かせないヒント: Taobao 検索の完全分析

著者: 陳 燕タオバオ検索に関する「体験談」は数多く出回っていますが、その多くはブラックハットで、近...

V5.Net: 香港独立サーバー、月額292元から、荃湾データセンター/直接接続最適化、e3-1230/16gメモリ/480gSSD/30M帯域幅

v5.net は現在、香港の荃湾データセンターの独立サーバーに対して 45% オフの定期プロモーショ...

Pinduoduoは止められない

孫悟空は岩の割れ目から飛び出しました。 Alibaba の P8Plus の友人数人が、Pinduo...

extravm: 月額 3.5 ドル、KVM シリーズ、シンガポールの無制限の高セキュリティ VPS、OVH データ センター

OVHのシンガポールデータセンターでVPSを購入したいという方もいらっしゃいますが、残念ながら公式サ...

最適化の詳細を把握するのは難しくありません。一生役立つ 3 つのコツを学びましょう。

ウェブサイトの最適化には、マクロ最適化戦略とミクロ最適化戦略の両方が含まれます。この記事では、最適化...