ビッグデータとクラウドコンピューティングを理解し、混乱から抜け出すための10のステップ

ステップ1: ビッグデータ

「ビッグデータ」という概念は近年人気が高まり、今ではどこにでもあるようになりました。ビッグデータとは何かを理解する前に、まず従来のデータとは何かを理解しましょう。

従来のデータとは、顧客情報や財務データなど、IT ビジネスシステム内のデータを指します。これらのデータは構造化されており、その量はそれほど多くなく、通常は TB レベルです。従来のデータと比較して、「新しいデータ」と呼ばれるタイプのデータがあります。これは、コミュニティネットワーク、インターネット、およびその他のチャネルから取得され、テキスト、画像、音声、ビデオなどの非構造化データが含まれます。現在、世界のデータの 75% 以上が非構造化されており、爆発的に増加し続けています。よりよく理解するために、次の図を見てみましょう。

ビッグデータとは、構造化された従来のデータと、非構造化された新しいデータです。

そのため、ビッグデータには「4V」と呼ばれる以下の特性もあります。

ボリューム: データ量は TB レベルから PB レベルまで膨大です。
多様性: Web ログ、ビデオ、画像、地理的位置情報など、さまざまな種類のデータが存在します。
速度: 処理速度が速く、さまざまな種類のデータから価値の高い情報を迅速に取得できるため、従来のデータマイニング技術とは根本的に異なります。
価値: データが適切に使用され、正しく正確に分析されれば、高い価値がもたらされます。

ステップ2: ビッグデータの構成

ビッグデータシステムは、インフラストラクチャ、プラットフォーム、アプリケーションで構成されます。私たちが普段使っているコンピューターと比較すると、インフラストラクチャはコンピューターのハードウェア、プラットフォームはそこにインストールされているオペレーティングシステム、アプリケーションはオペレーティングシステム上のさまざまなアプリケーションプログラムです。

ビッグデータの用途は多岐にわたりますが、一般的には「ビジネスアプリケーション」と「データ分析」の2つのカテゴリに分けられます。

前者には ERP や CRM などの業務システムが含まれ、後者はビジネス分析、価値分析、トラフィック分析などのさまざまな分析アプリケーションを指します。分析システムは、業務システムからソースデータを取得し、分析後に業務システムにフィードバックすることで、業務システムを強化 (インテリジェンスを注入) し、インテリジェント化します。この時点で、馴染みがあると感じますか?それは何らかの形で私たちの BI に関連しているのでしょうか?そうです、「ビッグデータプラットフォーム」と「データ分析システム」が合わさってBIのアップグレード版となるのです！アップグレード版ということで、従来の BI との違いは何でしょうか?詳細については以下をお読みください。

低コスト

IOEを排除し、安価なX86ハードウェアを使用し、オープンソースソフトウェアをより多く使用してコストを節約する

優れた災害復旧

プラットフォームは X86 クラスター上に展開されており、問題が発生した場合にはいつでもマシンを切り替えることができます。

優れたスケーラビリティ

X86クラスタは、柔軟性を向上させるために必要に応じていつでも拡張できます。

高い処理効率

データがTBレベルに達すると、処理効率が大幅に向上します

複数の処理タイプ

構造化データ、半構造化データ、非構造化データを処理できる

価値をさらに探求する

処理されるデータの量が多く、種類も多様なので、データの価値をさらに掘り下げることができます。

アップグレードできる領域はたくさんありますか?こうしたアップグレードをサポートするために、ビッグデータシステムにはどのような機能が必要ですか?これにはアーキテクチャの問題が関係します。 Xiaomaiと一緒に読み続けましょう。

ステップ3: ビッグデータアーキテクチャ

ビッグデータシステムは、インフラストラクチャ、プラットフォーム、アプリケーションで構成されていることはすでに知られています。さらに詳しく見ていきましょう。下の図を参照してください。

インフラストラクチャは、ローカルエリアネットワークまたはインターネットを介して接続された X86 クラスターで構成され、ビッグデータプラットフォームに最も基本的なハードウェアサポートを提供します。

ビッグデータプラットフォームは、インフラストラクチャ、データ処理、データサービスの 3 つの部分で構成されます。

インフラストラクチャは、インフラストラクチャのシステム管理と、データ処理のための分散基盤サービスの提供を担当します。データ処理は、データの収集、保存、計算を担当します。データサービスは、処理されたデータを上位レベルのアプリケーションに提供して使用できるようにします。ビッグデータアプリケーションは、ビジネスアプリケーションやデータ分析など、さまざまなユーザー指向のアプリケーションシステムです。これがビッグデータシステムの全体的なアーキテクチャです。これは私たちがよく目にする BI アーキテクチャと非常に似ていますか?次の表を比較すると、より明確にわかります。

以下では、このアーキテクチャについて詳しく説明します。このアーキテクチャを理解することで、Xiaomai の目標は達成されました。

ステップ4: 仮想化

インフラストラクチャは、コンピューティング、ストレージ、およびネットワーク機能を提供し、ビッグデータプラットフォームの基盤となります。しかし、次の問題をどのように解決するのでしょうか。

多数のマシンを管理する方法

クラスターの状態が変わった場合、つまり、一部のマシンが追加または削除された場合、プラットフォーム構成を変更する必要がありますか?

システムリソースを最大限に活用する方法

クラスターの容量の一部のみが使用され、他のシステムを展開するために新しいマシンが必要な場合、新しいマシンを提供するためにクラスターからマシンを削除する必要がありますか?

弾力性の問題を解決する方法

ピーク時には、システムには 20 台のマシンが必要になる場合がありますが、通常時には 10 台しか必要ありません。では、何本の映画を用意すればよいのでしょうか? 20 本のフィルムを提供する場合、通常は使用されない 10 本のフィルムをどう処理すればよいでしょうか?

これらの問題には、仮想化という解決策があります。つまり、クラスターは全体として管理され、必要に応じて特定のマシンから関連するリソースを割り当てて、「新しいマシン」をすばやく形成できます。たとえば、マシン A の CPU パフォーマンスの 1/2、メモリの 1/3、マシン B のハードディスクの 1/5 を使用できます。

クラスターの状態が変わった場合は、仮想化ソフトウェアの構成を変更するだけで、プラットフォームへの影響を軽減できます。クラスターに余分なリソースがある場合、一部の新しいマシンを仮想化して他のシステムで使用できるようにすることで、システムリソースを最大限に活用できます。

仮想化の主流の商用ソフトウェアは VMware であり、オープンソースソフトウェアには Xen、KVM などがあります。

ステップ5: クラウド化

仮想化はリソース構成に柔軟性をもたらしますが、明らかな欠陥もあります。「新しいマシン」の設定には手動操作が必要であり、非常に面倒です。最大で数百台のコンピューターしか管理できませんが、これは社内のエンタープライズアプリケーションとしては許容範囲です。しかし、数万台のコンピューターを必要とする公共サービスを提供するインターネット企業にとって、仮想化は実現可能ではありません。そこで、インフラストラクチャをサービスとして提供するクラウドコンピューティングという新しいテクノロジーが登場しました。次の図をご覧ください。

Amazonは自社の電子商取引事業の発展を背景に、オープンソースの仮想化ソフトウェアをベースにしたAWS（Amazon Web Service）を初めて開発しました。従来の IT アーキテクチャではニーズを満たすことができなくなったため、このソフトウェアは超大規模クラスターアプリケーションをサポートできます。 Amazon は自社のビジネスニーズを解決した後、このテクノロジーを別のビジネスとして市場に投入できることを発見しました。これは現在世界市場で第 1 位にランクされている Amazon クラウドサービスです。同様の背景で、アリババもXenをベースにした商用版Alibaba Cloudを立ち上げ、現在では国内クラウド市場のリーダーとなっている。ここから、最も初期かつ最も人気のあるクラウドサービスがインターネット企業によって提供された理由も理解できますね。なぜなら、彼らは自らのビジネスを原動力としているからです。数万台のマシンがリソースプール（データセンター）の形でさまざまな地域に分散され（多くは、電気代や労働力が比較的安く、地元の雇用を促進できる広西チワン族自治区、貴州省、内モンゴル自治区などの発展途上省に建設されています）、ディスパッチセンターによって集中管理されています。これはパブリッククラウドプラットフォームです。

Amazon が商用クラウドサービスを開発していた一方で、Rackspace という別のアメリカの企業も Amazon に対抗するために OpenStack を立ち上げました。 *** は他社と競争することができず、NASA (アメリカ航空宇宙局) と協力して OpenStack をオープンソース化し、オープンソースクラウドプラットフォームを共同で構築することを決定しました。その後、さまざまな伝統的な IT 大手がこのオープンソースコミュニティに加わり、二次開発とパッケージ化を経て、独自のプライベートクラウドプラットフォームを立ち上げ、独自のハードウェアやソリューションと一緒にパッケージ化して販売しました。

パブリッククラウドであってもプライベートクラウドであっても、どちらもインフラストラクチャの時間的柔軟性と空間的柔軟性を実現し、インフラストラクチャをサービスとして提供する、つまり Infrastructure as a Service (IaaS) です。

ステップ6: Hadoop

ビッグデータプラットフォームのインフラストラクチャでは、HDFS や MapReduce などの Hadoop が使用されます。

HDFS はクラスター上に分散ファイルシステムを実装し、ファイル操作を担当します。 (Windows のファイル管理システム NTFS に似ています)
MapReduce は、クラスター上で分散コンピューティングとタスク処理を実装します。ジョブを複数のタスクに分割し、複数のマシンに割り当てて実行する役割を担います。また、各タスクがスムーズに実行されているか実行状況を監視して、すべてのタスクが完了した後に結果をまとめます。 (図書館で複数の人が本を数えるのと同じように、各人が本棚を数え (Map)、最終的にすべての結果を合計します (Reduce))

では、クラスター内の多数のマシンに Hadoop をインストールするにはどうすればよいでしょうか?各マシンの構成とオペレーティングシステムは異なる場合があります。

解決策は、「コンテナ」テクノロジを使用することです。まず Hadoop をクローズドコンテナにパッケージ化し、次にそれを統一された方法で各マシンに公開します。コンテナは、マシンの実際の環境に応じて適切な調整を行い、Hadoop のスムーズなインストールを保証します。（統一規格のコンテナを使用して商品を輸送するのと同様）

主流のコンテナ技術はオープンソースの Docker です。コンテナ経由でHadoopをインストールできるだけでなく、あらゆるアプリケーションを利用できます。

クラスター内のすべてのマシンに Hadoop がインストールされましたが、Hadoop はどのように実行されるのでしょうか?次の図を参照してください。

Hadoop は、クラスター内のノードの 1 つをマスターとして使用し、他のノードをスレーブとして使用します。 HDFS の場合、マスターは NameNode であり、ファイルシステムの名前空間の管理とクライアントアクセスの制御を担当します。スレーブは、保存されたデータの管理を担当するデータノードです。 MapReduce の場合、マスターは JobTracker であり、ジョブを構成するすべてのタスクのスケジュールを担当します。これらのタスクは異なる TaskTracker に分散されます。スレーブは TaskTracker であり、JobTracker によって割り当てられたタスクを実行する役割を担います。

Hadoop はさまざまなアップグレードバージョンを生み出してきましたが、現在最も成熟しており、広く使用されているのは Spark です。

ステップ7: データ処理

データ処理とは、データの収集、保存、計算です。ビッグデータにはさまざまな用途があるため、アプリケーションによってデータのタイプ、構造、リアルタイム要件が異なる場合があります。そのため、実際の状況に応じてデータベースを選択する必要があります。これはビッグデータプラットフォームの設計の鍵であり、プラットフォーム全体のパフォーマンスに影響を与えます。異なるデータベースタイプを組み合わせて使用したり、異なる ETL テクノロジを使用したりできます。

一般的なデータベースの種類は次のとおりです。

従来のデータベース

主流のデータベースとしては、Oracle、DB2、MySQLなどがあり、主に小規模なアプリケーションシステムや、システムアップグレードのリスクを抑えながら既存のリソースを活用する目的で使用されています。使用される ETL テクノロジーは、Datastage、Kettle などです。

インメモリデータベース

主流のデータベースにはSQLiteやHANAがあり、リアルタイム指標表示、精密マーケティングなど、リアルタイム要件の高いデータやリアルタイム処理に主に使用されています。使用されるETL技術は、ストリーム処理技術Kafkaです。

MPP データベース

MPP は大規模並列処理を指します。 MPP データベースは X86 クラスターをサポートします。一般的なものには、Greanplum や Vertica などがあります。主にシグナリング解析やDPI解析などの大規模な構造化データ分析に使用されます。 Kettle は一般的に ETL ツールとして使用されます。

NoSQL データベース

NoSQL は半構造化または非構造化データベースを指します。主流のデータベースには、MongoDB、HBase、HDFS などがあります。 HBase は半構造化データまたは疎構造化データの保存に使用され、HDFS は非構造化データの保存に使用されます。 HBase も HDFS も SQL をサポートしていません。いくつかの簡単なクエリ操作を実行するには、SQL インターフェイスとして Hive を使用する必要があります。 NoSQL データベースは Hadoop プラットフォームをベースとしており、主にインターネットデータ分析やドキュメント分析などの大規模な半構造化/非構造化オフライン分析に使用されます。 ETL には一般に Web クローラーテクノロジが使用されます。

ステップ8: データサービス

処理されたデータは通常、データウェアハウスとは異なり、直接 SQL アクセスするために上位レベルのアプリケーションに提供されることはありません。データウェアハウスは収集されたデータを処理してサマリーレイヤーに保存し、上位レベルのアプリケーションは SQL を使用して直接アクセスします。ただし、ビッグデータプラットフォームは、処理されたデータをカプセル化して分類し、上位レベルのアプリケーションに柔軟に呼び出し可能なデータサービスインターフェイスを提供して、データアクセスの標準化とセキュリティを確保します。インターフェースは、ファイル、メッセージ、API、SDK、インターフェース統合の方法で実行されます。プロセスは次のとおりです。

データのフォーマット

生データをフォーマットし、フィールドをフィルタリングして並べ替えます。

データのカプセル化

フォーマットされたデータとそのメタデータはカプセル化され、一貫性のある標準化されたデータアクセスインターフェイスを実装します。

データ分類

カプセル化されたデータに基づいて、インターフェースは主題別に分類されます。

データサービス

上位アプリケーションは、データサービスインターフェイスを介してデータを呼び出し、データサービス機能を実現できます。

データサービスインターフェイスは、ビッグデータプラットフォームのすべての詳細をシールドし、プラットフォームをアプリケーションへのサービスとして提供します。このアプローチは、Platform as a Service (PaaS) と呼ばれます。

パブリッククラウドプロバイダーは通常、Alibaba Cloud の EDAS (Enterprise Distributed Application Service) などの対応する PaaS サービスを提供します。

プライベートクラウドは企業自身によって構築されるため、データアクセスの制御はそれほど厳密ではありません。開発効率を高めるために、アプリケーションは通常、SQL を介してデータに直接アクセスできます。

ステップ9: ビッグデータアプリケーション

以前、Xiaomai はインフラストラクチャとビッグデータプラットフォーム、およびプライベートクラウドとパブリッククラウドの違いについて紹介しました。ビッグデータアプリケーションの場合、プライベートクラウド上のアプリケーションは通常エンタープライズ情報システムと呼ばれますが、これらのシステムはビッグデータアーキテクチャを使用します。パブリッククラウド上のアプリケーションとは、WeChat、Weibo、Alipay など、私たちが日常的に使用するインターネットサービスを指します。しかし、クラウドサービス市場の発展に伴い、おなじみの Microsoft Office 365 などのパブリッククラウドを通じて一般にサービスを提供する従来の IT ベンダーも増えています。ソフトウェアをサービスとして提供するこの方法は、Software as a Service (SaaS) と呼ばれます。

国際市場では、一般的なエンタープライズレベルの SaaS サービスとして、顧客管理サービスの Saleforce、チームコラボレーションサービスの Google Apps などがあります。国内市場では、Kingdee、Microsoft、Oracle もさまざまな SaaS 製品とサービスを提供しています。 IDC による 2017 年から 2022 年までの中国のパブリッククラウド市場全体の予測を見てみましょう (百万米ドル単位)。

上記の表からわかるように、クラウドサービス市場全体の年平均成長率は 41% に達し、その中でも PaaS サービスの成長が最も速く、55.7% に達しました。中国のエンタープライズ SaaS 市場シェアは世界第 2 位であり、今後 5 年間は年間複合成長率 35.7% で急成長を続けると予想されます。 2022年までに、SaaS市場全体の規模は400億人民元に達するでしょう。

ステップ10: クラウドコンピューティング

これまで長々と話してきましたが、クラウドコンピューティングについてはまだ触れていないことにお気づきでしょうか?実は上記は単なる準備に過ぎません。ここでクラウドコンピューティングについて紹介します。クラウドコンピューティングは、IT リソースを配信および使用するための IT アーキテクチャおよびモデルです。上記で紹介した IaaS、PaaS、SaaS は、クラウドコンピューティングアーキテクチャにおけるさまざまなリソースの配信モデルであり、インフラストラクチャ、プラットフォーム、ソフトウェアをサービスの形でユーザーに提供します。

これまで、Xiaomai は関連するすべての概念をすべての人に紹介してきました。先ほどのビッグデータアーキテクチャ図をさらに改良してみましょう。理解できましたか？

誰もがそれを理解すれば、今回のXiaomaiの登場は完全な成功と言えるでしょう。それでも理解できない場合は、ステップ***に飛んでもう一度読んでください。。。。

<<: 2019 年のクラウドコンピューティング?待ってください、まずはこの3つの課題に備えてください

>>: 2018年12月の業界イベント

ビッグデータとクラウドコンピューティングを理解し、混乱から抜け出すための10のステップ

ノーコードプラットフォームがSaaSを介してスタートアップの成長を促進する方法

第 1 四半期グローバルモバイルアプリ広告収益レポート

ナビゲーションウェブサイトの月間売上高は数百万

韓度易社のトラフィック構造が明らかに、タオバオの顧客が売上の30%を牽引

ServerPronto-512 メモリ KVM/7.95 USD/月

fastervm-90元/年/KVM/128Mメモリ/アジア最適化ラインVPS

エンタープライズ変革: 仮想化がクラウドコンピューティングに与える影響

クラウド移行計画を設計する際に考慮すべき 7 つの要素

ultravps-$4/KVM/512m メモリ/10gSSD/1T トラフィック/シアトル/ラスベガス

akkocloud: 米国 cn2 gia/ドイツ cn2 gia、価格上昇なしで帯域幅を 300Mbps にアップグレード、月額 50 元または年額 299 元

推薦する

hostsumo-$4/Xen/1g メモリ/50g ハードディスク/1T トラフィック/ダラス

Internet+ まだコンセプトを練っていますか?

エッジコンピューティングはモノのインターネットにおける6つの重要な問題を解決します

SEOを行う際は、一人で戦わないでください

企業がクラウドサービスのポートフォリオを管理する能力は、より高いレベルの自動化を達成するための鍵となる。

事例分析: Baidu Knows ページが特定のウェブサイトに大量に表示されています

Baidu スナップショットが消えた後にすべきこと

Hostsolutions: €35/E5-2450L*2/32g メモリ/1gbps、苦情防止、著作権無視

あらゆるインターネット企業が利用する Kafka がなぜ高速なのか？

ListWatchからWatchListへ

百度の「アルゴリズム改善」の簡単な分析

KステーションKステーション6.28月以降はどのようにサイトを構築すればよいですか？8月22日にKステーションに進みます

世界のエッジコンピューティング市場は2030年までに1560億ドルに達する

ソフト記事プロモーションを使って少しお金を稼ぐ方法についてのヒントを共有します

ベイゼン：デジタル化を全面的に受け入れ、組織の人材を管理する方法を模索