OpenStack がビッグデータの使用事例で重要な役割を果たす方法

OpenStack は、コンピューティング、ストレージ、およびネットワークリソースのプールを制御します。この記事では、OpenStack がビッグデータの使用事例で重要な役割を果たす方法に焦点を当てます。

OpenStack 上のビッグデータ

今日では、データはあらゆる場所で生成され、その量は飛躍的に増加しています。 Web サーバー、アプリケーションサーバー、データベースサーバーからのデータは、ユーザー情報、ログファイル、システムステータス情報の形式で提供されます。センサー、車両、産業機器などの IoT デバイスからも大量のデータが生成されます。科学的シミュレーションモデルから生成されるデータもビッグデータのソースです。従来のソフトウェアツールを使用すると、このデータを保存して分析することは困難ですが、Hadoop を使用するとこの問題を解決できます。

[[225851]]

ユースケースのシナリオを考えてみましょう。大量のデータがリレーショナルデータベース管理システム環境に保存されます。データセットが大きくなるにつれて、RDBMS (リレーショナルデータベース管理システム) のパフォーマンスは低下します。そして、データセットが拡大するにつれて、この問題はより深刻になります。この段階では、NoSQL の採用は避けてください。大量のデータをコスト効率の高い方法で保存および処理する必要があります。非仮想化環境でハイエンドサーバーに依存すべきでしょうか?要件は、いつでもクラスターを拡張することであり、そのすべてのコンポーネントを管理するためのより優れたダッシュボードが必要です。

OpenStack 上に Hadoop クラスターを構築し、ETL (抽出、変換、ロード) ジョブ環境を作成する計画を立てます。 Hadoop は、フォールトトレラントな Hadoop 分散ファイルシステムと MapReduce 実装を使用して大規模なデータセットを保存および分析するための業界標準フレームワークです。ただし、スケーラビリティは、典型的な Hadoop クラスターでは非常に一般的な問題です。

Openstack は、Sahara - Data Processing as a Service というプロジェクトを開始しました。 Openstack Sahara は、クラスタートポロジ内で Hadoop MapReduce、Spark、Storm などのデータ処理フレームワークを構成および管理するように設計されています。このプロジェクトは、Amazon Elastic MapReduce (EMR) サービスによって提供されるデータ分析プラットフォームに似ています。 Openstack Sahara は数分でクラスターをデプロイします。さらに、Openstack Sahara は、需要に応じてワーカーノードを追加または削除することでクラスターを拡張できます。

Openstack Sahara を使用して Hadoop クラスターを管理する利点

クラスターのプロビジョニングがより速くなり、構成も簡単になります。
他の OpenStack サービスと同様に、Sahara サービスは強力な REST API、CLI、Horizon ダッシュボードを通じて管理できます。
-- Vannila (Apache Hadoop)、HDP (ambari)、CDH (Cloudera)、MapR、Spark、Storm など、複数の Hadoop ベンダーをサポートするプラグインが利用可能です。
——クラスターのサイズは、需要に応じて拡大または縮小できます。
——OpenStack Swift と統合して、Hadoop および Spark で処理されたデータを保存できます。
——クラスター監視がシンプルに。
-- クラスター構成に加えて、Sahara はアドホックまたはバースト分析ワークロード向けの分析サービスとしても使用できます。

建築

Openstack Sahara は、OpenStack のコアサービスとその他の完全に管理されたサービスを活用するように設計されています。これにより、Sahara の信頼性が向上し、Hadoop クラスターを効率的に管理できるようになります。 Trove (ユーザーがリレーショナルデータベースを管理し、MySQL インスタンスの非同期レプリケーションを実装し、PostgreSQL データベースインスタンスを提供する OpenStack データサービスコンポーネント) や Swift などのサービスを使用することを選択できます。サハラの建築を見てみましょう。

-- Sahara サービスには、エンドユーザーからの HTTP リクエストに応答し、他の OpenStack サービスと対話して機能を実行する API サーバーがあります。
-- Keystone (Identity as a Service) はユーザーを認証し、OpenStack で使用するためのセキュリティトークンを提供して、Sahara でのユーザーの機能を OpenStack 権限に制限します。
Heat (Orchestration as a Service) は、データ処理クラスターの展開を構成およびオーケストレーションするために使用されます。
Glance (Virtual Machine Image as a Service) は、オペレーティングシステムと Hadoop/Spark パッケージがプリインストールされた VM イメージを保存し、データ処理クラスターを作成します。
—— Nova (Compute) は、データ処理クラスター用の仮想マシンを提供します。
Ironic (サービスとしてのベアメタル) は、データ処理クラスター用のベアメタルノードを提供します。
-- Neutron (ネットワーキング) は、基本的なトポロジから高度なトポロジまで、データ処理クラスターへのネットワークサービスアクセスを容易にします。
—— Cinder (ブロックストレージ) は、クラスターノードに永続的なストレージメディアを提供します。
Swift (オブジェクトストレージ) は、hadoop/spark によって処理されたジョブバイナリとデータを保存するための信頼性の高いストレージを提供します。
Designate (DNS as a Service) は、クラスターインスタンスの DNS レコードを保持するためのホストゾーンを提供します。 Hadoop サービスはホスト名を通じてクラスターインスタンスと通信します。
Ceilometer (telrmetry) は、計測と監視の目的でクラスターに関するメトリックを収集して保存します。
- Manila (ファイル共有) を使用して、ジョブバイナリとジョブによって作成されたデータを保存できます。
Barbican (キー管理サービス) は、パスワードや秘密鍵などの機密データを安全に保存します。
-- Trove (Database as a Service) は、Hive メタストアのデータベースインスタンスを提供し、Hadoop サービスやその他の管理サービスの状態を保存します。

Sahara クラスタの設定方法

Deploy Sahara インストールガイドの手順に従います。デプロイメント環境によってアプローチは異なりますが、実験したい場合は Kolla も良い選択肢です。

Horizon ダッシュボードを通じて Sahara プロジェクトを管理することもできます。

Sahara Cluster ETL (抽出、変換、ロード) または ELT (抽出、ロード、変換) を使用する

市場には多くの ETL ツールが存在します。

従来のデータウェアハウスには、データソース以外の場所に配置される可能性があるなど、独自の利点と制限があります。 Hadoop は ETL ジョブを実行するのに理想的なプラットフォームです。

データストアには、構造化データ、半構造化データ、非構造化データなど、さまざまな種類のデータが存在します。 Hadoop エコシステムには、さまざまなデータソース (データベース、ファイル、その他のデータストリームを含む) からデータを抽出し、集中型の Hadoop 分散ファイルシステム (HDFS) に保存するためのツールがあります。

データが急速に増加すると、Hadoop クラスターを拡張して OpenStack Sahara を活用できるようになります。

Apache Hive は、Hadoop エコシステム上に構築されたデータウェアハウスプロジェクトであり、ETL 分析のための堅牢なツールです。 Sqoop、Flume、Kafka などのツールを使用してデータソースからデータを抽出したら、MapReduce テクノロジーを使用した Hive または pig スクリプトを使用してデータをクリーンアップおよび変換する必要があります。

Hive のもう 1 つの利点は、Hive クエリ言語を通じてアクセスできるインタラクティブなクエリエンジンであることです。 SQL に似ています。したがって、データベース担当者は、Java や MapReduce の概念を習得しなくても、Hadoop エコシステムでジョブを実行できます。 Hive クエリ実行エンジンは、Hive クエリを解析し、一連の MapReduce / Spark ジョブに変換します。 Hive には、JDBC/ODBC ドライバーとシンクライアントを通じてアクセスできます。

Oozie は、Hadoop エコシステムで利用できるワークフローエンジンです。ワークフローは、分散環境でシーケンスとして実行する必要がある一連のタスクです。 Oozie は、複数のワークフローをカスケードし、調整されたジョブを作成するためのシンプルなワークフローの作成に役立ちます。 Oozie は、Hadoop 関連のすべての操作をサポートするモジュールはありませんが、複雑な ETL ジョブのワークフローを作成するのにも最適です。

Openstack Mistral (Workflow as a Service) などの任意のワークフローエンジンを使用して ETL 作業を実行できます。 Apache oozie は、いくつかの点で Openstack Mistral に似ており、定期的にトリガーできるジョブスケジューラとして機能します。

アプリケーションが Hadoop を使用してデータを MySQL サーバーに保存する一般的な ETL ジョブフローを見てみましょう。保存されたデータは最小限のコストと時間で分析する必要があります。

抽出する

最初のステップは、MySQL からデータを抽出し、HDFS に保存することです。

Apache Sqoop は、RDBMS データストアなどの構造化データソースからデータをエクスポート/インポートするために使用できます。

抽出するデータが半構造化データまたは非構造化データである場合は、Apache Flume を使用して、Web サーバーログ、Twitter データストリーム、センサーデータなどのデータストリームからデータを取り込むことができます。

変換

上記のステージから抽出されたデータは正しい形式ではありません (生データのみ)。適切なフィルターとデータ集約を使用してクリーンアップする必要があります。

これは HDFS にデータを保存するために不可欠です。

この時点で、各テーブルの Hive スキーマを設計し、ステージング領域に保存されているデータを変換するためのデータベースを作成する必要があります。

通常、データは .csv 形式で、各レコードはコンマで区切られます。

HDFS データがどのように保存されているかを理解するために、HDFS データを調べる必要はありません。 Hive と互換性があるはずの珍しいデータ型がいくつかあります。

データベースがモデル化された後、抽出されたデータをロードしてクリーニングすることができます。表内のデータはまだ正規化されていません。異なるテーブルから必要な列を集計します。

同様に、「OVERWRITE INTO TABLE」ステートメントを使用して、複数のテーブルからデータを要約することもできます。

Hive はパーティション化されたテーブルをサポートしており、実行負荷を水平に分散することでクエリのパフォーマンスを向上させます。年と月の列を分割することをお勧めします。場合によっては、パーティション化されたテーブルによって MapReduce ジョブでより多くのタスクが作成されることがあります。

負荷

ここで、変換されたデータを HDFS のデータウェアハウスディレクトリにロードします。これがデータの最終状態です。ここで、適切な結果を得るために SQL クエリを適用できます。

すべての DML コマンドを使用して、ユースケースに基づいてウェアハウスデータを分析できます。

結果は分析用に .csv、表、またはグラフとしてダウンロードできます。 Talend OpenStudio、Tabelau などの他の一般的なビジネスインテリジェンスツールと統合できます。

オートメーション

ここで、Oozie ワークフローエンジンを使用して ETL ジョブを自動化します (Mistral を使用することもできます。ほとんどの Hadoop ユーザーは Apache Oozie の使用に慣れています)。

結論は

OpenStack は非常に大規模な Hadoop エコシステムと統合されており、多くのクラウドプロバイダーが Hadoop サービスを提供しています (クラウド管理ポータルから数回クリックするだけで利用できます)。 Sahara はほとんどの Hadoop ベンダープラグインをサポートしており、ETL ワークフローを実行できます。

<<: ニーズに合ったクラウドホストの選び方

>>: 従来の SAN や NAS と比較した分散ストレージの利点と欠点は何ですか?