Amazon EMR の紹介

Amazon EMR は、複数の動的にスケーラブルな Amazon EC2 インスタンスにわたって大量のデータを迅速かつ簡単に、コスト効率よく処理できるマネージド Hadoop フレームワークを提供します。また、Amazon EMR で Apache Spark、HBase、Presto、Flink などの他の一般的な分散フレームワークを実行したり、Amazon S3 や Amazon DynamoDB などの他の AWS データストレージサービス内のデータを操作したりすることもできます。

Amazon EMR は、ログ分析、Web インデックス作成、データ変換 (ETL)、機械学習、財務分析、科学的シミュレーション、バイオインフォマティクスなど、幅広いビッグデータの使用事例を安全かつ確実に処理できます。

Amazon EMR のバージョン管理されたリリース戦略を使用すると、Apache Hadoop や Spark エコシステムのアプリケーションなど、EMR クラスターで最も人気のあるオープンソースプロジェクトを簡単に選択して使用できます。ソフトウェアは Amazon EMR によってインストールおよび構成されるため、インフラストラクチャや管理タスクについて心配する時間を減らし、データに価値を付加することに多くの時間を費やすことができます。

アドバンテージ

1. 使いやすい

Amazon EMR クラスターの起動には数分しかかかりません。ノードのプロビジョニング、クラスターのセットアップ、Hadoop 構成、クラスターの最適化について心配する必要はありません。 Amazon EMR がこれらのタスクを処理するので、ユーザーは分析に集中できます。

2. 低コスト

Amazon EMR の料金設定はシンプルで予測可能です。1 分から始まり、使用した秒ごとに秒単位の料金を支払います。 10 ノードの Hadoop クラスターを 1 時間あたりわずか 0.15 ドルで起動できます。 Amazon EMR は Amazon EC2 スポットインスタンスとリザーブドインスタンスをサポートするように設計されているため、基本インスタンスコストを 50 ～ 80% 節約することもできます。

3. 柔軟性

Amazon EMR を使用すると、1 個、数百個、さらには数千個のコンピューティングインスタンスをプロビジョニングして、あらゆる規模のデータを処理できます。インスタンスの数は手動でも Auto Scaling でも簡単に増減でき、使用した分だけ支払うことができます。

4. 信頼性の高い操作

クラスターのデバッグと監視に費やす時間が短縮されます。 Amazon EMR は Hadoop をクラウド向けに最適化しており、クラスターを監視し、失敗したタスクを再試行し、パフォーマンスの低いインスタンスを自動的に置き換えます。

5. セキュリティ

Amazon EMR は、インスタンスへのネットワークアクセスを制御するために Amazon EC2 ファイアウォール設定を自動的に構成し、ユーザーが定義した論理的に分離されたネットワークである Amazon Virtual Private Cloud (VPC) でクラスターを起動できます。 Amazon S3 に保存されているオブジェクトの場合、AWS Key Management Service またはカスタマー管理キーを介して、EMRFS による Amazon S3 サーバー側暗号化または Amazon S3 クライアント側暗号化を使用できます。追加の暗号化オプションと Kerberos 認証も簡単に有効にできます。

6. 柔軟性

クラスターを完全に制御できます。各インスタンスへのルートアクセス権があるため、追加のアプリケーションを簡単にインストールし、ブートストラップアクションを使用して各クラスターをカスタマイズできます。さらに、カスタム Amazon Linux AMI を使用して Amazon EMR クラスターを起動することもできます。

Amazon EMR で何を構築できますか?

1. クリックストリーム分析

Amazon EMR を使用すると、クリックストリームデータを分析してユーザーをセグメント化し、さまざまなユーザーの好みを理解し、より効果的な広告を配信できます。

2. リアルタイム分析

Amazon EMR 上の Spark Streaming を使用して、Amazon Kinesis、Apache Kafka、またはその他のデータストリームからのリアルタイムデータを消費および処理します。フォールトトレラント方式でストリーミング分析を実行し、結果を Amazon S3 または HDFS に書き込みます。

3. ログ分析

Amazon EMR は、Web アプリケーションやモバイルアプリケーションによって生成されるさまざまなログを処理するために使用できます。 Amazon EMR は、ペタバイト単位の非構造化データや半構造化データを、アプリケーションやユーザーの洞察に役立つデータに変換するのに役立ちます。

4. 抽出、変換、ロード（ETL）

Amazon EMR を使用すると、大規模なデータセットの分類、集約、マージなどのデータ変換ワークロード (ETL) を迅速かつコスト効率よく実行できます。

5. 予測分析

Amazon EMR 上の Apache Spark には、幅広いスケーラブルな機械学習アルゴリズム用の MLlib が含まれていますが、独自のライブラリを使用することもできます。データセットをメモリに保存することで、Spark は一般的な機械学習ワークロードに対して優れたパフォーマンスを提供できます。

6. ゲノミクス

Amazon EMR は、膨大な量のゲノムデータやその他の大規模な科学データセットを迅速かつ効率的に処理します。研究者は AWS でホストされている無料のゲノムデータにアクセスできます。

<<: 従来の SAN や NAS と比較した分散ストレージの利点と欠点は何ですか?

>>: 「音」があなたのもとにやって来て、「ビジョン」が見える、テンセントクラウド+コミュニティオーディオおよびビデオ技術開発サロンがやって来ます