Amazon EMR は、複数の動的にスケーラブルな Amazon EC2 インスタンスにわたって大量のデータを迅速かつ簡単に、コスト効率よく処理できるマネージド Hadoop フレームワークを提供します。また、Amazon EMR で Apache Spark、HBase、Presto、Flink などの他の一般的な分散フレームワークを実行したり、Amazon S3 や Amazon DynamoDB などの他の AWS データストレージサービス内のデータを操作したりすることもできます。 Amazon EMR は、ログ分析、Web インデックス作成、データ変換 (ETL)、機械学習、財務分析、科学的シミュレーション、バイオインフォマティクスなど、幅広いビッグデータの使用事例を安全かつ確実に処理できます。 Amazon EMR のバージョン管理されたリリース戦略を使用すると、Apache Hadoop や Spark エコシステムのアプリケーションなど、EMR クラスターで最も人気のあるオープンソース プロジェクトを簡単に選択して使用できます。ソフトウェアは Amazon EMR によってインストールおよび構成されるため、インフラストラクチャや管理タスクについて心配する時間を減らし、データに価値を付加することに多くの時間を費やすことができます。 アドバンテージ 1. 使いやすい Amazon EMR クラスターの起動には数分しかかかりません。ノードのプロビジョニング、クラスターのセットアップ、Hadoop 構成、クラスターの最適化について心配する必要はありません。 Amazon EMR がこれらのタスクを処理するので、ユーザーは分析に集中できます。 2. 低コスト Amazon EMR の料金設定はシンプルで予測可能です。1 分から始まり、使用した秒ごとに秒単位の料金を支払います。 10 ノードの Hadoop クラスターを 1 時間あたりわずか 0.15 ドルで起動できます。 Amazon EMR は Amazon EC2 スポットインスタンスとリザーブドインスタンスをサポートするように設計されているため、基本インスタンスコストを 50 ~ 80% 節約することもできます。 3. 柔軟性 Amazon EMR を使用すると、1 個、数百個、さらには数千個のコンピューティングインスタンスをプロビジョニングして、あらゆる規模のデータを処理できます。インスタンスの数は手動でも Auto Scaling でも簡単に増減でき、使用した分だけ支払うことができます。 4. 信頼性の高い操作 クラスターのデバッグと監視に費やす時間が短縮されます。 Amazon EMR は Hadoop をクラウド向けに最適化しており、クラスターを監視し、失敗したタスクを再試行し、パフォーマンスの低いインスタンスを自動的に置き換えます。 5. セキュリティ Amazon EMR は、インスタンスへのネットワークアクセスを制御するために Amazon EC2 ファイアウォール設定を自動的に構成し、ユーザーが定義した論理的に分離されたネットワークである Amazon Virtual Private Cloud (VPC) でクラスターを起動できます。 Amazon S3 に保存されているオブジェクトの場合、AWS Key Management Service またはカスタマー管理キーを介して、EMRFS による Amazon S3 サーバー側暗号化または Amazon S3 クライアント側暗号化を使用できます。追加の暗号化オプションと Kerberos 認証も簡単に有効にできます。 6. 柔軟性 クラスターを完全に制御できます。各インスタンスへのルートアクセス権があるため、追加のアプリケーションを簡単にインストールし、ブートストラップ アクションを使用して各クラスターをカスタマイズできます。さらに、カスタム Amazon Linux AMI を使用して Amazon EMR クラスターを起動することもできます。 Amazon EMR で何を構築できますか? 1. クリックストリーム分析 Amazon EMR を使用すると、クリックストリーム データを分析してユーザーをセグメント化し、さまざまなユーザーの好みを理解し、より効果的な広告を配信できます。 2. リアルタイム分析 Amazon EMR 上の Spark Streaming を使用して、Amazon Kinesis、Apache Kafka、またはその他のデータストリームからのリアルタイムデータを消費および処理します。フォールトトレラント方式でストリーミング分析を実行し、結果を Amazon S3 または HDFS に書き込みます。 3. ログ分析 Amazon EMR は、Web アプリケーションやモバイル アプリケーションによって生成されるさまざまなログを処理するために使用できます。 Amazon EMR は、ペタバイト単位の非構造化データや半構造化データを、アプリケーションやユーザーの洞察に役立つデータに変換するのに役立ちます。 4. 抽出、変換、ロード(ETL) Amazon EMR を使用すると、大規模なデータセットの分類、集約、マージなどのデータ変換ワークロード (ETL) を迅速かつコスト効率よく実行できます。 5. 予測分析 Amazon EMR 上の Apache Spark には、幅広いスケーラブルな機械学習アルゴリズム用の MLlib が含まれていますが、独自のライブラリを使用することもできます。データセットをメモリに保存することで、Spark は一般的な機械学習ワークロードに対して優れたパフォーマンスを提供できます。 6. ゲノミクス Amazon EMR は、膨大な量のゲノムデータやその他の大規模な科学データセットを迅速かつ効率的に処理します。研究者は AWS でホストされている無料のゲノムデータにアクセスできます。 |
<<: 従来の SAN や NAS と比較した分散ストレージの利点と欠点は何ですか?
>>: 「音」があなたのもとにやって来て、「ビジョン」が見える、テンセントクラウド+コミュニティオーディオおよびビデオ技術開発サロンがやって来ます
1. 準備1. コンテナログについてDocker ログは、Docker エンジン ログとコンテナ ロ...
PR 値とは、Google によるウェブサイトの評価です。評価が高いほど、ウェブサイトの人気が高くな...
私たちがよく知るインターネット上の「メールマーケティング」は、スパムが横行するほどに、今では蔓延して...
6 つのアプリケーション移行戦略: 「6 つの R」 私たちがよく目にする 6 つの最も一般的なアプ...
Pacificrack では現在、ロサンゼルス データ センターのハイブリッド サーバー専用に使用さ...
顧客が初めて王世凡と協力関係を築くと、王世凡は顧客に何度も「本当にウェブサイトを最適化しますか?」「...
まず最初に、私がこの要約を書いた理由を紹介したいと思います。 1年前、私はAlibabaやVipsh...
[51CTO.comからのオリジナル記事] 第15回中国IDC業界年次式典2020が開催されている中...
クラウド コンピューティングは、単にコンピューティング サービスを提供します。これらのサービスには、...
budgetvm は、わずか 45 ドルで非常に強力な構成の特別なサーバーを立ち上げました。もちろん...
先ほど、Shitou さんは Baidu News で「SEO」というキーワードを検索しました。もと...
検索エンジンのアルゴリズム、特に Baidu 検索エンジンのアルゴリズムが継続的にアップグレードされ...
1. 中国サイバースペース管理局:暴力的な内容を含むオンラインゲームはすべてオフラインになる新華社記...
henghost(香港恒創、 SonderCloud Limited.)は、年に一度開催される絶対最...