Amazon EMR は、複数の動的にスケーラブルな Amazon EC2 インスタンスにわたって大量のデータを迅速かつ簡単に、コスト効率よく処理できるマネージド Hadoop フレームワークを提供します。また、Amazon EMR で Apache Spark、HBase、Presto、Flink などの他の一般的な分散フレームワークを実行したり、Amazon S3 や Amazon DynamoDB などの他の AWS データストレージサービス内のデータを操作したりすることもできます。 Amazon EMR は、ログ分析、Web インデックス作成、データ変換 (ETL)、機械学習、財務分析、科学的シミュレーション、バイオインフォマティクスなど、幅広いビッグデータの使用事例を安全かつ確実に処理できます。 Amazon EMR のバージョン管理されたリリース戦略を使用すると、Apache Hadoop や Spark エコシステムのアプリケーションなど、EMR クラスターで最も人気のあるオープンソース プロジェクトを簡単に選択して使用できます。ソフトウェアは Amazon EMR によってインストールおよび構成されるため、インフラストラクチャや管理タスクについて心配する時間を減らし、データに価値を付加することに多くの時間を費やすことができます。 アドバンテージ 1. 使いやすい Amazon EMR クラスターの起動には数分しかかかりません。ノードのプロビジョニング、クラスターのセットアップ、Hadoop 構成、クラスターの最適化について心配する必要はありません。 Amazon EMR がこれらのタスクを処理するので、ユーザーは分析に集中できます。 2. 低コスト Amazon EMR の料金設定はシンプルで予測可能です。1 分から始まり、使用した秒ごとに秒単位の料金を支払います。 10 ノードの Hadoop クラスターを 1 時間あたりわずか 0.15 ドルで起動できます。 Amazon EMR は Amazon EC2 スポットインスタンスとリザーブドインスタンスをサポートするように設計されているため、基本インスタンスコストを 50 ~ 80% 節約することもできます。 3. 柔軟性 Amazon EMR を使用すると、1 個、数百個、さらには数千個のコンピューティングインスタンスをプロビジョニングして、あらゆる規模のデータを処理できます。インスタンスの数は手動でも Auto Scaling でも簡単に増減でき、使用した分だけ支払うことができます。 4. 信頼性の高い操作 クラスターのデバッグと監視に費やす時間が短縮されます。 Amazon EMR は Hadoop をクラウド向けに最適化しており、クラスターを監視し、失敗したタスクを再試行し、パフォーマンスの低いインスタンスを自動的に置き換えます。 5. セキュリティ Amazon EMR は、インスタンスへのネットワークアクセスを制御するために Amazon EC2 ファイアウォール設定を自動的に構成し、ユーザーが定義した論理的に分離されたネットワークである Amazon Virtual Private Cloud (VPC) でクラスターを起動できます。 Amazon S3 に保存されているオブジェクトの場合、AWS Key Management Service またはカスタマー管理キーを介して、EMRFS による Amazon S3 サーバー側暗号化または Amazon S3 クライアント側暗号化を使用できます。追加の暗号化オプションと Kerberos 認証も簡単に有効にできます。 6. 柔軟性 クラスターを完全に制御できます。各インスタンスへのルートアクセス権があるため、追加のアプリケーションを簡単にインストールし、ブートストラップ アクションを使用して各クラスターをカスタマイズできます。さらに、カスタム Amazon Linux AMI を使用して Amazon EMR クラスターを起動することもできます。 Amazon EMR で何を構築できますか? 1. クリックストリーム分析 Amazon EMR を使用すると、クリックストリーム データを分析してユーザーをセグメント化し、さまざまなユーザーの好みを理解し、より効果的な広告を配信できます。 2. リアルタイム分析 Amazon EMR 上の Spark Streaming を使用して、Amazon Kinesis、Apache Kafka、またはその他のデータストリームからのリアルタイムデータを消費および処理します。フォールトトレラント方式でストリーミング分析を実行し、結果を Amazon S3 または HDFS に書き込みます。 3. ログ分析 Amazon EMR は、Web アプリケーションやモバイル アプリケーションによって生成されるさまざまなログを処理するために使用できます。 Amazon EMR は、ペタバイト単位の非構造化データや半構造化データを、アプリケーションやユーザーの洞察に役立つデータに変換するのに役立ちます。 4. 抽出、変換、ロード(ETL) Amazon EMR を使用すると、大規模なデータセットの分類、集約、マージなどのデータ変換ワークロード (ETL) を迅速かつコスト効率よく実行できます。 5. 予測分析 Amazon EMR 上の Apache Spark には、幅広いスケーラブルな機械学習アルゴリズム用の MLlib が含まれていますが、独自のライブラリを使用することもできます。データセットをメモリに保存することで、Spark は一般的な機械学習ワークロードに対して優れたパフォーマンスを提供できます。 6. ゲノミクス Amazon EMR は、膨大な量のゲノムデータやその他の大規模な科学データセットを迅速かつ効率的に処理します。研究者は AWS でホストされている無料のゲノムデータにアクセスできます。 |
<<: 従来の SAN や NAS と比較した分散ストレージの利点と欠点は何ですか?
>>: 「音」があなたのもとにやって来て、「ビジョン」が見える、テンセントクラウド+コミュニティオーディオおよびビデオ技術開発サロンがやって来ます
evoxt は、広い帯域幅と低価格の香港 VPS サービスを提供しています。そのため、evoxt の...
5G、モノのインターネットなどの発展により、エッジコンピューティングは通信技術の新たな高みへと到達し...
BandwagonHost は、昨年のブラックフライデー特別価格の VPS、CN2 ネットワーク、K...
今日、ウェブマスター グループのグループ メンバーとチャットしていたとき、私が書いたいくつかの記事へ...
6月23日から24日にかけて、「クラウドから生まれ、アジャイルに生まれる」をテーマに、2021年アリ...
出張・経費管理ソリューションの世界的マーケットリーダーであるSAP Concurは、中国の顧客向けに...
[[383294]]画像はPexelsよりブローカブローカメッセージの損失は Kafka 自体によっ...
Cloudsigma はサウジアラビアの首都リヤドに独自のデータセンターを持ち、パブリック サウジ ...
9 年以上の営業実績を持つ南アフリカの会社 Host1plus が、ブラックフライデーのプロモーショ...
ご存知のとおり、休暇旅行への熱意は非常に高まっており、需要の増加により安定性の確保にも大きなプレッシ...
この部分について説明する前に、まず仮想化に関する一般的な概念を理解しておきましょう。 1. 共通の概...
Shuhost 8月のプロモーション:香港独立サーバー、自社運営のBGP、CN2 + BGP、Ali...
エクソンモービルのような企業は、今後数年間で工場運営におけるコンピューティング機器を 10 倍に増や...
11月3日、テンセントのクラウドおよびスマート産業グループの上級執行副社長兼CEOである唐道勝氏は、...
2012 年第 7 回中国インターネット ウェブマスター年次会議は、4 月 7 日に北京国際会議セン...