データレイクに関するこれらの知識ポイントをご存知ですか?

データレイクに関するこれらの知識ポイントをご存知ですか?

本日の記事では、主にデータレイクの定義を紹介し、その後、主要なクラウドベンダーのソリューションと現在のオープンソースソリューションを紹介します。

意味

Wikipedia の定義を見てみましょう。データ レイクは、データを元の形式 (通常はオブジェクト ブロックまたはファイル) で保存するシステムまたはリポジトリです。データ レイクは通常、すべてのエンタープライズ データを 1 つのストアとして保存します。レポート、視覚化、高度な分析、機械学習などのタスクに使用されます。データ レイクには、リレーショナル データベースからの構造化データ (行と列)、半構造化データ (CSV、ログ、XML、JSON)、非構造化データ (電子メール、ドキュメント、PDF)、バイナリ データ (画像、音声、ビデオ) を含めることができます。定義の重要なポイントを赤で強調し、これらのポイントについて簡単に説明します。

  • オリジナル形式:データは前処理されず、元の状態で保存されます
  • 単一ストレージ:リポジトリは複数のデータ ソースを集約し、単一のリポジトリになります。
  • 機械学習の場合: BIやレポート分析に加えて、データレイクは機械学習に適しています。

データレイクは新しい概念ではありません。 2015 年に初めて提案されました。データ レイクは、現在のデータ ウェアハウスとよく比較されます。以下は、Google で見つかったデータレイクとデータ ウェアハウスを比較した以前の記事です。

データ レイクが徐々に注目されるようになり、ウェアハウスと比較されることが増えている理由について。これは機械学習の幅広い応用と大きく関係していると思います。

データレイクとデータウェアハウス

ビッグデータが初めて登場したとき、データの主な用途は BI、レポート、視覚化でした。したがって、データを構造化する必要があり、データを前処理するために ETL が必要になります。現段階では、データ ウェアハウスの方がこのようなニーズを満たすのに適しているため、企業が分析する必要のあるデータのほとんどはデータ ウェアハウスに集中しています。機械学習の台頭により、データに対する需要はより柔軟になり、データ ウェアハウスからデータを抽出するといくつかの問題が発生します。たとえば、データはすべて構造化されています。データが処理されても、アルゴリズムが期待する結果が得られない可能性があります。アルゴリズム開発者とデータウェアハウス開発者間のコミュニケーションコストが高いなど。仕事でこのような状況に遭遇したことがあります。アルゴリズムに取り組む学生は、多くの場合、データ ウェアハウス モデルを理解し、どのようなビジネス処理が行われたかを詳細に調べる必要があり、私たちの処理は彼らが望むものではない可能性があります。上記のようなさまざまな問題に基づいて、データレイクの概念が生まれました。次の表は、主に AWS のデータレイクとデータウェアハウスの違いを比較したものです。

上記の表の違いから、データレイクの適用シナリオは主に機械学習であり、使用時にスキーマを構築する方が柔軟であることがわかります。データ レイクは企業内の機械学習アプリケーションのデータ需要を解決できますが、データ ウェアハウス チームから切り離すことができます。しかし、これはデータ レイクがデータ ウェアハウスに取って代わることができるという意味ではありません。データ ウェアハウスは、効率的なレポート作成と視覚的な分析において依然として利点があります。

クラウドベンダーソリューション

クラウド コンピューティングの概念は近年非常に人気が高まっており、大手クラウド ベンダーは当然、データ レイク ソリューションを見逃すことはありません。以下では、Alibaba Cloud、AWS、Azure のデータ製品について簡単に紹介します。

  • Alibaba Cloud: Data Lake Analytics は、標準の JDBC を介して Alibaba Cloud OSS、TableStore、RDS、MongoDB などのさまざまなデータ ソースに保存されているデータを直接クエリして分析します。 DLA はさまざまなビジネス分析ツールをシームレスに統合し、便利なデータ視覚化を提供します。 Alibaba Cloud OSS は、さまざまな構造化データ、半構造化データ、非構造化データを保存でき、データレイクリポジトリとして使用できます。 DLA を使用する前に、スキーマを作成し、テーブルを定義して、その後の分析を実行する必要があります。
  • AWS: Lake Formation は、S3 またはリレーショナル データベースと NoSQL データベースに保存されている既存のデータを識別し、そのデータを S3 データ レイクに移動できます。分析には、Apache Spark (ベータ版)、Redshift、または Athena 用の EMR を使用します。サポートされているデータ ソースは Alibaba Cloud と同様です。
  • Azure: Azure Data Lake Storage は、Azure Blob ストレージ上に構築された、高度にスケーラブルで安全なデータ レイク機能であり、Azure Databricks を通じてデータ レイク内のデータを処理および分析します。ただし、このドキュメントは他のデータ ソースをサポートしていません。

オープンソースソリューション

クラウドベンダーが提供するソリューションに加えて、オープンソースソリューションである Kylo もあります。このフレームワークはあまり注目されておらず、コミュニティもあまり活発ではありません。公式サイトの紹介動画をざっと見たところ、基本的にはクラウドベンダーが提供するソリューションと同じ内容でした。複数のデータ ソースをサポートし、分析中にスキーマを作成します。さらに、Databricks チーム (オープンソース Spark フレームワーク) は、今年初めに Delta lake フレームワークをオープンソース化しました。 Delta Lake は、データ レイクに信頼性をもたらすストレージ レイヤーです。 Delta Lake は、ACID トランザクション、スケーラブルなメタデータ処理を提供し、ストリームとバッチのデータ処理を統合します。 Delta Lake は既存のデータ レイク上で実行され、Apache Spark API と完全に互換性があります。アーキテクチャ図は次のとおりです。

まとめ

本日の記事では、主にデータレイクの概念とデータレイクとデータウェアハウスの違いを紹介し、その後、クラウドベンダーとオープンソースソフトウェアにおける現在のデータレイクソリューションについて簡単に説明します。データ ウェアハウスの構築者およびデータ開発者として、私たちはこの新しい概念に細心の注意を払う必要があります。業務の中でこの問題に遭遇した場合、データレイクの構築を推進できないか検討することも可能になります。さらに、中小企業にとってはクラウドに移行することがより良い選択肢となるかもしれません。結局のところ、オープンソース ソリューションは現時点ではあまり成熟しておらず、コミュニティもそれほど強力ではありません。

<<:  システム推進の実践に注力 - オペレータエッジコンピューティングネットワーク技術ホワイトペーパーがまもなく公開されます

>>:  プログラマーの精神修養への道 - Kubernetesはマイクロサービス開発の必然的な産物

推薦する

ネットイースクラウドミュージック、中国国際ソフトウェア博覧会で教育や医療などの革新的なソリューションを発表

6月29日から7月2日まで、2018年ソフトウェア博覧会が北京で開催されました。 200社を超える著...

企業連携のミレニアム・ファルコンが誕生します。何が際立っているのでしょうか?

[51CTO.comより引用] こちらは特設記者会見会場。ここはTeambitionが生産される場所...

ブランドは七夕をどのように活用できるでしょうか?ここに 6 つのマーケティングのヒントをご紹介します。

七夕のマーケティングの勢いを活かすための、心からのエントリーポイントは何でしょうか? 1. 七夕の古...

簡単な議論:新しいモデルにおける口コミマーケティングが中小企業に与える影響

口コミマーケティングはマーケティングモデルの一種であり、ファン経済の延長です。消費者の製品体験に対す...

タオバオオンラインストアが新しいメディアを活用して運営を支援する方法について簡単に説明します。

今は新メディア時代です。4つの伝統的なメディアの発展はインターネットの影響で疲労の兆候を見せており、...

Spark StreamingとKafkaの統合を分析する2つの方法

Spark Streaming は、マイクロバッチ処理に基づくストリーミング コンピューティング エ...

VirMach-$1/128m メモリ/5g SSD/100g フロー/10m ポート/ニューヨーク

VirMach のサーバーはバッファロー (ニューヨーク) でホストされており、将来的には他のデータ...

教育業界におけるクラウドコンピューティングへの道

科学技術の発展により、伝統的な教育モデルは覆されました。学習の方法や場所、学習の構造や論理など、大き...

優れたウェブサイト編集者がウェブサイトの最適化を行うには、どのような資質が必要ですか?

ご存知のとおり、ウェブサイトの最適化プロセスは実際には段階的なプロセスです。このプロセスでは、サイト...

Huayun Dataの「Zhihui Huayun」コラムでは、医療業界向けの効率的なクラウドプラットフォームの構築方法を説明しています。

医療サービスの情報化は国際的な発展の潮流です。情報技術の急速な発展に伴い、中国ではますます多くの病院...

開くべきか、開かないべきか、それが問題だ:オープンなコミュニティとクローズドなコミュニティについての考察

開けるにしても開けないにしても、これはコミュニティにとって頭痛の種です。ユーザーとトラフィックを増や...

クラウド時代のチャンスを捉え、Dynatrace Perform 2018 が監視の改革方法を明らかにする

クラウド監視および運用の世界的リーダーである Dynatrace は、Perform 2018 Gr...

Baiduの外部リンクデータに基づいてウェブサイトの外部リンクを操作する方法

Baidu はついに外部リンク ツールのアップグレード版をリリースしました。このツールは自社サイトの...

ウェブサイトの最適化に関連する4つの重要な要素

ウェブサイトの最適化の計画を始める前に、まず簡単に説明しましょう。検索エンジンがウェブサイトに適切な...