本日の記事では、主にデータレイクの定義を紹介し、その後、主要なクラウドベンダーのソリューションと現在のオープンソースソリューションを紹介します。 意味 Wikipedia の定義を見てみましょう。データ レイクは、データを元の形式 (通常はオブジェクト ブロックまたはファイル) で保存するシステムまたはリポジトリです。データ レイクは通常、すべてのエンタープライズ データを 1 つのストアとして保存します。レポート、視覚化、高度な分析、機械学習などのタスクに使用されます。データ レイクには、リレーショナル データベースからの構造化データ (行と列)、半構造化データ (CSV、ログ、XML、JSON)、非構造化データ (電子メール、ドキュメント、PDF)、バイナリ データ (画像、音声、ビデオ) を含めることができます。定義の重要なポイントを赤で強調し、これらのポイントについて簡単に説明します。
データレイクは新しい概念ではありません。 2015 年に初めて提案されました。データ レイクは、現在のデータ ウェアハウスとよく比較されます。以下は、Google で見つかったデータレイクとデータ ウェアハウスを比較した以前の記事です。 データ レイクが徐々に注目されるようになり、ウェアハウスと比較されることが増えている理由について。これは機械学習の幅広い応用と大きく関係していると思います。 データレイクとデータウェアハウス ビッグデータが初めて登場したとき、データの主な用途は BI、レポート、視覚化でした。したがって、データを構造化する必要があり、データを前処理するために ETL が必要になります。現段階では、データ ウェアハウスの方がこのようなニーズを満たすのに適しているため、企業が分析する必要のあるデータのほとんどはデータ ウェアハウスに集中しています。機械学習の台頭により、データに対する需要はより柔軟になり、データ ウェアハウスからデータを抽出するといくつかの問題が発生します。たとえば、データはすべて構造化されています。データが処理されても、アルゴリズムが期待する結果が得られない可能性があります。アルゴリズム開発者とデータウェアハウス開発者間のコミュニケーションコストが高いなど。仕事でこのような状況に遭遇したことがあります。アルゴリズムに取り組む学生は、多くの場合、データ ウェアハウス モデルを理解し、どのようなビジネス処理が行われたかを詳細に調べる必要があり、私たちの処理は彼らが望むものではない可能性があります。上記のようなさまざまな問題に基づいて、データレイクの概念が生まれました。次の表は、主に AWS のデータレイクとデータウェアハウスの違いを比較したものです。 上記の表の違いから、データレイクの適用シナリオは主に機械学習であり、使用時にスキーマを構築する方が柔軟であることがわかります。データ レイクは企業内の機械学習アプリケーションのデータ需要を解決できますが、データ ウェアハウス チームから切り離すことができます。しかし、これはデータ レイクがデータ ウェアハウスに取って代わることができるという意味ではありません。データ ウェアハウスは、効率的なレポート作成と視覚的な分析において依然として利点があります。 クラウドベンダーソリューション クラウド コンピューティングの概念は近年非常に人気が高まっており、大手クラウド ベンダーは当然、データ レイク ソリューションを見逃すことはありません。以下では、Alibaba Cloud、AWS、Azure のデータ製品について簡単に紹介します。
オープンソースソリューション クラウドベンダーが提供するソリューションに加えて、オープンソースソリューションである Kylo もあります。このフレームワークはあまり注目されておらず、コミュニティもあまり活発ではありません。公式サイトの紹介動画をざっと見たところ、基本的にはクラウドベンダーが提供するソリューションと同じ内容でした。複数のデータ ソースをサポートし、分析中にスキーマを作成します。さらに、Databricks チーム (オープンソース Spark フレームワーク) は、今年初めに Delta lake フレームワークをオープンソース化しました。 Delta Lake は、データ レイクに信頼性をもたらすストレージ レイヤーです。 Delta Lake は、ACID トランザクション、スケーラブルなメタデータ処理を提供し、ストリームとバッチのデータ処理を統合します。 Delta Lake は既存のデータ レイク上で実行され、Apache Spark API と完全に互換性があります。アーキテクチャ図は次のとおりです。 まとめ 本日の記事では、主にデータレイクの概念とデータレイクとデータウェアハウスの違いを紹介し、その後、クラウドベンダーとオープンソースソフトウェアにおける現在のデータレイクソリューションについて簡単に説明します。データ ウェアハウスの構築者およびデータ開発者として、私たちはこの新しい概念に細心の注意を払う必要があります。業務の中でこの問題に遭遇した場合、データレイクの構築を推進できないか検討することも可能になります。さらに、中小企業にとってはクラウドに移行することがより良い選択肢となるかもしれません。結局のところ、オープンソース ソリューションは現時点ではあまり成熟しておらず、コミュニティもそれほど強力ではありません。 |
<<: システム推進の実践に注力 - オペレータエッジコンピューティングネットワーク技術ホワイトペーパーがまもなく公開されます
>>: プログラマーの精神修養への道 - Kubernetesはマイクロサービス開発の必然的な産物
Cloudcone はすでに毎年恒例のブラックフライデーのプレセールを事前に開始しており、ロサンゼル...
今日の中国のインターネット環境では、多くのSEO担当者が悲惨な状況に陥っています。1社の独占により、...
inxy の Verizon CDN 事業はアジアでかなりの数のポップがあり、グローバル カバレッジ...
XiaomiとMicrosoftが戦略的協力覚書を締結した。両者は長年築いてきた相互信頼と協力関係に...
クラウド ネイティブとは、アプリケーションをマイクロサービスとして設計し、柔軟性、スケーラビリティ、...
現在、クラウドゲームはゲーム業界で最もホットな技術分野の一つと言えます。クラウド コンピューティング...
SEO は徐々に企業の注目を集めています。SEO 業界がますます強力かつ大規模になるにつれ、SEO ...
現在、欧米のCN2ネットワークは圧迫されており、帯域幅のコストも急騰しています。アジアのCN2の価格...
鉄歌のこれまでの記事は、完全に彼自身の観察に基づいている。程小勇同志は足の指で誰が書いたかを推測でき...
ドキュメントダウンロードサイトも、ファイルのダウンロードを提供するウェブサイトです。このようなサイト...
ソーシャル メディア マーケティング キャンペーンを開始する前に、目標を明確に定義し、何を達成したい...
インターネット運営者およびプロモーターとして、自社の製品を宣伝する方法をご存知ですか?以下は、Qin...
Openvirtuals は 2003 年に設立された正式な会社です。同社の VPS は非常に高価で...
58.comの短期賃貸サービス「Rizu」がオンライン化、ドメイン名「rizu.com」を取得デイリ...
これら 3 つの単語を見ると、分散 = 高い同時実行性 = マルチスレッドと考える人が多いのではない...