何十年にもわたって組織を運営してきた企業にとって、データ ウェアハウスは業務の報告や理解に役立つ効果的な手段となります。 データ ウェアハウスが登場する前は、異なるシステムからデータをレポートして収集することは、コストがかかり、時間がかかり、多くの場合無駄な作業でしたが、単一のリポジトリからクリーンで統合されたデータを確実に取得できました。 複数のレポート ツールを単一のデータ モデルに接続できるようになったことで、現在データとして知られている業界、つまりビジネス インテリジェンス (BI) が誕生しました。しかし、従来のデータ ウェアハウス アーキテクチャと方法論の本来の概念とアプリケーションは、複雑な方法論と設計、不適切なツール、高い開発、保守、インフラストラクチャ コストなどの負担により、今日では受け入れられなくなっています。
つい最近まで、コンピューティングは依然として非常に高価なリソースであり、データ ウェアハウスは依然として「希少性からの管理」という概念によって制限されていたと言えます。それどころか、さまざまなスキームのデータ設計では、データの集約、複雑なサブデータベース設計の作成、リソースの使用状況の綿密な監視などによって、データベースのサイズを縮小しようとしています。 データ ウェアハウスは死んだのか? ビッグデータ、特に Hadoop の台頭により、ベンダー、アナリスト、評論家がデータ ウェアハウスは死んだと言っているのをよく耳にします。結局のところ、それらは高価で、堅固で、遅いのです。それはまさに、イーグルスのリードシンガー、グレン・フライが歌った「シンプルな資源の魅力、それは強い引力を持っている」という言葉の通りだ。 ビッグデータはゲームチェンジャーであり、データ ウェアハウスの後継者であるとよく言われます。しかし、そうではありません。むしろ、ビッグ データは、データ ウェアハウスが、有用で実用的な分析データのソースになるという目標を達成する (または少なくとも本来の目的に近いものにまで拡張する) 機会を提供します。 しかし、データ ウェアハウスの考え方では、これを実現するためには物理的な構造への執着を捨てなければなりません。代わりに、将来のデータ ウェアハウスは、さまざまなデータ ソースを処理する必要があります。これは仮想ファブリックとして機能し、「静かな」履歴データ ウェアハウス、リアルタイムの更新とリアルタイムの応答を提供するための自由な分析データベースを実行し、また Hadoop などの他の非リレーショナル ビッグ データ クラスターのエンクロージャー戦略も実行します。このように、ビッグ データは、組織に、入力の量と種類の両面で分析業務の規模を拡大することを強いるとともに、同様に重要なこととして、組織内外でテクノロジーの使用を拡大および強化する方法に関するビジョンを拡大することを強います。 オンプレミスですか?雲?ハイブリッド? 以下は、現在のデータ ウェアハウス プラットフォームの部分的な (完全なものではありません) リストです。 従来型データ ウェアハウスの「生き残り」は、もともとオンプレミスで展開され、現在はハイブリッド モデルになっています。
ピュアクラウド:
一般に、リレーショナル データベース (RDB) データ ウェアハウスは、上記のモデル、特にトランザクション処理用に設計された RDB のすべての長所と短所を継承しますが、後者は元々データ ウェアハウスと分析をサポートするための特別な処理要件用に設計されています。 これは、Microsoft、IBM、Oracle にも当てはまります。データ ウェアハウスの初期の頃、これら 3 つの製品のパフォーマンスは非常に低かったため、顧客は Teradata、Red Brick、Pivotal/Greemplum、Vertica、Paracel など、データ ウェアハウス操作専用に設計された製品を求めるようになりました。これらの製品のソース コードは Amazon によってライセンス供与され、Redshift に名前が変更されました。 ベンダーはデータ ウェアハウス製品の改善において一定の進歩を遂げています。たとえば、Microsoft は Sybase に SQL Server のコードを提供する権限を与え、IBM と Oracle も継続的に製品の改善と強化を行ってきました。 現時点では、5 つの「生き残り」すべてが、完全なクラウド、オンプレミス、ハイブリッド クラウド ソリューションを備えています。問題は、「純粋なクラウド コンピューティング」製品と「生き残った」クラウド製品の間に本当に違いがあるかどうかです。 各製品には重複する機能がいくつかありますが、中心となる質問は次のとおりです。
ビッグデータサービス企業であるAloomaは次のように指摘した。
では、クラウド データ ウェアハウスは何をもたらすのでしょうか? スケール/スケーラビリティ:通常、コンピューティング リソースは、データ ストレージよりもデータ ウェアハウスの高価なコンポーネントです。コンピューティング リソースをストレージから分離することにより、データ ウェアハウスは大量のデータを保存し、オンデマンドで情報を処理できます。オンプレミス ソリューションでは、このすべてのデータをはるかに高いコストでローカルに保存する必要があります。 柔軟性:データを計算プロセスから分離することで、ユーザーは必要な数の仮想データ ウェアハウスを作成できます。 パフォーマンス:これは、データ ウェアハウス/分析クエリでは、サーバーを数台多く実行するだけではパフォーマンスが向上するわけではないため、依然として当然のことです。 Teradata のような専門ベンダーがこれほど成功している理由は、何十年にも及ぶエンジニアリング、超並列処理の最適化、ワークロード管理テクノロジ、そしておそらく最も重要なのは、Teradata のソフトウェア エンジンとユーザーが実行する独自のハードウェアとの連携であり、そのパフォーマンスは絶えず向上しています。 コスト:クラウドによって価格モデルが変わると誰もが言いますが、実装にどれくらいのコストがかかるかは誰にもわかりません。安価なストレージの誘惑は、比較的安価であっても無料ではないため、事態が手に負えなくなる原因となる可能性があります。従来のベンダーはすべてサブスクリプション価格プランに移行していますが、各契約は非常に複雑です。ここでの推奨事項は、契約と価格設定の詳細についての専門家を雇うことです (ERP 分野ではこれがよく見られます)。 セキュリティ:特にハイブリッド ソリューションではアクセス ポイントが非常に多いため、これは難しい問題です。ほとんどのデータベース製品は内部の脅威に対するセキュリティを実装していますが、近年、外部からの脅威が急増しています。 データ ウェアハウスにはどのような機能が必要ですか?
最後に ネイティブ クラウド データ ウェアハウス データベースは、以前の「残存」データベースにはない機能と利点を提供する可能性がありますが、それらはどの程度堅牢なのでしょうか。現時点ではコメントできませんが、純粋なクラウド製品の中には、ユーザーの多くのニーズを満たすのが比較的不十分なものもあります。これらはデータ ウェアハウス製品ですか、それとも PowerPoint スライド上でまとめられた既存のモジュールのコレクションですか?たとえば、Cloudera のデータ ウェアハウスには、データ ウェアハウスと呼ばれるようになる前に存在しなかったものは何もありません。それは、異なる種の異なる細胞株をペトリ皿に放り込んで、それを生物と呼ぶようなものです。 ここでは、古い格言がまだ当てはまるかもしれません。「猫が黒か白かは問題ではありません。ネズミを捕まえる限り、それは良い猫です。」ビッグデータの愛好家は、組織にとっての価値に注意を払わずに、実装と技術的な問題だけを強調して、従来のデータ ウェアハウスを放棄しようとします。いわゆる「データレイク」は良い解決策ではないかもしれません。 |
<<: クラウドコンピューティング戦争:ハードウェアベースの企業は古すぎるために失敗している
>>: ワールドカップ期間中、東球地の1日あたりのアクティブユーザー数は1,000万人を超えた。 UCloudは「クラウドアシスト」の役割を果たした
休暇中に、「左手の李延紅、右手の馬化騰」という本を読み終えました。百度の発展の歴史について書かれてい...
Alibaba Group の子会社である Alibaba Cloud と、世界をリードするエンター...
月給5,000~50,000のこれらのプロジェクトはあなたの将来です熊張豪は、百度が2017年末に開...
ネットワーク最適化は、ほとんどの人がうまくできない仕事です。ウェブマスターの中に、忍耐力のない人がい...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますインターネ...
カナダのVPS業者であるbuyvmは、ほとんどの人が知っていると思います。ローエンドVPS業界では、...
Simcentric (香港の会社) は、Host Cat に香港の独立したサーバーを正式に提供しま...
k8s必要日々の仕事では、すべてのプロジェクトが完璧というわけではありません。ポッドのステータスは実...
まず第一に、多くの新しいウェブマスターにとって、ウェブサイト構築の最初のステップは、先人たちの経験か...
データベースは常にアプリケーション開発の非常に重要な部分です。 MySQL から Amazon の ...
Kubernetes 環境では、トラブルシューティングは管理者の日常業務の不可欠な部分です。コンテナ...
度重なる感染拡大により、多くのビジネス活動に不確実性が増し、多くの調印式が中止を余儀なくされている。...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています国内市場に...
OptimizedVPS は今月初めに Hostcat によって初めてリリースされましたが、テストさ...
wap.ac の香港 VPS はどうですか? wap.ac は xhosts が開設した新しいブラン...