クラウドストレージに隠されたデータを見つける方法

クラウドストレージに隠されたデータを見つける方法

クラウド オブジェクト リポジトリが事実上のデータ レイクになるにつれ、企業は蓄積されるすべてのデータを検索して把握するのに苦労していることが最近の調査で明らかになりました。

空きスペースがたくさんある人は、物が散らかっている傾向があり、それが人間の性なのかもしれません。クラウド オブジェクト ストレージが、ますます多くの企業にとって事実上のデータ レイクになりつつあるという傾向もあります。幸いなことに、クラウド オブジェクト ストレージは比較的安価で、拡張性が高く、アクセスしやすくなっています。たとえば、ほとんどのクラウド Hadoop サービスでは、オブジェクト ストレージを Hadoop 分散ファイル システム (HDFS) に置き換えており、アドホック クエリを提供したり、クラウド オブジェクト ストレージをデータ ウェアハウスの拡張テーブルとして扱ったりするサービスを提供するクラウド コンピューティング プロバイダーが増えています。

デフォルトのターゲットまたはデータ レイクとしてクラウド ストレージを利用するもう 1 つの側面は、共通のターゲットでのデータの蓄積を調整する必要性と、特に GDPR などの規制が発効した場合に、データのプライバシーやデータ保護についてより責任を持つ必要があることです。

今年の夏にクラウド ストレージ (現在は Amazon S3 として知られています) を追加するための SaaS プロバイダー向けの検索レイヤーを立ち上げる予定の Chaos Sumo が、クラウド導入者が感じている問題点の一部を示す調査結果を発表しました。

確かに、この調査は回答者が 120 名と大規模ではなく、主にデータ運用の専門家を対象としており、サンプルはクラウド コンピューティングをすでに導入している組織に偏っている可能性が高いです。たとえば、72% が現在何らかの形のクラウド オブジェクト ストレージを使用していると回答しています。 Amazon S3 を使用している回答者の 40% は、今後 1 年間で S3 ストレージの使用が少なくとも 50% 増加すると予想していると回答しました。

企業では、主にバックアップ、ストレージ、アーカイブに使用されます。しかし、28% の企業がすでにデータ レイクにオブジェクト ストレージを使用しており、さらに 18% の企業が今後 12 ~ 18 か月以内に実装する予定です。この AWS を多用するサンプルでは当然のことながら、同様の割合 (23%) が現在 Amazon Athena を使用していると報告しています。回答者の約半数がすでに Amazon Redshift データ ウェアハウスを使用していると回答しており、Spectrum では S3 を拡張テーブルとして表示できるようになりました。

Athena などのツールの革新により、ETL を必要とせずに、ストレージ用に最適化されていないシステムのデータへのインタラクティブなアクセスが可能になります (ただし、データは CSV、JSON、Parquet などの何らかの形式の半構造化ストレージである必要があります)。

しかし、グラフが示すように、オブジェクト ストレージにデータが集中するにつれて、説明責任の問題を懸念する少数派が増えています。これはまさに、何らかの形のデータ系統、セキュリティ、アクセス制御を存在意義とする、Hadoop などのプラットフォームや、分析およびデータ準備用のパッケージ化されたツールの商業的販売上の利点です。クラウド オブジェクト ストレージは、ガバナンスや境界セキュリティに関しては無防備です。これは従来、データを使用するデータ プラットフォーム、クラウド ホスト、または分析ツールの役割です。

その結果、回答者の 4 分の 1 は、データを分析するためにデータを移動する必要があることを懸念しており、少数ではあるものの統計的に有意な少数派が、データの検索、コンプライアンス、セキュリティについて懸念を表明しました。回答者の半数以上がデータのクリーニングと準備に多くの時間を費やしており、回答者の半数以上が週に少なくとも 6 時間費やしていると答え、約 40% がタスクの完了に週に 11 時間以上費やしていると答えています。

注目すべきは、現在オブジェクト ストレージ内のデータの分析は簡単だと答えた回答者はわずか 7% だったことです。それが、調査スポンサーであるChaos Sumoの事業目的です。同社は、既存の SaaS プロバイダーによる OEM 利用のために、S3 データを Elasticsearch に公開する「データ ファブリック」と呼ばれるものを今夏に導入する予定です。 S3 が、さらに多くの分析プラットフォームやツールに適した場所になることが期待されます。 Chaos Sumo にとって、SaaS プロバイダーに検索をユーティリティとして追加し、このデータの可視性を高めることは、クラウド ストレージのより優れたアプリケーションにつながる可能性があります。

<<:  8000億ドルのクラウドサービス市場:大手企業が覇権を競い、新興企業が「一口かじり取る」

>>:  華雲とその仲間たち | Huayun Data がハイパーコンバージェンスとハイブリッドクラウド製品をパートナーと共有

推薦する

ユーザーエクスペリエンスは検索とコンバージョン率を結び付けますか?

ユーザー エクスペリエンスは現在、インターネット上でホットな話題となっていますが、これは主にソーシャ...

Gouyun:サンノゼcn2 gia vps、30%割引コード、29元から、大規模なトラフィックのユーザーに最適、無料のIP変更+ Windowsシステム

Dogyunは、CN2 GIAネットワークを使用して、米国西海岸のサンノゼデータセンターに新しいVP...

コンテナランタイム: Containerd コンテナ管理

基本的なコンテナ操作コンテナの基本的な操作は主にctr imageコマンドです。コマンドヘルプを参照...

日々の話題:映像業界に大きな変化。映像業界の展望は?

8月16日のWebmaster Network(www.admin5.com)によると、オンラインビ...

インターネットの考え方を利用してレンタル業界を転覆させる自己去勢ビジネスモデルの奇妙な事例

文/Jincuodao(WeChat公式アカウント:ijincuodao)マイクロイノベーションの観...

平安クラウドが銀行のデジタル変革を加速

【平安クラウド金融業界ソリューション】 [51CTO.com からのオリジナル記事] クラウド コン...

Rushmail - 一括メールソフトウェアとプラットフォームの違い

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますメールマー...

Google、新しいブックマークサービス「Google Stars」を発表

Google は本日、長らく噂されていたブックマーク サービス「Google Stars」の開始を発...

Baidu がプラットフォームブログを素早く取り入れるための 4 つのステップ

Baidu のアルゴリズムが頻繁に更新およびアップグレードされたため、多くの友人がマーケティングを利...

Confluent がクラウドアップデートでイベントデータストリームを保護

Confluent の 2022 年第 2 四半期のクラウド アップデートが利用可能になり、イベント...

ハイブリッドクラウドアーキテクチャはオンプレミスとクラウドサービスプロバイダーのバランスをとるのに役立ちます

マルチクラウド アプリケーションがすでに柔軟であると考えている場合は、ハイブリッド マルチクラウドが...

分散ブロックストレージエンジンを設計するにはどうすればよいでしょうか?

この記事はシリーズの 2 番目であり、ストレージ エンジンの要件、考え方、設計に焦点を当てています。...

IBM ハイブリッド クラウド業界エコシステム: 規制の厳しい業界に「ユートピア的な未来」を構築

【ユートピア】オンライン百科事典の定義によれば、「ユートピア」は「理想郷(理想社会)」とも呼ばれ、理...

COVID-19パンデミックにおけるエッジコンピューティングの未来

[[377008]]モノのインターネット、5G、AR/VR などの新興テクノロジーの台頭により、エッ...