インテリジェントな仮想化テクノロジーはデータサイロを排除しますか?

急速に変化する情報化時代において、データから価値ある情報を得ることに成功した企業は、競争が激化する市場において独自の競争力を維持できるでしょう。データ駆動型の企業であれば、膨大なデータに隠されたビジネスや顧客をより包括的に理解できる可能性があります。同時に、インテリジェントな仮想化テクノロジーがデータサイロの排除に取り組んでいるのもこのためです。

[[319730]]

データレイクは未来の道ですか?

将来、データはますます多様化、動的化、分散化していきます。多くの企業は、すべてのデータを収集し、それをデータレイクにダンプしてアクセスできるようにしようとします。データレイクは、分析に必要なときまでデータを元の形式で保持します。

このアプローチは多かれ少なかれ説得力があり、ほとんどの企業はデータレイク内のさまざまな種類のデータを収集、変換、分析するためにデータサイエンティストを雇う余裕があります。

即時のデータ保存と取得の需要がますます高まっています。

企業は、同業他社に対してほんの少しでも競争上の優位性を獲得しようと、できるだけ多くのデータを収集し、分析しようと競い合っています。従来のデータレイクでは、新たに作成されるデータソースやオンプレミスデータベースを処理できません。

クエリは使用している特定のデータベースに一致する必要があるため、データベースの数が増えるほど、使用する必要があるクエリ言語の数も増えます。重要なのは、データレイク内の異なるデータを統合するには、アクセス可能かつ読み取り可能な状態にするために手動処理が必要であり、これはデータエンジニアやデータサイエンティストにとって非常に時間のかかるプロセスであるということです。

データレイクは柔軟性に欠けており、データ主導の経済ではもはや意味をなさない

その結果、多くの企業が分析と BI を最適化するためにデータ仮想化を導入しています。 BI とデータはすべてのデータを接続し、1 か所から読み取りおよびアクセスできるようにします。

すべてのデータ仮想化が同じように作成されるわけではありません。

データ仮想化により、企業全体のすべてのデータを統合するソフトウェア仮想化レイヤーが作成されます。データの形式や、データが保存されているサイロ、サーバー、クラウドに関係なく、データは共通のビジネス言語に変換され、単一のポータルからアクセスできます。

理論的には、これにより組織は共有データレイクを実現し、さまざまなビジネスユニットとビジネスユーザーが必要なデータに即座にアクセスできるようになります。迅速なアクセスにより、企業は共有目的でデータに基づいた意思決定を行うことができます。

しかし、多くのデータ仮想化ソリューションは分析の理想に達していません。これにはいくつかの重要な理由があります。

1. 独自のフォーマット

多くのデータ仮想化ベンダーは、すべてのデータを結合して独自の形式に変換します。統合により、データを単一の場所に統合して単一のビューで表示できるようになりますが、ベンダー独自の形式により、データが最低限の共通基準の状態にまで縮小されることがよくあります。

共通分母の状態により、一部のデータが歪んだり、特定の機能が失われたり、変換プロセス中にデータが失われたりする可能性があります。一部のデータでは、元のデータベースのコンテキストを関連付ける必要がある場合もあります。その結果、ユーザーは誤ったデータからインスピレーションを得て、逆効果となるビジネス上の決定を下す可能性があります。

2. BIツールは互換性がない

BI ツールは企業にとってかなりの投資となります。ほとんどのエンタープライズレベルの企業では、さまざまな部門に複数の異なるタイプの BI ツールが導入されています。たとえば、ある部門では Tableau を使用し、別の部門では Microsoft Power BI または Excel を使用する場合があります。

企業内でビッグデータ分析を機能させるには、ユーザーが好むツールに関係なく、すべてのユーザーがデータを検出してアクセスできるようにする必要があります。

多くのベンダーは、企業がすでに投資しているテクノロジーと相互運用できない可能性のある独自のデータ形式を使用しています。ツールが異なれば、使用するクエリ言語も異なり、データの表示方法も異なります。一貫性のない定義のデータを統合すると、分析中にコストのかかる間違いが発生する可能性があります。

適切な BI ツールを選択することは、ビジネスの混乱を最小限に抑え、ユーザーの生産性を最大化するために重要です。

3. クエリの制限

データが増加し続け、テクノロジーが急速に進歩するにつれて、クエリはますます複雑になり、分析ワークロードや大規模データの処理には理想的ではありません。管理するデータソースが増えるほど、高速でインタラクティブなクエリをサポートするために必要なデータエンジニアリングも増えます。

分散結合は大量のデータを移動するため、対話型クエリには適していません。これにより、企業のインフラストラクチャに予測不可能で許容できない負荷がかかり、単純なデータキャッシュでは動的なクエリ環境や今日のデータサイズには不十分です。

BI と AI のワークロードが混在すると、パフォーマンスが急速に低下し、エンドユーザーはデータへの他の直接パスを探すようになり、データ仮想化のメリットが打ち消されます。

これらのスケーリングの欠点に加えて、従来の仮想化製品は分析ユースケースへの対応が不十分でした。

大規模で複雑なデータサービスを拡張するには、データに関する統計、関連するデータベース、共有リソースの負荷、データコンシューマーのユースケースと意図、セキュリティ上の制約などの詳細を深く理解する必要があります。

仮想化ソリューションでは、階層、メジャー、ディメンション、属性、時系列など、ビジネス全体のデータのビューをユーザーに提供する必要があります。

データ仮想化は何を提供するべきでしょうか?

ほとんどのデータ仮想化ソリューションは、今日のデータセットやデータサイエンスの実践と同じペースで進化しておらず、依然として従来のデータフェデレーションアプローチと単純なキャッシュ手法に依存しています。ただし、今日の複雑で時間に敏感な BI ニーズに合わせて設計された、次世代のインテリジェントデータ仮想化がさらに存在します。

データ仮想化ソリューションが以下の機能を提供していない場合、そのソリューションは十分にスマートではありません。

1. 自律データエンジニアリング

人間は決して完璧にはなれません。幸いなことに、コンピューターなら可能です。

現代のデータアーキテクチャの複雑さを考えると、少なくとも今日の競争力を維持するために必要な速度では、この問題に対して人間はまったく無力です。そのため、データ仮想化ソリューションでは自律的なデータエンジニアリングを提供する必要があります。

自律型データエンジニアリングは、人間の脳の能力を超えた無数の接続と計算に基づいて最適化結果を自動的に推測できます。機械学習 (ML) は、企業のすべてのデータを分析し、組織全体のすべてのユーザーによって構築されているデータモデルにデータがどのようにクエリされ、統合されているかを調べるために使用されます。

データエンジニアリングを自動化すると、多くの費用とリソースを節約できる可能性があると同時に、データエンジニアが組織にとってより価値のある、より複雑なタスクを実行できるようになります。

2. 加速構造

インテリジェントなデータ仮想化により、パフォーマンスを最適化するために、特定のデータベースにデータを自動的に配置することもできます。

データには多くの種類があり、それぞれのデータに適した形式が異なります。

インテリジェントなデータ仮想化では、最高のパフォーマンスが生成される場所に基づいて、データを配置するプラットフォームを自動的に決定できます。データプラットフォームによって利点は異なります。たとえば、データモデルとクエリが時系列データを処理している場合、インテリジェントデータ仮想化により、時系列データに最適化されたアクセラレーション構造がデータベースに配置されます。これにより、どのデータベースにどのような利点があるかが自動的に学習され、それを活用して、さまざまなデータベースタイプの多様性が利点に変換されます。

アクセラレーション構造により、クラウド運用コストを大幅に削減できます。使用しているプラットフォームに応じて、データベースのストレージサイズ、実行しているクエリの数、クエリで移動するデータ、質問の行数、クエリの複雑さ、その他の変数に対して料金が請求される場合があります。

たとえば、Google BigQuery の場合、支払う金額はデータベースのサイズとクエリの複雑さに比例します。

ユーザーがパフォーマンスとコストの最適化のためにアクセラレーション構造を自動的に使用する場合、データベース全体のサイズではなく、アクセラレーションされた集計で使用されるクエリデータに対してのみ課金されます。

3. 自動データモデリング

次世代のデータ仮想化は、データの変換とアクセスを提供するだけでなく、インテリジェントなデータ仮想化によって各データプラットフォームの機能と制限を自動的に学習します。モデルを構築するときに、利用可能な情報と、それを他のデータとマージおよび統合する方法を自動的に識別します。

インテリジェントなデータ仮想化により、従来のレポートの作成に使用されたデータモデルとクエリがリバースエンジニアリングされるため、ユーザーはデータモデルやクエリを再構築することなく、同じレポートを引き続き使用できます。たとえば、ユーザーが古いシステムで TPS レポートを作成した場合、新しいシステムでもそのレポートを取得できます。

一部のクエリは古いデータに対して実行された可能性がありますが、書き換えられることなく新しいシステムでも実行されます。

4. セルフサービスをサポートする

近年、IT の多くの側面が「民主化」され、特にクラウドコンピューティングなどのテクノロジーの進歩によって「一般化」されました。これにより、幅広い技術的基礎を持たない素人でもこれらのテクノロジーを使用できるようになります。分析とビジネスインテリジェンスは民主化のトレンドに遅れをとっていますが、BI ツールは一般の人々にとってよりアクセスしやすくなってきています。

BI の使用により、新しい「セルフサービス」分析文化が生まれ、ビジネスユーザーはデータエンジニアやデータアナリストに頼ることなく、好みの BI ツールを使用してデータに直接アクセスし、分析できるようになりました。

セルフサービス分析は、企業におけるビッグデータ分析を最適化するために急速に必要不可欠なものになりつつあります。

たとえば、営業部門が前年度の支出に関するデータを管理しているが、複数の領域にわたる顧客行動パターンに関するデータでそれを補足したいとします。あるいは、マーケティング部門は、サプライヤーを切り替える可能性が最も高いと思われる企業をターゲットにしたアカウントベースのマーケティングキャンペーンを開始する必要があります。

セルフサービス分析を使用すると、営業やマーケティングのビジネスユーザーはこのデータにアクセスし、適切なツールを使用してデータを活用できます。訓練を受けたデータエンジニアに BI ツール用のデータを取り込ませたり、データサイエンティストにモデル作成や予測作成を任せる代わりに、セルフサービス分析が使用されます。

セルフサービスのダイナミクスにより、組織内のすべての部門が独自の経験と専門知識を BI に適用できるようになり、まったく新しいレベルの利便性が実現します。

インテリジェントなデータ仮想化は、すべてのデータをソースやツールに依存しない共通のビジネス言語に実際に変換するビジネスロジックレイヤーを提供します。論理レイヤーがあることで、ビジネスユーザーは好きな BI ツールを使用でき、BI ソフトウェアの単一の標準に従う必要がなくなります。

ユーザーが使用するツールやツールの数に関係なく、すべてのデータにアクセスでき、すべてのクエリに対して一貫した回答が返されます。標準と論理的解釈により、企業は、今日のデータ主導のビジネス環境でますます必要になっている共有データインテリジェンスとセルフサービス文化を実現できます。

5. セキュリティ

データのカスタマイズを追求する場合、利便性やコスト効率に関係なく、セキュリティとコンプライアンスを犠牲にしてはなりません。

仮想化層がセキュリティ上のリスクをもたらすことはよく知られています。ただし、次世代のインテリジェントデータ仮想化では、データはすべてのデータベースのセキュリティおよびガバナンスポリシーを継承します。透過的な管理とは、ユーザーの権限とポリシーが変更されないことを意味します。

データの出所と ID を追跡することにより、各ユーザーの既存のセキュリティとプライバシー情報がすべて保持されます。

異なるセキュリティポリシーを持つ複数のデータベースを使用している場合でも、これらのポリシーをシームレスに統合し、グローバルセキュリティおよびコンプライアンスプロトコルに自動的に適用できます。インテリジェントなデータ仮想化を導入した後は、セキュリティとコンプライアンスを確保するための追加の手順は必要ありません。

データ仮想化はITの進化に合わせて進化する必要がある

企業にとって、カスタマイズされたデータを持つことは、読みやすく、アクセスしやすく、信頼できるデータを持つことと同じくらい重要ですが、今日、多くの企業が膨大なデータの泥沼に陥っています。動的かつ多様な形式とユースケースで、分散モデルがデータに追加されることが増えています。ユーザーが必要なデータをすぐに見つけて分析できず、そのデータが正確かつ最新であると確信できない場合、BI の品質が低下し、データに基づく意思決定が最適ではなくなります。

したがって、データ仮想化は、ビッグデータ分析に真に活用できるよう、これらの新たな課題と複雑さに対応できるよう進化する必要があります。

データ仮想化ソリューションが、自動データモデリングやセルフサービス分析などの自律的なデータエンジニアリングと高速化構造を提供しない場合は、問題が発生します。ユーザーは、安心できるセキュリティとコンプライアンス、またはプラットフォーム言語の多次元セマンティックレイヤーを望んでいます。これらのプロセスがなければ、データ仮想化ソリューションは十分にスマートではありません。

<<: パブリッククラウドを導入して企業がコストを削減できる6つの方法

>>: 2020 中国人材産業「クロッシングシリーズ」クラウドサミット HRSaaS スペシャル