専門家の視点: あらゆる場所のデータへのクラウドネイティブな道

Kubernetes を使用したアーキテクチャは、データ分析を極めて柔軟にし、ビジネスで必要な場所で実行し、高い同時実行性、パフォーマンス、効率性、可用性を備えた大規模な実行を可能にする重要なコア要素です。

金融サービスや保険から製造業や医療に至るまで、さまざまな業種の無数の企業が、データ管理と分析のニーズを最大限に満たすには、パブリッククラウドとプライベートクラウド、ハイブリッドクラウドとエッジクラウドの導入が必要であることに気づき始めています。したがって、分散クラウドの概念がクラウドの成熟の一部であることは驚くことではありません。データウェアハウス、データレイク、高度な分析を分散クラウドアーキテクチャに導入することが、市場の方向性です。このアーキテクチャを拡張して、より高レベルのデータ管理および分析サービスを含めると、自然に分散データクラウドのアイデアが生まれます。

分散データクラウドでは、エンタープライズデータウェアハウスは、社内の何百人ものビジネスアナリストやデータサイエンティストに分析を提供するだけでなく、最終的には企業が直接使用して何万もの顧客をサポートするリアルタイム分析アプリケーションを提供できるようになります。このデータはどこからでも即座にアクセスでき、洞察を生み出します。

究極の目標の探求

クラウドネイティブは広く使用されている用語ですが、分散クラウドを活用するためにソフトウェアアーキテクチャが根本から設計されている場合に真の意味を持ちます。完全に実現されたクラウドネイティブデータウェアハウスは、分散データクラウドアーキテクチャを論理的に活用する必要があります。最も広い意味では、これにより、データが存在するあらゆる場所に分析が導入され、集中化のリスクが軽減され、効率が大幅に向上し、支出と競争上の優位性の管理が近代化されます。

より詳細には、クラウドネイティブのデータ管理および分析テクノロジーは、分散データクラウドのブループリントと一致する 5 つの主要な特性を備えている必要があります。

データと分析をどこにでも配信できる、プラットフォームに依存しないランタイム。
いつでもどこでもユニバーサルなユーザーエクスペリエンス。
あらゆる展開ターゲットにおける共通のセキュリティおよびガバナンス機能。
どこでもコストとテクノロジーの効率化を実現し、リソースを最小限に抑え、強力なコスト管理 (FinOps) と支出抑制を実現します。
パブリッククラウド、オンプレミス、ネットワークエッジなど、すべての展開を結び付ける単一の制御インターフェイス。

必要な場所にどこにでも展開可能で、このパターンに従って完全に実現されたクラウドネイティブデータウェアハウスは、クラウド、オンプレミス、およびネットワークエッジインフラストラクチャの複雑さをエンドユーザーから抽象化します。重要なのは、インフラストラクチャの詳細からユーザーを解放し、クラウド本来のパワーを活用しながら、データの分析と管理から価値を生み出すことに集中できるようにすることです。

適切な方法を選択する

では、この究極の目標はどのようにして達成されるのでしょうか?オープンソースのコンテナオーケストレーションツール Kubernetes は、最も人気のあるクラウドネイティブ操作パスを提供します。 Unix でワークロードを分割するというアイデアは 1970 年代から存在していましたが、アプリケーション開発をより容易にし、移植性とリソース効率を高めるためにコンテナーが広く実装されるようになったのは、わずか 10 年ほど前のことです。しかし、大規模なマイクロサービスアーキテクチャに数百または数千のアプリケーションを展開するのは難しいことが判明しています。他にも選択肢はありますが、Google のオープンソース Kubernetes プロジェクト (現在は Cloud Native Computing Foundation によって管理されています) は、マイクロサービスアプリケーションオーケストレーションの問題を解決し、オープンスタンダードを使用して、アプリケーションを共通のインフラストラクチャ上で実行し、標準的な方法で監視および管理できるようにすることで、高い評価を得ています。

これはアプリに最適です。しかし、データの世界はどうでしょうか?クラウドネイティブデータウェアハウスでは、パブリッククラウドとプライベートクラウド、ネットワークエッジ、ハイブリッドクラウドと完全分散クラウド全体にわたって弾力性と展開の柔軟性を実現するために、同じ基本的なコンテナーオーケストレーションが必要です。

スケールアウト Web アプリケーションのクラウドネイティブな再設計は一般的ですが、データベースはほとんどの場合、クラウドネイティブの世界に「リフトアンドシフト」されるだけです。データベースをコンテナに入れると、最新のインフラストラクチャで実行できるようになりますが、クラウドのすべての利点を示すエクスペリエンスは提供されません。ソフトウェアはコンテナ環境で実行されていることをほとんど認識しておらず、エラスティッククラスターの管理などの操作は、Operator とハッキングされた Helm チャートを使用してデータベースの外部から不器用に処理する必要があります。複数の柔軟なオンデマンドコンピューティングクラスターがオブジェクトストレージ内の同じ基礎データを共有できるようにするなどの機能は、一般には利用できません。弾力性のあるクラウドベースのデータウェアハウスからビジネス価値を得ようとしているユーザーは、Helm チャート、ポッド、ノード、または構成ファイルを理解したくありません。彼らが望んでいるのは、データウェアハウスを構成し、柔軟なクラスターを管理し、データから洞察を得ることだけです。

答えは、Kubernetes に SQL インターフェースを提供し、オンデマンドで複数の柔軟なクラスターを構成し、Kubernetes の複雑さを DBA やエンドユーザーから隠すことです。

この方法では、異なるユーザーを異なるコンピューティングクラスターでワークロードを実行するように割り当てることができ、使用されているコンピューティングクラスターは実行時に SQL 経由で変更できますが、権限が必要です。クラスターは、アイドル期間後に自動的に一時停止し、必要に応じて再起動するように構成できます。たとえば、必要に応じて ETL プロセスを実行するための個別のコンピューティングクラスター、アドホックビジネスインテリジェンス (BI) 用のクラスター、および複数のデータサイエンスクラスターを作成できます。コンピューティングクラスターは、使用量が多いときにオンラインでスケールアップしたり、使用量が少ないときにシャットダウンしてコストを節約したりできます。クラスターを作成して、特定の期間のみアクティブになる毎日、毎週、または毎月のバッチレポートジョブを実行できます。

このモデルでは、コンピューティングクラスター内のノードのサイズとノード数を制御でき、予測可能性のためにインスタンスレベルでリソース消費制限を設定できます。同様に、低コストのレプリカシステムをセットアップして、プライマリデータウェアハウスインスタンスからレプリケーショントラフィックを受信し、レプリカが必要になったときにオンデマンドでスケールアップすることもできます。

この回復力は、Kubernetes との緊密な統合だけでなく、開発者ツールではなく、SQL 自体をクラスターの作成、一時停止、再開、管理のための「ユーザーインターフェイス」として使用することによっても実現されます。 Kubernetes は、すべてのクラスターの状態に関する信頼できる情報源です。クラスターの状態を表示するシステムビューは、API を使用して Kubernetes からデータを取得します。クラスター管理 SQL ステートメントが入力されると、クラウドネイティブデータウェアハウスは Kubernetes にアクセスしてインスタンスの目的の状態を変更します。その後、Kubernetes は必要な変更を実装します。クラスター内のノードが正常でなくなった場合、Kubernetes は代わりのノードをオンラインにします。

これは、Kubernetes との独自の裏表の関係を表しています。つまり、Kubernetes がクラスターの状態を制御する「ユーザーインターフェース」になるのではなく、Kubernetes によって管理されるデータベース自体がユーザーインターフェースになります。このアーキテクチャは、独自の完全に実現されたクラウドエクスペリエンスを提供する共生関係を構築します。 Kubernetes のパワーとクロスプラットフォームの柔軟性は、完全に SQL によって駆動されるデータウェアハウスに活用できます。

生成されるデータが増え、展開されるユースケースが増えるにつれて、企業はエコシステムが特定のクラウドにますます定着するという悪循環に陥りやすくなります。単一のクラウドでシステムリスクが発生する可能性があり、金融サービスや保険などの規制が厳しい業界の重要な IT インフラストラクチャに過度のリスクをもたらします。 Kubernetes を使用したアーキテクチャ設計は、完全に実現されたクラウドネイティブデータウェアハウスを実現するための唯一の中核概念ではありません。これは、分散データクラウドパターンに適合する唯一のアーキテクチャコンポーネントではありません。しかし、これはデータ分析を極めて柔軟にし、ビジネスで必要な場所で実行し、高い同時実行性、パフォーマンス、効率性、可用性を備えて大規模に実行するための重要なコアコンポーネントです。その結果、さまざまな事業分野や地域にまたがる企業内の何千人ものユーザーが、ほぼリアルタイムの動的分析を通じて極めて迅速な意思決定を行い、価値を生み出すことができます。

<<: クラウドネイティブ導入におけるセキュリティ責任

>>: Red Hat、人工知能開発の障害を取り除くOpenShift 4.10をリリース