Kubernetes ストレージの問題を解決する方法

Kubernetes ストレージの問題を解決する方法

すでに Kubernetes を使用している場合、その理由はおそらく単純で、作業が楽になるからです。結局のところ、それがコンテナ オーケストレーションの前提なのです。インフラストラクチャを使い捨てにして、必要なときに起動し、使用し終わったら破棄できるので、あまり考える必要がありません。少なくとも、それはそのように機能するはずです。


ご存知のように、永続データに依存するジョブを構築すると、すぐにストレージという大きな問題に直面することになります。

Kubernetes はコンピューティングとネットワーク インフラストラクチャを完全に抽象化しますが、アプリケーションがステートフルでデータが永続的である場合は、それを保存する適切な方法が必要です。必要なデータを見つけるには、基盤となるストレージ インフラストラクチャについて知っておくべきことをすべて知っておく必要があります。

データの場所だけでなく、他の種類のストレージ インフラストラクチャに伴うその他の細かい考慮事項 (パフォーマンス、保護、復元力、データ ガバナンス、コスト) も存在しますが、ほとんどのデータ サイエンティストはこれらについて考えたくありません。

基盤となるハードウェアの複雑さの管理の多くが自動化されているクラウド ネイティブの世界において、ストレージが依然として面倒なのはなぜでしょうか?その理由は、2 つの言葉で表せます。データ サイロです。

データ自体に焦点を当てるのではなく、データが存在するさまざまなインフラストラクチャを通じてデータを管理し続ける限り、必然的に多くのストレージ サイロが生まれてしまいます。幸いなことに、これは難しい問題ではありません。データ管理に対する考え方をインフラストラクチャ中心のアプローチからデータ中心のアプローチにシフトすることで、Kubernetes を使用して、ストレージを SEP (Someone Else's Problem) にするという当初の約束を実現できます。

必要なデータが、それぞれ独自の属性(「または」、「クラウド」、「オンプレミス」、「オブジェクト」、「高パフォーマンス」など)を持つさまざまなストレージ アイランドに分散している場合、インフラストラクチャの考慮事項を抽象化することは不可能です。パイプラインを構築するには、パフォーマンス、コスト、データ ガバナンスに関するすべての質問に答える必要があります。 (あなたが助けを求めている人が IT 管理者であれば、スレッドであなたの名前が出てくるたびに彼らはうんざりするでしょう。なぜなら、彼らは、さまざまなレプリカやデータ ストア間でデータを台無しにするために、難解なインフラストラクチャ インターフェイスと格闘するのに多くの時間を費やすことになり、昼食前にタスクを終える方法がないことを知っているので。

この悩みを解消する唯一の方法、つまり Kubernetes が実現するはずのスピードとシンプルさを実際に実現する唯一の方法は、データを仮想化することです。基本的に、データとさまざまなストレージ インフラストラクチャの間にインテリジェントな抽象化レイヤーが必要です。この抽象化レイヤーにより、特定のインフラストラクチャが適切なコスト、場所、またはガバナンスを備えているかどうかを心配したり、常に新しいコピーを作成したりすることなく、どこからでもデータを表示してアクセスできるようになります。

これを実行するのは思ったほど難しくありません。キー: メタデータ。データがどこに存在していても、データ要件、コンテキスト、系統の考慮事項をすべてメタデータとしてエンコードできる場合、特定の時点でデータがどのインフラストラクチャに存在するかは問題ではなくなります。これで、データ パイプラインを構築するときに、メタデータをフルに活用できるようになります。また、仮想化レイヤーでは AI/ML を使用して、基盤となるデータ管理とインフラストラクチャの考慮事項をすべて自動的に処理できます。

仮想化レイヤーを導入し、メタデータを通じてデータ管理を行うと、これまでは不可能だったさまざまなことが可能になります。

1. データ サイロを排除する: 必要なデータがどのインフラストラクチャ上にあるか、またはそのインフラストラクチャがどこに配置されているかは問題ではありません。アプリケーションにとって、これまでサイロ化されていたすべてのストレージ リソース (オンプレミス、クラウド、ハイブリッド、アーカイブ) は、共通のグローバル名前空間のように見えます。

2. ストレージ リソースへのプログラムによるアクセス: さまざまな基盤ハードウェア インフラストラクチャではなくメタデータを扱うため、パイプラインを設定し、宣言的なステートメントを通じてデータにアクセスできるようになりました。つまり、このパフォーマンスでデータが必要であり、それが本当に必要なことです。そうすれば、アプリケーション (または負担の大きい IT 管理者) が具体的な方法を指示しなくても、インテリジェントな仮想化レイヤーを実現および実装できるようになります。

3. データ管理をセルフサービスにする: データ サイエンティストは、パイプラインを構築するたびに、異なるストレージ タイプのコストを比較したり、データ保護を有効にしたり、セキュリティとコンプライアンスの要件が満たされていることを確認したりする必要がありません。 (したがって、IT チームやセキュリティ チームも、データ サイエンティストがそのような選択を行うことを望んでいないでしょう。ただし、すべてを可能な限り最も高価なストレージで、適切なコンプライアンスなしで実行することを望んでいる場合は別です。) メタデータとデータの管理を分離すると、そのようなことはすべてなくなります。ストレージ管理者は、基本ポリシーを一度構成するだけでガードレールを設定できます。ユーザーは、今後はチケットを開かずに、またパイプラインを構築するたびに手動でこれらの呼び出しを行う際に生じるミスもなく、データ管理のニーズのほとんどをセルフサービスで処理できるようになります。

4. データを継続的に充実させる: システムがカスタマイズ可能で拡張可能なメタデータをサポートすれば、さまざまな興味深いことが可能になります。たとえば、システムを通じてデータを実行し、いくつかの結果を取得し、その結果をメタデータに追加して、ジョブを再度実行する再帰プロセスを構築できます。データを取り巻くデータについての深い文脈的理解を構築し始めることができます。処理して使用するデータが増えるほど、将来的に他のジョブで使用できるデータが豊富になります。そして今、インテリジェンスは、それを利用したい他のアプリケーションやデータ サイエンティストにとって、常に手の届く範囲にあります。それは、どこかのストレージ サイロに保管された単一のレプリカに限定されるものではありません。

データを仮想化すると、サイロ化されたストレージ インフラストラクチャよりもはるかに柔軟にメタデータを使用できるため、これらすべてが可能になります。データ パイプラインの設定とオーケストレーションに伴うストレージの考慮事項が、自動的に処理されるようになりました。ストレージ リソースはプログラム可能、セルフサービス、自動準拠となり、多くの場合、手動による介入は必要ありません。

突然、Kubernetes とソフトウェア定義ストレージが常に提供することになっていた現実に実際に生きることになります。インフラストラクチャに関係なく、ストレージはソフトウェア定義でプログラム可能であり、ハイブリッド クラウド環境全体で一貫しています。データはより豊富で柔軟になります。壁にダーツを投げるために IT チームが残した ID カードの爆発写真が不要になります。何よりも、データの保存場所について心配する時間が減り、実際にデータを扱う時間が増えます。

<<:  AWS、GCP、Azure との交渉時に避けるべき 6 つのリスク

>>:  エッジ コンピューティングとは何ですか? また、高等教育でどのように活用できますか?

推薦する

企業サイトのコンテンツ量を増やすための質の高いオリジナル記事作成のポイント

記事を書くのに1~2時間かかります。私の目的は、皆さんに価値ある有意義な情報を提供し、私自身の経験や...

OpenStack仮想マシンのメタデータを取得する方法

1. OpenStackメタデータサービスについてOpenStack 仮想マシンは、ネットワーク カ...

Letbox-Storage VPS/5.75 USD/KVM/2 GB RAM/300 GB HDD/3 TB Flow/ロサンゼルス

Letbox は、特別オファー、数量限定、優れた価格性能比の 2 つのストレージ VPS を作成しま...

conoha-Japan/時間課金/512Mメモリ/20g SSD/無制限トラフィック/Alipay

conoha.jpに新製品が登場しました。ご存じの通り、conohaのVPSの最低価格帯は1Gメモリ...

HostGa「Unspeakable」 - 25% オフ/仮想ホスト/再販業者/ドメイン名

年に一度の超割引がまたやって来ます。ブラック フライデーから、Crocodile Host は超割引...

クラウド市場ランキングの新たな視点:Amazon Web Services は中国のパブリッククラウド市場で第 2 位にランクイン

[51CTO.comより引用]毎年、大手研究機関が発表するクラウドコンピューティングの市場シェアは、...

2019年は中国のクラウドコンピューティングにとって転換点となる年ではない

2002年、ベゾスは6つの主要なルールを提案した。社内外を問わず、会社にはサービスインターフェースを...

産業インターネットの時代、華雲データは「クラウド」を活用して製造企業の変革とアップグレードを推進しています

[[264161]]江蘇省の「『インターネット+先進製造』による産業インターネットの発展の深化に関す...

A5 Webmaster Networkの第3回サーバーウェブサイトセキュリティトレーニングの申し込み受付中

なぜサーバー ウェブサイト セキュリティ トレーニングに参加する必要があるのでしょうか? 最新の統計...

Admin5フォーラムのチャット活動から学んだウェブサイト構築の経験について話します

A5 チャット アクティビティは、毎週木曜日の午後 2 時 30 分から 4 時まで、admin5 ...

第1回デジタル中国クラウドデータ開発コンテストが終了し、デジタルイノベーションの新たなモデルが開かれた。

[51CTO.comからのオリジナル記事] 現在、COVID-19の流行により、中国のデジタル化は急...

#11.11# RackNerd: 複数の安価な米国 VPS、最低 $12/年、オプションのデータセンター 6 つ

Racknerd は、2018 年の China Double Eleven プロモーションを正式に...

3 つの文章でブランド コミュニケーションとマーケティングを理解しましょう。

このツイートは、普及について話すことから始まります。このツイートを読んだ後、ブランド コミュニケーシ...

#11.11# 助クラウド: 香港専用サーバー 699 元/月 (E5-2698V3/32g メモリ/800gSSD/3 ネイティブ IP/20MCN2)、全クラウドサーバー 30% 割引

Suke Cloudは現在、ダブルイレブンプロモーションを開催しています。サイト全体のすべての独立サ...