KServe: 堅牢でスケーラブルなクラウドネイティブモデルサーバー

KServe: 堅牢でスケーラブルなクラウドネイティブモデルサーバー

Kubeflow に精通している場合は、KFServing がプラットフォームのモデル サーバーと推論エンジンであることをご存知でしょう。昨年 9 月、KFServing プロジェクトは変革を遂げ、KServe になりました。

名前の変更に加えて、KServe は Kubeflow プロジェクトから卒業した独立したコンポーネントになりました。この分離により、KServe はスタンドアロン モデル サーバーとして展開される、独立したクラウド ネイティブ推論エンジンに進化できます。もちろん、Kubeflow との緊密な統合は継続されますが、独立したオープンソース プロジェクトとして扱われ、維持されます。

KServe は、Google、IBM、Bloomberg、Nvidia、Seldon の共同で開発された、Kubernetes 用のオープンソースのクラウドネイティブ モデル サーバーです。最新リリース 0.8 では、モデル サーバーをスタンドアロン コンポーネントに変換することに重点が置かれ、分類法と命名法に変更が導入されています。

KServeのコア機能を理解しましょう

モデル サーバーは機械学習モデルにとって、アプリケーションがバイナリ コードの記述にとってのような役割を果たします。どちらも、デプロイメント用のランタイムと実行コンテキストを提供します。モデル サーバーとして、KServer は機械学習と大規模学習モデルの基盤を提供します。

KServe は、従来の Kubernetes デプロイメントとして、またはゼロスケーリングをサポートするサーバーレス デプロイメントとしてデプロイできます。サーバーレスの場合、自動スケーリング機能を備えたサーバーレス向けの Knative Serving を活用します。 Istio は、サービス エンドポイントを API コンシューマーに公開するためのイングレスとして使用されます。 Istio と Knative サービスの組み合わせにより、モデルのブルー/グリーンやカナリア デプロイメントなどの魅力的なシナリオが可能になります。

Kserve アーキテクチャ図

RawDeployment モードでは、水平ポッド自動スケーリング (HPA) などの従来のスケーリング手法をサポートするものの、ゼロへのスケーリングはサポートしない Knative Serving を使用せずに KServe を使用できます。

KServe アーキテクチャ

KServe モデル サーバーには、コントロール プレーンとデータ プレーンがあります。コントロール プレーンは、推論を担当するカスタム リソースを管理および調整します。サーバーレス モードでは、Knative リソースと連携して自動スケーリングを管理します。

KServe コントロール プレーンの中核は、推論サービスのライフサイクルを管理する KServe コントローラーです。サービス、イングレス リソース、モデル サーバー コンテナー、リクエスト/レスポンス ログ記録用のモデル プロキシ コンテナー、バッチ処理、モデル ストレージからのモデルの抽出を担当します。モデル ストアは、モデル サーバーに登録されたモデルのリポジトリです。通常は、Amazon S3、Google Cloud Storage、Azure Storage、MinIO などのオブジェクト ストレージ サービスです。

データ プレーンは、特定のモデルの要求/応答サイクルを管理します。予測子、変換子、およびインタープリタのコンポーネントがあります。

AI アプリケーションは、予測エンドポイントに REST または gRPC リクエストを送信します。予測子は、トランスフォーマー コンポーネントを呼び出す推論パイプラインとして機能し、受信データ (リクエスト) の前処理と送信データ (レスポンス) の後処理を実行できます。あるいは、ホストされたモデルに AI 説明機能をもたらす説明コンポーネントが存在する可能性もあります。 KServe は、相互運用性と拡張性に優れた V2 プロトコルの使用を推奨しています。

データ プレーンには、モデルの準備状況と健全性をチェックするためのエンドポイントもあります。また、モデル メタデータを取得するための API も公開します。

サポートされているフレームワークとランタイム

KServe は、幅広い機械学習およびディープラーニング フレームワークをサポートしています。ディープラーニング フレームワークとランタイムは、TensorFlow Serving、TorchServe、Triton Inference Server などの既存のサービス インフラストラクチャと連携します。 KServe は、Triton を通じて TensorFlow、ONNX、PyTorch、TensorRT ランタイムをホストできます。

SKLearn、XGBoost、Spark MLLib、LightGBM に基づく従来の機械学習モデルの場合、KServe は Seldon の MLServer に依存します。

KServe の拡張可能なフレームワークにより、V2 推論プロトコルに準拠する任意のランタイムにプラグインできます。

ModelMesh を使用したマルチモード サービス

KServe は推論ごとに 1 つのモデルを展開し、プラットフォームのスケーラビリティを利用可能な CPU と GPU に制限します。この制限は、高価で希少なコンピューティング リソースである GPU で推論を実行する場合に明らかになります。

マルチモード サービスを使用すると、コンピューティング リソース、最大ポッド、最大 IP アドレスなどのインフラストラクチャの制限を克服できます。

IBM が開発した ModelMesh Serving は、大容量/高密度のユースケース向けに最適化された、ML/DL モデルのリアルタイム サービングのための Kubernetes ベースのプラットフォームです。利用可能なリソースを最大限に活用するためにプロセスを管理するオペレーティング システムと同様に、ModelMesh はデプロイされたモデルを最適化してクラスター内で効率的に実行します。

システムは、デプロイされたポッドのクラスター全体でメモリ内モデル データをインテリジェントに管理し、それらのモデルを長期にわたって使用することで、利用可能なクラスター リソースの使用を最大化します。

ModelMesh Serving は推論用の KServe v2 データ プレーン API に基づいており、NVIDIA Triton Inference Server と同様のランタイムとして展開できます。リクエストが KServe データ プレーンに到着すると、それは単に ModelMesh Serving に委任されます。

ModelMesh Serving と KServe の統合は現在アルファ段階です。両方のプログラムが成熟するにつれて、より緊密な統合が行われ、2 つのプラットフォームの機能と能力を組み合わせて使用​​できるようになります。

モデル サービングが MLOP のコア ビルディング ブロックになるにつれて、KServe のようなオープン ソース プロジェクトが非常に重要になります。 KServe の拡張性により、既存および今後のランタイムを使用できるため、ユニークなモデル提供プラットフォームになります。

<<:  スケジューリングとオーケストレーションのための 7 つの CNCF ツール

>>:  企業はクラウド変革からどのようなメリットを得られるのでしょうか?

推薦する

2023 年のクラウド テストの 5 つのトレンド

クラウドネイティブ アプリケーションと Kubernetes の急速な台頭により、テスト フレームワ...

BaiduからSEOのヒントを削除:BaiduはSEOに手動で介入しない

今日、A5 の検索 SEO コラムを訪問したところ、Baidu の SEO への手動介入について議論...

360 Search: 苦戦するウェブマスターに新たな希望を与えます!

6月22日以降、インターネット全体の個人ウェブサイトで異常な動作が発生し始めました。まず、Baidu...

Google GKE、AWS EKS、Oracle OKE の管理を統合する方法

Rancher が登場する前は、さまざまなクラウド プロバイダーで実行されている Kubernete...

alwyzon: 月額 3.32 ユーロ、オランダ VPS、4G メモリ/2 コア/40g SSD/5T トラフィック、カスタムアップロード ISO

alwyzon(Hohl IT eUのブランド)は、オランダ(データセンターはオランダ東部の都市アペ...

テンセントの新たな成長はWeChatだけではない

「930改革」から2年後、テンセントの様相はまったく新たな変化を遂げ始めた。 Cエンドでの核心の粘り...

サーバーNV-$5/KVM/1g メモリ/55g ハードディスク/1.25T トラフィック/G ポート/英国

serversnv は正式に登録された会社 (No.09023246) で、現在は主に KVM と ...

racknerd: 「Blooming 3 Special」、年間 33.33 ドル、3G メモリ/3 コア/33G ハード ドライブ/3T 帯域幅、ロサンゼルス データ センター

Racknerdはブラックフライデーとサイバーマンデーの2回連続でプロモーションを開始しましたが、ど...

日本のVPSおすすめ、(日本のクラウドホスト)おすすめ

日本 VPS (日本クラウドホスト): 日本は国際的な輸出帯域幅が大きく、ネットワークリソースが発達...

アリババが土地を奪い、グーグルが資金を投じる:クラウドコンピューティング大手、春の軍拡競争開始

近年、クラウド コンピューティングは、俊敏性、拡張性、コストなどの利点により、企業が IT 変革を実...

2013年の新しい状況でSEOが注意すべきこと

2012年6月以来、検索エンジン市場は大きな変化を遂げており、Baiduのアルゴリズムの継続的な調整...

Dockerはボリュームの永続化にOpenStack Cinderを使用する

1 背景1.1 OpenStack Cinder の紹介OpenStack Cinder は、Ope...

Javaロックから分散ロックへ

[[436819]]序文Synchronized ロックと ReentrantLock ロックは、並...

Wuyun は鉄道省の 12306 ウェブサイトで SQL インジェクションなどの複数の脆弱性を暴露しました

admin5.comが9月28日に報じたところによると、国内の有名な脆弱性報告プラットフォームは9月...