KServe: 堅牢でスケーラブルなクラウドネイティブモデルサーバー

KServe: 堅牢でスケーラブルなクラウドネイティブモデルサーバー

Kubeflow に精通している場合は、KFServing がプラットフォームのモデル サーバーと推論エンジンであることをご存知でしょう。昨年 9 月、KFServing プロジェクトは変革を遂げ、KServe になりました。

名前の変更に加えて、KServe は Kubeflow プロジェクトから卒業した独立したコンポーネントになりました。この分離により、KServe はスタンドアロン モデル サーバーとして展開される、独立したクラウド ネイティブ推論エンジンに進化できます。もちろん、Kubeflow との緊密な統合は継続されますが、独立したオープンソース プロジェクトとして扱われ、維持されます。

KServe は、Google、IBM、Bloomberg、Nvidia、Seldon の共同で開発された、Kubernetes 用のオープンソースのクラウドネイティブ モデル サーバーです。最新リリース 0.8 では、モデル サーバーをスタンドアロン コンポーネントに変換することに重点が置かれ、分類法と命名法に変更が導入されています。

KServeのコア機能を理解しましょう

モデル サーバーは機械学習モデルにとって、アプリケーションがバイナリ コードの記述にとってのような役割を果たします。どちらも、デプロイメント用のランタイムと実行コンテキストを提供します。モデル サーバーとして、KServer は機械学習と大規模学習モデルの基盤を提供します。

KServe は、従来の Kubernetes デプロイメントとして、またはゼロスケーリングをサポートするサーバーレス デプロイメントとしてデプロイできます。サーバーレスの場合、自動スケーリング機能を備えたサーバーレス向けの Knative Serving を活用します。 Istio は、サービス エンドポイントを API コンシューマーに公開するためのイングレスとして使用されます。 Istio と Knative サービスの組み合わせにより、モデルのブルー/グリーンやカナリア デプロイメントなどの魅力的なシナリオが可能になります。

Kserve アーキテクチャ図

RawDeployment モードでは、水平ポッド自動スケーリング (HPA) などの従来のスケーリング手法をサポートするものの、ゼロへのスケーリングはサポートしない Knative Serving を使用せずに KServe を使用できます。

KServe アーキテクチャ

KServe モデル サーバーには、コントロール プレーンとデータ プレーンがあります。コントロール プレーンは、推論を担当するカスタム リソースを管理および調整します。サーバーレス モードでは、Knative リソースと連携して自動スケーリングを管理します。

KServe コントロール プレーンの中核は、推論サービスのライフサイクルを管理する KServe コントローラーです。サービス、イングレス リソース、モデル サーバー コンテナー、リクエスト/レスポンス ログ記録用のモデル プロキシ コンテナー、バッチ処理、モデル ストレージからのモデルの抽出を担当します。モデル ストアは、モデル サーバーに登録されたモデルのリポジトリです。通常は、Amazon S3、Google Cloud Storage、Azure Storage、MinIO などのオブジェクト ストレージ サービスです。

データ プレーンは、特定のモデルの要求/応答サイクルを管理します。予測子、変換子、およびインタープリタのコンポーネントがあります。

AI アプリケーションは、予測エンドポイントに REST または gRPC リクエストを送信します。予測子は、トランスフォーマー コンポーネントを呼び出す推論パイプラインとして機能し、受信データ (リクエスト) の前処理と送信データ (レスポンス) の後処理を実行できます。あるいは、ホストされたモデルに AI 説明機能をもたらす説明コンポーネントが存在する可能性もあります。 KServe は、相互運用性と拡張性に優れた V2 プロトコルの使用を推奨しています。

データ プレーンには、モデルの準備状況と健全性をチェックするためのエンドポイントもあります。また、モデル メタデータを取得するための API も公開します。

サポートされているフレームワークとランタイム

KServe は、幅広い機械学習およびディープラーニング フレームワークをサポートしています。ディープラーニング フレームワークとランタイムは、TensorFlow Serving、TorchServe、Triton Inference Server などの既存のサービス インフラストラクチャと連携します。 KServe は、Triton を通じて TensorFlow、ONNX、PyTorch、TensorRT ランタイムをホストできます。

SKLearn、XGBoost、Spark MLLib、LightGBM に基づく従来の機械学習モデルの場合、KServe は Seldon の MLServer に依存します。

KServe の拡張可能なフレームワークにより、V2 推論プロトコルに準拠する任意のランタイムにプラグインできます。

ModelMesh を使用したマルチモード サービス

KServe は推論ごとに 1 つのモデルを展開し、プラットフォームのスケーラビリティを利用可能な CPU と GPU に制限します。この制限は、高価で希少なコンピューティング リソースである GPU で推論を実行する場合に明らかになります。

マルチモード サービスを使用すると、コンピューティング リソース、最大ポッド、最大 IP アドレスなどのインフラストラクチャの制限を克服できます。

IBM が開発した ModelMesh Serving は、大容量/高密度のユースケース向けに最適化された、ML/DL モデルのリアルタイム サービングのための Kubernetes ベースのプラットフォームです。利用可能なリソースを最大限に活用するためにプロセスを管理するオペレーティング システムと同様に、ModelMesh はデプロイされたモデルを最適化してクラスター内で効率的に実行します。

システムは、デプロイされたポッドのクラスター全体でメモリ内モデル データをインテリジェントに管理し、それらのモデルを長期にわたって使用することで、利用可能なクラスター リソースの使用を最大化します。

ModelMesh Serving は推論用の KServe v2 データ プレーン API に基づいており、NVIDIA Triton Inference Server と同様のランタイムとして展開できます。リクエストが KServe データ プレーンに到着すると、それは単に ModelMesh Serving に委任されます。

ModelMesh Serving と KServe の統合は現在アルファ段階です。両方のプログラムが成熟するにつれて、より緊密な統合が行われ、2 つのプラットフォームの機能と能力を組み合わせて使用​​できるようになります。

モデル サービングが MLOP のコア ビルディング ブロックになるにつれて、KServe のようなオープン ソース プロジェクトが非常に重要になります。 KServe の拡張性により、既存および今後のランタイムを使用できるため、ユニークなモデル提供プラットフォームになります。

<<:  スケジューリングとオーケストレーションのための 7 つの CNCF ツール

>>:  企業はクラウド変革からどのようなメリットを得られるのでしょうか?

推薦する

2017年上半期の中国のモバイルインターネットの概観

主な内容: 1. モバイルインターネットユーザーのインターネット習慣は基本的に形成されており、毎日の...

ドメイン名の選択は重要です。適切なドメイン名は、Web サイト開発のレベルを決定します。

ドメイン名を選ぶとき、ドメイン名の重みと PR はドメイン名の実際の価値よりも高いと考える人が多いか...

メールシステムハイブリッドクラウドアプリケーションソリューション

ハイブリッド クラウド アプリケーションが企業環境に導入され、従来のコミュニケーションおよび共同オフ...

hostus-$13.5/768m メモリ/768MvSwap/20g ハードディスク/2T トラフィック

最近、便利なものが見つからなかったため、Hostus の低価格で安価なものをいくつか投稿します。年間...

Baidu の製品バックリンクを放棄する 2 つの理由

2012 年、Baidu のアルゴリズム更新は非常に頻繁に行われ、更新の規模も比較的大きかった。更新...

2012年、百度の「生理不順」にどう対処するか

過去1年間、百度の「月経」は数回不規則になり、その数は毎月小さな変化と3ヶ月ごとに大きな変化と言えま...

エンタープライズ変革: 仮想化がクラウド コンピューティングに与える影響

仮想化は、IT 業界における最高のテクノロジーの 1 つと考えられています。仮想化によってもたらされ...

Weibo、新しいトラフィックパスワード!

トピック「#河南暴雨互助#」は157億回閲覧され、2401万件の議論が行われています。膨大な議論量と...

クラウドネイティブセキュリティのための5つのヒント

コンテナとサーバーレス プラットフォームに基づくクラウド ネイティブ アプリケーションは、世界中の組...

新しい杭州物語

キャラクターストーリー劉玉口夫妻:運河沿いを旅行するための証明書1枚劉玉口氏とその妻は13年間にわた...

ウェブサイトの包含率を迅速に向上させる方法に関する本当の内部情報

インターネット上の情報量が増加するにつれて、検索エンジンがさまざまなウェブサイトからウェブページを収...

開発ゲームにユーザーを引き付ける方法!

Duoduo Orchard といえば、トラフィックを集めるための開発ゲームに過ぎないと思っていた人...

#まずはレビューを# hostdare-c3 データセンター/中国最適化/3.49 USD/512M メモリ VPS シンプルレビュー

Hostdare は本日、新しいデータセンターを発表しました。ロサンゼルスの C3 データセンターは...

ウェブサイトの信頼性を高め、顧客のコンバージョン率を高める方法

信頼の構築は次のような側面に反映されます。 1. 会社概要ページ: 会社の背景、歴史、事業範囲などに...