KServe: 堅牢でスケーラブルなクラウドネイティブモデルサーバー

Kubeflow に精通している場合は、KFServing がプラットフォームのモデルサーバーと推論エンジンであることをご存知でしょう。昨年 9 月、KFServing プロジェクトは変革を遂げ、KServe になりました。

名前の変更に加えて、KServe は Kubeflow プロジェクトから卒業した独立したコンポーネントになりました。この分離により、KServe はスタンドアロンモデルサーバーとして展開される、独立したクラウドネイティブ推論エンジンに進化できます。もちろん、Kubeflow との緊密な統合は継続されますが、独立したオープンソースプロジェクトとして扱われ、維持されます。

KServe は、Google、IBM、Bloomberg、Nvidia、Seldon の共同で開発された、Kubernetes 用のオープンソースのクラウドネイティブモデルサーバーです。最新リリース 0.8 では、モデルサーバーをスタンドアロンコンポーネントに変換することに重点が置かれ、分類法と命名法に変更が導入されています。

KServeのコア機能を理解しましょう

モデルサーバーは機械学習モデルにとって、アプリケーションがバイナリコードの記述にとってのような役割を果たします。どちらも、デプロイメント用のランタイムと実行コンテキストを提供します。モデルサーバーとして、KServer は機械学習と大規模学習モデルの基盤を提供します。

KServe は、従来の Kubernetes デプロイメントとして、またはゼロスケーリングをサポートするサーバーレスデプロイメントとしてデプロイできます。サーバーレスの場合、自動スケーリング機能を備えたサーバーレス向けの Knative Serving を活用します。 Istio は、サービスエンドポイントを API コンシューマーに公開するためのイングレスとして使用されます。 Istio と Knative サービスの組み合わせにより、モデルのブルー/グリーンやカナリアデプロイメントなどの魅力的なシナリオが可能になります。

Kserve アーキテクチャ図

RawDeployment モードでは、水平ポッド自動スケーリング (HPA) などの従来のスケーリング手法をサポートするものの、ゼロへのスケーリングはサポートしない Knative Serving を使用せずに KServe を使用できます。

KServe アーキテクチャ

KServe モデルサーバーには、コントロールプレーンとデータプレーンがあります。コントロールプレーンは、推論を担当するカスタムリソースを管理および調整します。サーバーレスモードでは、Knative リソースと連携して自動スケーリングを管理します。

KServe コントロールプレーンの中核は、推論サービスのライフサイクルを管理する KServe コントローラーです。サービス、イングレスリソース、モデルサーバーコンテナー、リクエスト/レスポンスログ記録用のモデルプロキシコンテナー、バッチ処理、モデルストレージからのモデルの抽出を担当します。モデルストアは、モデルサーバーに登録されたモデルのリポジトリです。通常は、Amazon S3、Google Cloud Storage、Azure Storage、MinIO などのオブジェクトストレージサービスです。

データプレーンは、特定のモデルの要求/応答サイクルを管理します。予測子、変換子、およびインタープリタのコンポーネントがあります。

AI アプリケーションは、予測エンドポイントに REST または gRPC リクエストを送信します。予測子は、トランスフォーマーコンポーネントを呼び出す推論パイプラインとして機能し、受信データ (リクエスト) の前処理と送信データ (レスポンス) の後処理を実行できます。あるいは、ホストされたモデルに AI 説明機能をもたらす説明コンポーネントが存在する可能性もあります。 KServe は、相互運用性と拡張性に優れた V2 プロトコルの使用を推奨しています。

データプレーンには、モデルの準備状況と健全性をチェックするためのエンドポイントもあります。また、モデルメタデータを取得するための API も公開します。

サポートされているフレームワークとランタイム

KServe は、幅広い機械学習およびディープラーニングフレームワークをサポートしています。ディープラーニングフレームワークとランタイムは、TensorFlow Serving、TorchServe、Triton Inference Server などの既存のサービスインフラストラクチャと連携します。 KServe は、Triton を通じて TensorFlow、ONNX、PyTorch、TensorRT ランタイムをホストできます。

SKLearn、XGBoost、Spark MLLib、LightGBM に基づく従来の機械学習モデルの場合、KServe は Seldon の MLServer に依存します。

KServe の拡張可能なフレームワークにより、V2 推論プロトコルに準拠する任意のランタイムにプラグインできます。

ModelMesh を使用したマルチモードサービス

KServe は推論ごとに 1 つのモデルを展開し、プラットフォームのスケーラビリティを利用可能な CPU と GPU に制限します。この制限は、高価で希少なコンピューティングリソースである GPU で推論を実行する場合に明らかになります。

マルチモードサービスを使用すると、コンピューティングリソース、最大ポッド、最大 IP アドレスなどのインフラストラクチャの制限を克服できます。

IBM が開発した ModelMesh Serving は、大容量/高密度のユースケース向けに最適化された、ML/DL モデルのリアルタイムサービングのための Kubernetes ベースのプラットフォームです。利用可能なリソースを最大限に活用するためにプロセスを管理するオペレーティングシステムと同様に、ModelMesh はデプロイされたモデルを最適化してクラスター内で効率的に実行します。

システムは、デプロイされたポッドのクラスター全体でメモリ内モデルデータをインテリジェントに管理し、それらのモデルを長期にわたって使用することで、利用可能なクラスターリソースの使用を最大化します。

ModelMesh Serving は推論用の KServe v2 データプレーン API に基づいており、NVIDIA Triton Inference Server と同様のランタイムとして展開できます。リクエストが KServe データプレーンに到着すると、それは単に ModelMesh Serving に委任されます。

ModelMesh Serving と KServe の統合は現在アルファ段階です。両方のプログラムが成熟するにつれて、より緊密な統合が行われ、2 つのプラットフォームの機能と能力を組み合わせて使用できるようになります。

モデルサービングが MLOP のコアビルディングブロックになるにつれて、KServe のようなオープンソースプロジェクトが非常に重要になります。 KServe の拡張性により、既存および今後のランタイムを使用できるため、ユニークなモデル提供プラットフォームになります。

<<: スケジューリングとオーケストレーションのための 7 つの CNCF ツール

>>: 企業はクラウド変革からどのようなメリットを得られるのでしょうか?