Kubeflow に精通している場合は、KFServing がプラットフォームのモデル サーバーと推論エンジンであることをご存知でしょう。昨年 9 月、KFServing プロジェクトは変革を遂げ、KServe になりました。 名前の変更に加えて、KServe は Kubeflow プロジェクトから卒業した独立したコンポーネントになりました。この分離により、KServe はスタンドアロン モデル サーバーとして展開される、独立したクラウド ネイティブ推論エンジンに進化できます。もちろん、Kubeflow との緊密な統合は継続されますが、独立したオープンソース プロジェクトとして扱われ、維持されます。 KServe は、Google、IBM、Bloomberg、Nvidia、Seldon の共同で開発された、Kubernetes 用のオープンソースのクラウドネイティブ モデル サーバーです。最新リリース 0.8 では、モデル サーバーをスタンドアロン コンポーネントに変換することに重点が置かれ、分類法と命名法に変更が導入されています。 KServeのコア機能を理解しましょうモデル サーバーは機械学習モデルにとって、アプリケーションがバイナリ コードの記述にとってのような役割を果たします。どちらも、デプロイメント用のランタイムと実行コンテキストを提供します。モデル サーバーとして、KServer は機械学習と大規模学習モデルの基盤を提供します。 KServe は、従来の Kubernetes デプロイメントとして、またはゼロスケーリングをサポートするサーバーレス デプロイメントとしてデプロイできます。サーバーレスの場合、自動スケーリング機能を備えたサーバーレス向けの Knative Serving を活用します。 Istio は、サービス エンドポイントを API コンシューマーに公開するためのイングレスとして使用されます。 Istio と Knative サービスの組み合わせにより、モデルのブルー/グリーンやカナリア デプロイメントなどの魅力的なシナリオが可能になります。 Kserve アーキテクチャ図 RawDeployment モードでは、水平ポッド自動スケーリング (HPA) などの従来のスケーリング手法をサポートするものの、ゼロへのスケーリングはサポートしない Knative Serving を使用せずに KServe を使用できます。 KServe アーキテクチャKServe モデル サーバーには、コントロール プレーンとデータ プレーンがあります。コントロール プレーンは、推論を担当するカスタム リソースを管理および調整します。サーバーレス モードでは、Knative リソースと連携して自動スケーリングを管理します。 KServe コントロール プレーンの中核は、推論サービスのライフサイクルを管理する KServe コントローラーです。サービス、イングレス リソース、モデル サーバー コンテナー、リクエスト/レスポンス ログ記録用のモデル プロキシ コンテナー、バッチ処理、モデル ストレージからのモデルの抽出を担当します。モデル ストアは、モデル サーバーに登録されたモデルのリポジトリです。通常は、Amazon S3、Google Cloud Storage、Azure Storage、MinIO などのオブジェクト ストレージ サービスです。 データ プレーンは、特定のモデルの要求/応答サイクルを管理します。予測子、変換子、およびインタープリタのコンポーネントがあります。 AI アプリケーションは、予測エンドポイントに REST または gRPC リクエストを送信します。予測子は、トランスフォーマー コンポーネントを呼び出す推論パイプラインとして機能し、受信データ (リクエスト) の前処理と送信データ (レスポンス) の後処理を実行できます。あるいは、ホストされたモデルに AI 説明機能をもたらす説明コンポーネントが存在する可能性もあります。 KServe は、相互運用性と拡張性に優れた V2 プロトコルの使用を推奨しています。 データ プレーンには、モデルの準備状況と健全性をチェックするためのエンドポイントもあります。また、モデル メタデータを取得するための API も公開します。 サポートされているフレームワークとランタイムKServe は、幅広い機械学習およびディープラーニング フレームワークをサポートしています。ディープラーニング フレームワークとランタイムは、TensorFlow Serving、TorchServe、Triton Inference Server などの既存のサービス インフラストラクチャと連携します。 KServe は、Triton を通じて TensorFlow、ONNX、PyTorch、TensorRT ランタイムをホストできます。 SKLearn、XGBoost、Spark MLLib、LightGBM に基づく従来の機械学習モデルの場合、KServe は Seldon の MLServer に依存します。 KServe の拡張可能なフレームワークにより、V2 推論プロトコルに準拠する任意のランタイムにプラグインできます。 ModelMesh を使用したマルチモード サービスKServe は推論ごとに 1 つのモデルを展開し、プラットフォームのスケーラビリティを利用可能な CPU と GPU に制限します。この制限は、高価で希少なコンピューティング リソースである GPU で推論を実行する場合に明らかになります。 マルチモード サービスを使用すると、コンピューティング リソース、最大ポッド、最大 IP アドレスなどのインフラストラクチャの制限を克服できます。 IBM が開発した ModelMesh Serving は、大容量/高密度のユースケース向けに最適化された、ML/DL モデルのリアルタイム サービングのための Kubernetes ベースのプラットフォームです。利用可能なリソースを最大限に活用するためにプロセスを管理するオペレーティング システムと同様に、ModelMesh はデプロイされたモデルを最適化してクラスター内で効率的に実行します。 システムは、デプロイされたポッドのクラスター全体でメモリ内モデル データをインテリジェントに管理し、それらのモデルを長期にわたって使用することで、利用可能なクラスター リソースの使用を最大化します。 ModelMesh Serving は推論用の KServe v2 データ プレーン API に基づいており、NVIDIA Triton Inference Server と同様のランタイムとして展開できます。リクエストが KServe データ プレーンに到着すると、それは単に ModelMesh Serving に委任されます。 ModelMesh Serving と KServe の統合は現在アルファ段階です。両方のプログラムが成熟するにつれて、より緊密な統合が行われ、2 つのプラットフォームの機能と能力を組み合わせて使用できるようになります。 モデル サービングが MLOP のコア ビルディング ブロックになるにつれて、KServe のようなオープン ソース プロジェクトが非常に重要になります。 KServe の拡張性により、既存および今後のランタイムを使用できるため、ユニークなモデル提供プラットフォームになります。 |
<<: スケジューリングとオーケストレーションのための 7 つの CNCF ツール
>>: 企業はクラウド変革からどのようなメリットを得られるのでしょうか?
Reversehosts は 2017 年 9 月に設立されました。サーバーは米国西海岸のサンディエ...
最近、2019 Alibaba Cloud Summit Beijing で、Alibaba Clo...
新興技術の発展とモバイル端末の詳細な応用により、アプリケーションデバイスの需要が高まっています。しか...
Fraphost は 2009 年に設立された小規模なホスティング サービス会社で、仮想ホスティング...
2012年は、オンライン小売業界ではレイオフ、オンラインとオフラインの競争など、多くのキーワードが注...
販売タイプの Web サイトは一度に作成されることはなく、さまざまなタイミングでさまざまなコンテンツ...
2013年、外部リンクを張っていた医療ウェブサイトは急速に消滅し、降格されたり、直接禁止されたりしま...
白城旅行網のオフィスに入ると、ロビーに華源旅行社(以下、「華源」)と「白城網」の2つの看板が掲げられ...
毎年3月は春学期の始まりです。効果的な感染予防と抑制のおかげで、全国の小中学生、大学生の大多数が予定...
今後、Namecheap の製品には大きな割引が適用されます: (1) ドメイン名の登録と転送、複数...
ウェブマスターの道を歩み続けるなら、遅かれ早かれ、ウェブサイト関連の他の職業に転向する必要があります...
[[217570]]...
5月22日、2018年百度アライアンスエコシステムサミットが海口市で開催されました。同日午後に開催さ...
Tortoise は 2009 年に設立され、1 人の人物によって所有されているわけではありません。...
今月初め、著名な調査機関 IDG が 2018 年のクラウド コンピューティング調査レポート (20...