Morphling: クラウドネイティブで AI を導入する際にコスト削減を最大化するにはどうすればよいでしょうか?

クラウドネイティブ技術の活発な発展と、その業界での実装の成熟に伴い、クラウド上の機械学習は大規模かつ産業化された開発に向けて急速に進歩しています。

最近、Morphling は Alibaba のオープンソース KubeDL の独立したサブプロジェクトとして、Cloud Native Computing Foundation (CNCF) サンドボックスプロジェクトになりました。機械学習モデル推論サービスの大規模な産業展開のための自動化された展開構成のチューニング、テスト、および推奨事項を提供することを目的としています。 GPU 仮想化と再利用技術がますます成熟する中で、企業はクラウドネイティブの利点を十分に享受し、オンライン機械学習サービスのパフォーマンスを最適化し、サービスの展開コストを削減し、実際の産業展開における機械学習のパフォーマンスとコストの課題を効率的に解決できるようになります。さらに、Morphling プロジェクトに関連する学術論文「Morphling: クラウドネイティブモデルサービングのための高速でほぼ最適な自動構成」が、ACM Symposium on Cloud Computing 2021 (ACM SoCC 2021) に採択されました。

モーフリングはもともと、ゲーム「Dota」のヒーロー「スラーク」を想定したもので、環境の要件に応じて柔軟に形態を変え、戦闘パフォーマンスを最適化できます。 Morphling プロジェクトを通じて、機械学習推論ジョブの柔軟でインテリジェントな展開構成の変更を実現し、サービスのパフォーマンスを最適化し、サービスの展開コストを削減したいと考えています。

背景

クラウド上の機械学習のワークフローは、モデルのトレーニングとモデルの提供という 2 つの部分に分けられます。オフラインでのトレーニング、チューニング、テストの後、モデルはコンテナ形式のオンラインアプリケーションとして展開され、オンラインライブビデオでの対象オブジェクトの認識、オンライン言語翻訳ツール、オンライン画像分類などの中断のない高品質の推論サービスをユーザーに提供します。たとえば、アリババの内部 Taobao コンテンツソーシャルプラットフォームである Machine Vision Application Platform (MVAP) は、オンライン機械学習推論エンジンを通じて、Taobao ライブブロードキャストの製品ハイライト認識、ライブブロードキャストのカバー画像の重複排除、閲覧画像とテキストの分類などのサービスをサポートしています。 Intel のデータによると、大規模推論 (「Inference at Scale」) の時代が到来しており、2020 年までに推論サイクルとトレーニングサイクルの比率は 5:1 を超えると予想されています。 Amazon のデータによると、2019 年に Amazon AWS のモデル推論サービスに対するインフラストラクチャ支出は、機械学習タスクに対する総支出の 90% 以上を占めました。機械学習による推論は、人工知能の実装と収益化の鍵となっています。

クラウド上の推論タスク

推論サービス自体は、特別な長期実行マイクロサービス形式です。クラウド上の推論サービスの導入量が増加するにつれて、そのコストとサービスのパフォーマンスが重要な最適化指標となっています。このため、運用保守チームは、ハードウェアリソース構成、サービス操作パラメータ構成など、推論コンテナを展開する前に適切な構成の最適化を実行する必要があります。これらの最適化構成は、サービスパフォーマンス (応答時間、スループットなど) とリソース利用効率を調整する上で重要な役割を果たします。実際に、テストでは、異なる展開構成によってスループット/リソース使用率が最大 10 倍異なる可能性があることがわかりました。

アリババのAI推論サービスにおける豊富な経験を基に、まずは推論ビジネスについてまとめました。従来のサービス展開の構成と比較すると、次の特徴があります。

高価なグラフィックカードリソースを使用しながらメモリ使用量を低く抑える: GPU 仮想化とタイムシェアリング多重化テクノロジの開発と成熟により、GPU 上で複数の推論サービスを同時に実行できるようになり、コストが大幅に削減されます。トレーニングタスクとは異なり、推論タスクでは、十分にトレーニングされたニューラルネットワークモデルを使用して、ニューラルネットワークを通じてユーザー入力情報を処理して出力を取得します。このプロセスにはニューラルネットワークの順方向伝播のみが含まれ、ビデオメモリリソースの需要は比較的低くなります。対照的に、モデルのトレーニングプロセスにはニューラルネットワークの逆伝播が含まれ、多数の中間結果を保存する必要があり、ビデオメモリに大きな負担がかかります。大量のクラスターデータから、グラフィックカード全体を 1 つの推論タスクに割り当てると、かなりのリソースの無駄が生じることがわかります。しかし、推論サービス、特に非圧縮ビデオメモリリソースに適切な GPU リソース仕様を選択する方法が重要な問題になります。
パフォーマンスリソースのボトルネックにはさまざまなものがあります。GPU リソースに加えて、推論タスクには複雑なデータの前処理 (ユーザー入力をモデル入力に一致するパラメータに処理する) と結果の後処理 (ユーザーの認識に一致するデータ形式の生成) も含まれます。これらの操作は通常 CPU を使用して実行され、モデル推論は通常 GPU を使用して実行されます。さまざまなサービスビジネスでは、GPU、CPU、およびその他のハードウェアリソースがサービス応答時間に影響を与える主な要因となり、リソースのボトルネックになる可能性があります。
さらに、コンテナの動作パラメータの構成も、ビジネス展開担当者が調整する必要がある次元になっています。コンピューティングリソースに加えて、コンテナランタイムパラメータも、コンテナサービスで実行される同時スレッドの数、推論サービスのバッチ処理サイズなど、サービス RT、QPS、およびその他のパフォーマンスに直接影響します。

推論サービスの展開構成の最適化

Kubernetes を主流とするクラウドネイティブテクノロジーは、さまざまな形で新しいアプリケーションの負荷に広く利用されています。 Kubernetes上で機械学習タスク（トレーニングや推論を含む）を構築し、安定的かつ効率的で低コストの導入を実現することが、大手企業がAIプロジェクトやサービスをクラウドに推進するための焦点であり鍵となっています。業界では、Kubernetes フレームワークの下でのコンテナ構成の推論について、まだ調査と実験が進められています。

最も一般的なモードは、人間の経験に基づいてパラメータを手動で構成することですが、これは単純ですが非効率的です。実際の状況では、サービスデプロイヤーは、クラスター管理者の観点から、サービス品質を確保するために、より多くのリソース冗長性を構成する傾向があり、効率よりも安定性を犠牲にして、結果としてリソースの大きな浪費が発生します。または、動作パラメータのデフォルト値を直接使用し、パフォーマンスの最適化の機会を失います。
もう 1 つの選択肢は、リソースの過去の水位プロファイルに基づいて、リソース割り当てをさらに改善し、最適化することです。しかし、私たちの観察と実践により、毎日の資源水位はサービスストレステスト中のトラフィックピークを反映できず、サービス容量の上限を評価できないことがわかりました。第二に、新しく立ち上げられた事業の場合、一般的に、参照できる信頼できる過去の水位情報が不足しています。さらに、機械学習フレームワークの特性により、GPU ビデオメモリの過去の使用量は通常、アプリケーションのビデオメモリに対する実際の需要を正確に反映できません。最後に、コンテナ内でプログラムを実行するパラメータを調整するための履歴データの観点からは、十分なデータサポートが不足しています。
一般的に、Kubernetes コミュニティには、より一般的なハイパーパラメータチューニングのための自動パラメータ推奨に関する研究や製品がいくつか存在しますが、業界には機械学習推論サービスを直接対象としたクラウドネイティブのパラメータ構成システムが欠けています。

AI 推論サービスにおける Alibaba の豊富な経験に基づき、推論サービスの構成とチューニングの問題点は次のとおりです。

自動化されたパフォーマンステストとパラメータ調整のためのフレームワークの欠如: 構成の反復的な手動調整 - サービスストレステストは、展開テストに多大な手動の負担をもたらすため、この方向は現実的に不可能なオプションになります。
安定した非侵入型のサービスパフォーマンステストプロセス: 運用環境でオンラインサービスを直接展開してテストすると、ユーザーエクスペリエンスに影響します。
効率的なパラメータ組み合わせチューニングアルゴリズムの要件: 設定する必要のあるパラメータ数の増加を考慮して、多次元パラメータの組み合わせ最適化設定を共同でデバッグし、チューニングアルゴリズムにさらに高い効率要件を提示します。

モーフィリング

上記の課題に対処するため、アリババのクラウドネイティブクラスター管理チームは、Kubernetes ベースの機械学習推論サービス構成フレームワーク Morphling を開発し、オープンソース化しました。Morphling は、パラメータの組み合わせのチューニングの全プロセスを自動化し、効率的なインテリジェントチューニングアルゴリズムと組み合わせることで、推論ビジネスの構成チューニングプロセスを Kubernetes 上で効率的に実行できるようにし、実際の業界展開における機械学習のパフォーマンスとコストの課題を解決します。

Morphling は、パラメータ調整プロセスに対してさまざまなレベルのクラウドネイティブ抽象化を実行し、ユーザーに簡潔で柔軟な構成インターフェイスを提供し、基盤となるコンテナ操作、データ通信、サンプリングアルゴリズム、およびストレージ管理をコントローラーにカプセル化します。具体的には、Morphling のパラメータ調整とパフォーマンスストレステストでは、実験トライアルワークフローを採用しています。

Experiment は最もユーザーフレンドリーな抽象化レイヤーです。ユーザーはインタラクションを通じて、機械学習モデルの保存場所、チューニングする構成パラメータ、テスト回数の上限などを指定し、特定のパラメータチューニングジョブを定義できます。
各パラメータ調整ジョブ実験に対して、Morphling は別の抽象化レイヤーである trial を定義します。トライアルは、基盤となる Kubernetes コンテナ操作をカバーする、特定のパラメータの組み合わせに対するパフォーマンステストプロセスをカプセル化します。各トライアルでは、Morphling はテストパラメータの組み合わせに従って推論サービスコンテナを構成および起動し、サービスの可用性と正常性状態を検出し、サービスに対してストレステストを実行して、応答時間の遅延、サービススループット、リソース利用効率など、構成下でのコンテナのサービスパフォーマンスを測定します。テスト結果はデータベースに保存され、実験にフィードバックされます。
Morphling は、インテリジェントなハイパーパラメータ調整アルゴリズムを使用して、パフォーマンステスト (トライアル) 用に少数の構成の組み合わせを選択します。各テストラウンドの結果はフィードバックとして使用され、次にテストするパラメータのセットを効率的に選択します。仕様ポイントの徹底的なサンプリングを回避するために、ポートレートサンプリングアルゴリズムの内部コアドライバーとしてベイズ最適化を使用します。フィッティング関数を継続的に改良することで、低いサンプリングレート (<20%) のストレステストオーバーヘッドで、ほぼ最適なコンテナー仕様の推奨結果を提供します。

この反復的なサンプリングとテストを通じて、最適化された構成の組み合わせの推奨事項が最終的にビジネス展開担当者にフィードバックされます。

同時に、Morphling は管理および制御スイートである Morphling-UI を提供します。これにより、ビジネス展開チームは、インターフェイス上のシンプルで使いやすい操作を通じて、推論ビジネス構成チューニング実験を開始し、チューニングプロセスを監視し、チューニング結果を比較することができます。

タオバオコンテンツソーシャルプラットフォームにおけるMorphlingの実践

Alibaba の豊富な内部オンライン機械学習推論シナリオと多数の推論サービスインスタンス要件により、Morphling の実装検証のための直接的な実装実践とテストフィードバックが提供されます。その中で、アリババ・タオバオのコンテンツソーシャルプラットフォームのマシンビジョンアプリケーションプラットフォーム（MVAP）チームは、オンライン機械学習推論エンジンを通じて、タオバオのライブブロードキャストの商品ハイライト認識、ライブブロードキャストのカバー画像の重複排除、閲覧画像とテキストの分類などの業務をサポートしています。

2020年のダブルイレブンショッピングフェスティバルでは、Morphlingを使用してAI推論コンテナの仕様テストと最適化を実行し、パフォーマンスとコストの最適ソリューションを見つけました。同時に、アルゴリズムエンジニアリングチームは、タオバオのビデオ視聴サービスなど、リソースを大量に消費する推論モデルを対象にモデル定量化と分析を行い、AIモデル設計の観点から最適化しました。これにより、最小限のリソースでダブルイレブンショッピングフェスティバルのピークトラフィックをサポートしながら、ビジネスのパフォーマンスが低下しないようにし、GPUの使用率を大幅に向上させ、コストを削減しました。

学術的探究

推論サービスのパラメータ調整プロセスの効率を向上させるために、アリババクラウドネイティブクラスタ管理チームは、推論ビジネスの特性に基づいて、メタ学習と少数ショット回帰の使用をさらに検討し、より効率的でサンプリングコストの低い構成のチューニングアルゴリズムを実装して、「高速、小規模サンプルサンプリング、低テストコスト」という実際の業界のチューニング要件を満たすとともに、クラウドネイティブで自動化されたチューニングフレームワークも実現しました。関連する学術論文「Morphling: クラウドネイティブモデルサービングのための高速でほぼ最適な自動構成」が、ACM Symposium on Cloud Computing 2021 (ACM SoCC 2021) に採択されました。

近年、クラウド上でのAI推論タスクの最適化された展開に関するトピックが、主要なクラウドコンピューティングおよびシステム関連学術誌や会議で活発に取り上げられ、学術研究のホットな話題となっています。検討される主なトピックには、AI モデルの動的な選択、デプロイメントインスタンスの動的な拡張と縮小、ユーザーアクセスのトラフィックのスケジューリング、GPU リソースの完全な利用 (動的なモデルの読み込みやバッチサイズの最適化など) が含まれます。しかし、大規模な業界慣行に基づいてコンテナレベルの推論サービスの展開を最適化する研究が行われるのは今回が初めてです。

アルゴリズムの観点から見ると、パフォーマンスチューニングは、古典的なハイパーパラメータチューニングの問題です。ベイズ最適化などの従来のハイパーパラメータ調整方法では、高次元 (複数の構成項目) および大規模な検索空間での調整問題に対処することが困難です。たとえば、AI 推論タスクの場合、CPU コア数、GPU メモリサイズ、バッチサイズ、GPU モデルの 4 つの次元 (構成項目) で「組み合わせ最適化」ハイパーパラメータチューニングを実行します。各構成項目には 5 ～ 8 個のオプションパラメーターがあります。したがって、組み合わせケースのパラメータ検索空間は 700 以上にもなります。実稼働クラスターのテストで蓄積された経験に基づくと、AI 推論コンテナの場合、サービスの起動、ストレステスト、データレポートまで、一連のパラメータの各テストに数分かかります。同時に、AI 推論サービスには多くの種類があり、頻繁な更新と反復、限られたデプロイメントエンジニア、限られたテストクラスターコストが伴います。このような大規模な検索空間で最適な構成パラメータを効率的にテストすることは、ハイパーパラメータ調整アルゴリズムに新たな課題をもたらします。

この論文では、さまざまな AI 推論サービスにおいて、最適化が必要なさまざまな構成 (GPU メモリやバッチサイズなど) がコンテナーのサービスパフォーマンス (QPS など) に与える影響は「安定しており、類似している」という点が中心の観察結果であり、これは視覚化された「構成とパフォーマンス」のサーフェスに反映されています。異なる AI 推論インスタンスでは、「構成 - パフォーマンス」サーフェスの形状は似ていますが、構成がパフォーマンスに与える影響の度合いとキーノードは値の点で異なります。

上の図は、3 つの AI 推論モデルについて、<CPU コア数と GPU メモリサイズ> の 2 次元構成がコンテナサービスの RPS スループットに与える影響を視覚化したものです。この論文では、モデルに依存しないメタ学習 (MAML) を使用してこれらの共通点を事前に学習し、メタモデルをトレーニングして新しい AI 推論パフォーマンスをテストし、表面上の主要なノードをすばやく見つけ、メタモデルに基づいて小さなサンプル (5%) で正確な適合を行うことを提案しています。

要約する

Morphling は、Kubernetes 機械学習推論サービス構成フレームワークをベースとし、「高速、小規模サンプルサンプリング、低テストコスト」のチューニングアルゴリズムと組み合わせることで、クラウドネイティブ向けの自動化された安定した効率的な AI 推論展開チューニングプロセスを実現し、展開プロセスの高速な最適化と反復を可能にし、機械学習ビジネスアプリケーションの立ち上げを加速します。 Morphling と KubeDL を組み合わせることで、モデルのトレーニングから推論の展開まで、AI の構成と最適化のエクスペリエンスもスムーズになります。

<<: ビジネスの収益を増やしたいですか?これらの5つのAI戦略は

>>: Huawei Cloud GaussDB: 分散コンピューティングとストレージコンピューティングの分離を組み合わせたパワーを活用してクラウドネイティブデータベースを構築