UCloud AI Trainが一般公開テストを開始、インテリジェントな統合トレーニングプラットフォームを構築

UCloud AI Trainが一般公開テストを開始、インテリジェントな統合トレーニングプラットフォームを構築

最近、UCloud は UAI-Train インテリジェント統合トレーニング プラットフォームをリリースしました。 UCloudは、UAI-Service、GPU、Safe Houseなど、これまでに発売されたAIシリーズ製品と組み合わせることで、ワンストップのAIフルサービスを構築しました。

UAI-Train の柔軟で便利なトレーニング タスク ホスティング サービスは、ユーザーがリソースの調達や運用保守の煩わしさから解放され、AI 使用のハードルを下げるのに役立ちます。同時に、プラットフォームは従量課金モデルを採用し、AI コストの投資を削減し、アイドル リソースの無駄を回避します。

AIモデルトレーニングの問題点

人工知能産業の台頭により、人工知能技術はあらゆる分野で広く利用されるようになりました。近年、人工知能技術は、画像(物体認識、顔認識など)、自然言語(音声認識、翻訳、対話ロボット)、スマート医療、スマートレコメンデーション(広告、ニュース、動画)の分野で急速な進歩を遂げています。同時に、人工知能技術によるコンピューティングリソースの需要も急速に高まっており、「クラウドコンピューティングが人工知能産業の発展にどのように貢献できるか」がパブリッククラウドサービスの新たな方向性となっています。

一般的に、人工知能サービスの構築には、ビッグデータの収集と処理、AI モデルのトレーニング、AI モデルのオンライン サービスという 3 つのステップが含まれます。これらの各ステップには大量のコンピューティング リソースが必要です。

ビッグデータ処理の場合、一定数のクラウドホストまたは物理マシンを購入してデータ処理クラスターを構築するか、UHadoop 製品を使用して Hadoop または Spark クラスターを構築し、データを処理することができます。 AI オンライン サービスの場合、クラウド ホストを使用してサービス クラスターを構築するか、UCloud UAI サービスを直接使用することで、AI オンライン推論サービスを迅速に展開できます。

ただし、AI モデルのトレーニングでは、通常、AI モデルのトレーニング プロセス中に生成される膨大な浮動小数点コンピューティング要件を満たし、それに伴う多くの課題に対処するために、高性能の GPU リソースが必要になります。

◆ 高額な投資

GPU ハードウェアまたは GPU クラウド ホストの調達コストは非常に高くなります。 P40 GPUの購入価格は5万元以上です。 P40クラウドホストをレンタルした場合でも、コストは月額4,500元以上かかります。したがって、GPU ハードウェアを使用するための 1 回限りの投資コストは非常に高くなります。

◆ 遊休リソース

GPU を独自に購入すると、アイドルリソースなどの問題も発生します。 AI アルゴリズムの開発と反復の過程では、アルゴリズムの設計とデータ処理に多くの時間が必要になりますが、このとき、GPU デバイスは十分に活用できないためアイドル状態になることが多く、GPU の使用コストがさらに増加し​​ます。

◆ 調達サイクルが長い

GPU の調達および在庫サイクルは、通常の CPU サーバーよりも長くなります。パブリック クラウド サービスを使用する場合でも、CPU クラウド ホストのように、いつでもどこでも GPU クラウド ホストを購入して使用することはできません。

◆ 運用・保守コストが高い

ビジネスボリュームの増加に伴い、トレーニング環境の構成、GPU リソースのスケジュール設定、データ ストレージ、トレーニング タスクの災害復旧などの問題が増加し、GPU トレーニング クラスターのメンテナンスの運用コストと保守コストが継続的に増加します。

これらの問題は、AIビジネスに携わる企業が直面する課題が非常に深刻であることを示しています。 R&D 担当者は優れた AI アルゴリズム モデルとソリューションを持っているかもしれませんが、AI テクノロジの要件が高いため、R&D コストが増加し、R&D サイクルが長くなることがよくあります。

顧客が AI モデルのトレーニング プロセスで直面する 4 つの主要な問題を解決できるように、UCloud AI Train プラットフォームは UCloud の強力な GPU クラウド ホスト クラスター上に構築され、AI トレーニング タスクに十分なコンピューティング パワーを提供します。同時に、自動コンピューティングノードのスケジューリング、トレーニング環境の準備、データのアップロードとダウンロード、タスクの災害復旧など、ワンストップのトレーニングタスクホスティングサービスも提供しており、ユーザーは複雑な GPU リソースの調達、管理、運用と保守の作業から解放されます。さらに、UAI-Train プラットフォームは実際のコンピューティング消費量に応じて課金するため、GPU 投資のコストが削減されるだけでなく、アイドル リソースの無駄も回避されます。

インテリジェントな統合トレーニングプラットフォームの3つの主な利点

◆ ワンストップのタスクホスティングとリアルタイムのトレーニングステータス追跡

UAI-Train プラットフォームは、ワンストップのトレーニング タスク ホスティング サービスを提供します。ユーザーは、トレーニング タスクを送信してタスクが終了するのを待つために、パッケージ化されたトレーニング イメージ、データ ソース パス、データ出力パス、およびトレーニングに必要なパラメーターを指定するだけです。 UAI-Train プラットフォームは、GPU リソースのスケジューリング、データのダウンロードとアップロード、コンピューティング ノードの災害復旧を自動的に実行します。

同時に、UAI-Train プラットフォームは、グラフィカルなリアルタイム ログ出力と TensorBoard (Tensorflow および Keras で利用可能) のリアルタイム表示を提供し、ユーザーはブラウザーを通じてトレーニングの状況をリアルタイムで追跡できます。

◆ Dockerコンテナ技術をベースに、強力なAI互換性を実現

UAI Train は、Docker コンテナ テクノロジーをベースにした互換性の高いトレーニング環境を提供します。ユーザーは、AI モデルのトレーニング アルゴリズムを Docker イメージにパッケージ化し、トレーニング タスクをトレーニング プラットフォームに送信するだけで、次の処理が実行されます。

>>>> トレーニング データのダウンロード;

>>>> 訓練ミッションの実行;

>>>> トレーニング結果を出力して保存します。

ユーザーの介入はまったく必要ありません。全体のプロセスを下の図に示します。

UAI-Train プラットフォームの使用を簡素化するために、UCloud は、ユーザーが Docker イメージをパッケージ化できるように Python SDK と基本的な Docker イメージを提供します。現在、UAI-Train プラットフォームは、ワンクリック画像パッケージ化およびテストツール、基本画像など、4 つの主流 AI フレームワークをサポートしています (PyTorch や CNTK などのオープンソースフレームワークのサポートは将来追加される予定です)。

同時に、UAI Train プラットフォームはカスタム Docker トレーニング イメージもサポートし、cuda と cudnn がプリインストールされた基本イメージを提供します。

◆ 柔軟な構成オプション、高いコストパフォーマンス

UAI-Train プラットフォームは現在 3 種類の GPU ノードをサポートしており、オンデマンドで分単位で正確に課金されるため、コスト効率が非常に高くなります。

UAI-Train プラットフォームでは、新しい GPU デバイス、Xeon Phi デバイスなど、より豊富な種類のハードウェア アクセラレーション コンピューティング デバイスを段階的にリリースする予定であり、分散トレーニング クラスターのサポートも開始する予定です。

企業のAIビジネス開発を支援する4つのコアアプリケーションシナリオ

◆ 応用シナリオ1:急速なAI変革

AIモデルのトレーニングタスク実行環境の構成が複雑(GPUドライバー、AIフレームワーク環境のインストールなど)、GPUリソ​​ースの調達サイクルが長く、コストが高く、運用・保守作業が煩雑であることから、企業がAIビジネスを迅速に変革する上での障害となっていました。 UAI-Train トレーニングサービスを利用することで、リソースの調達、環境構成、クラスターのメンテナンスといった問題を気にすることなく、迅速に AI モデルのトレーニングを実施できます。

◆ 応用シナリオ2:AIコストの削減

AI トレーニング タスクを実行するには大量のコンピューティング リソースが必要です。 GPU ハードウェアの調達コストは高く、アイドル状態のリソースが無駄になり、莫大な費用が発生します。 UAI Train トレーニング サービスを使用すると、十分な GPU ハードウェア リソースを取得できるだけでなく、実際のコンピューティング消費量に応じて支払うこともできます。比較的少額の投資で十分なコンピューティング リソースを取得できるため、費用対効果が非常に高く、AI コストを効果的に削減できます。

◆ 応用シナリオ3:AIの運用と保守の簡素化

AI モデル トレーニング タスクを大規模に実行するには、コンピューティング リソースのスケジュール設定、タスク管理、タスクの災害復旧などの問題に対処する必要があります。 UAI-Train トレーニング プラットフォームは、コンピューティング ノードのスケジュール設定、タスク管理、災害復旧などの問題を自動的に解決し、トレーニング タスクのステータスを表示するグラフィカル インターフェイスをユーザーに提供します。

◆ 応用シナリオ4: GPUリソ​​ースの共有

GPU クラウド ホストと物理マシンを使用して、チーム、部門、さまざまなユーザー間で GPU リソースを共有することは困難です。 UAI-Train トレーニング プラットフォームは、数百人のユーザーが GPU リソース プール全体を共有するというニーズを同時に満たすと同時に、GPU リソース共有シナリオのニーズを満たすリソース分離機能とクォータ管理機能も提供します。

9月にSinovation Ventures、Sogou、Toutiaoが主催した「AI Challenger Global AI Challenge」では、UCloudが唯一のAI GPUパートナーとなり、同コンテスト向けにAIモデルトレーニングサービス(UCloud AI Train)を独占的に提供した。この協力は、UCloudの強力な研究開発能力、迅速な対応サービス、AI分野における自社プラットフォームの安定性を検証し、コンテストの成功を確実にするものでもある。

UCloud は、中国を代表するクラウド コンピューティング サービス プロバイダーとして、AI トレーニング プラットフォームの機能とパフォーマンスに関する徹底的な研究を継続し、より豊富な AI フレームワークと分散トレーニング サポートをユーザーに提供できるよう努めます。同時に、UCloudはUAI-Serviceオンラインサービスプラットフォームを組み合わせて、AIトレーニングからAIオンラインサービスまでの統合ソリューションを構築し、AI業界向けのサービス機能を全面的に強化します。

<<:  AIラボがワンストップAI開発を体験できる公開テストを開始

>>:  IPSec VPNが正式にリリースされ、UCloudゲートウェイのセキュリティ戦略に新たな強力なツールが加わりました。

推薦する

強力なネットワークセキュリティ防御ラインを構築し、天一クラウドが新しいインフラストラクチャを護衛します

9月14日、第7回全国サイバーセキュリティ啓発週間が河南省鄭州で始まりました。このサイバーセキュリテ...

DEDECMSプログラムの基本的な最適化を共有する

DEDECMS は非常に優れたオープンソース プログラムです。その強力な機能は、一般的なオープンソー...

80vps: ロサンゼルス MC データセンター VPS、最低 199 元/年、1G メモリ/2 コア/30g SSD/1T トラフィック/1Gbps 帯域幅

国内のマーチャント80vpsは、新しいプラットフォームhttps://mcp.80vps.comに、...

IPOが失敗した後、Soulはどうなったのでしょうか?

ソウルは今年5月11日に米証券取引委員会にIPO申請書を提出し、6月24日にナスダックに上場する予定...

分散システムにおける一貫性モデル

[[413697]]最近、分散システムにおける強力な一貫性モデルに関する素晴らしいブログを見ました。...

世界のエッジコンピューティング市場は2026年までに152億ドルに達する

[[408880]]最近、Global Industry Analysts (GIA) は、「エッジ...

winity-$7/Windows/1g メモリ/40g SSD/1T トラフィック/ロサンゼルス

Backupsy の Windows VPS ブランド Winity は、Hyper-V をベースに...

映画サイトをリンクして広告提携をまとめ200万元稼ぐ、いとこらが著作権侵害の疑いで逮捕

□モーニングポスト記者 呉俊、特派員 王敏義映画のウェブサイトを立ち上げるのにかかった時間はわずか数...

アプリを目立たせるためのASO最適化戦略

App Store には何百万ものアプリがあります。自分のアプリを目立たせるにはどうすればよいでしょ...

ウェブサイトの粘着性を高めるにはいくつかのコツがあり、ターゲットを絞ったマーケティングは半分の労力で2倍の結果を達成できます。

ウェブマスターは誰でも、自分が運営するウェブサイトが大金を稼ぐことを望んでいます。最近では、趣味でウ...

企業はどのようにして商品キーワードを正しく選択すればよいのでしょうか?

キーワードは、ウェブサイトの SEO プロセスにおいて最も重要な要素の 1 つです。適切なキーワード...

これらの4つの文章について考えれば、SEOに悩まされることはなくなるでしょう

百度はSEOを文書で認めたことはなく、検索最適化ガイドラインなどの公式文書を発表したのみだが、SEO...

事例分析: ブロックされてから 1 か月後にウェブサイトが復旧

Baidu によるこの大規模な調整は、企業の Web サイトやフォーラムから草の根の Web マスタ...

マルチクラウド環境を展開するための4つのステップ

2017 年は企業によるクラウド コンピューティングの導入にとって大きな年であったことは間違いありま...

新規サイトのランキング低下の理由の簡単な分析

多くの人が次のような状況に遭遇したことがあるでしょう。新しいサイトはしばらくの間、ランキングが非常に...