UCloud AI Trainが一般公開テストを開始、インテリジェントな統合トレーニングプラットフォームを構築

UCloud AI Trainが一般公開テストを開始、インテリジェントな統合トレーニングプラットフォームを構築

最近、UCloud は UAI-Train インテリジェント統合トレーニング プラットフォームをリリースしました。 UCloudは、UAI-Service、GPU、Safe Houseなど、これまでに発売されたAIシリーズ製品と組み合わせることで、ワンストップのAIフルサービスを構築しました。

UAI-Train の柔軟で便利なトレーニング タスク ホスティング サービスは、ユーザーがリソースの調達や運用保守の煩わしさから解放され、AI 使用のハードルを下げるのに役立ちます。同時に、プラットフォームは従量課金モデルを採用し、AI コストの投資を削減し、アイドル リソースの無駄を回避します。

AIモデルトレーニングの問題点

人工知能産業の台頭により、人工知能技術はあらゆる分野で広く利用されるようになりました。近年、人工知能技術は、画像(物体認識、顔認識など)、自然言語(音声認識、翻訳、対話ロボット)、スマート医療、スマートレコメンデーション(広告、ニュース、動画)の分野で急速な進歩を遂げています。同時に、人工知能技術によるコンピューティングリソースの需要も急速に高まっており、「クラウドコンピューティングが人工知能産業の発展にどのように貢献できるか」がパブリッククラウドサービスの新たな方向性となっています。

一般的に、人工知能サービスの構築には、ビッグデータの収集と処理、AI モデルのトレーニング、AI モデルのオンライン サービスという 3 つのステップが含まれます。これらの各ステップには大量のコンピューティング リソースが必要です。

ビッグデータ処理の場合、一定数のクラウドホストまたは物理マシンを購入してデータ処理クラスターを構築するか、UHadoop 製品を使用して Hadoop または Spark クラスターを構築し、データを処理することができます。 AI オンライン サービスの場合、クラウド ホストを使用してサービス クラスターを構築するか、UCloud UAI サービスを直接使用することで、AI オンライン推論サービスを迅速に展開できます。

ただし、AI モデルのトレーニングでは、通常、AI モデルのトレーニング プロセス中に生成される膨大な浮動小数点コンピューティング要件を満たし、それに伴う多くの課題に対処するために、高性能の GPU リソースが必要になります。

◆ 高額な投資

GPU ハードウェアまたは GPU クラウド ホストの調達コストは非常に高くなります。 P40 GPUの購入価格は5万元以上です。 P40クラウドホストをレンタルした場合でも、コストは月額4,500元以上かかります。したがって、GPU ハードウェアを使用するための 1 回限りの投資コストは非常に高くなります。

◆ 遊休リソース

GPU を独自に購入すると、アイドルリソースなどの問題も発生します。 AI アルゴリズムの開発と反復の過程では、アルゴリズムの設計とデータ処理に多くの時間が必要になりますが、このとき、GPU デバイスは十分に活用できないためアイドル状態になることが多く、GPU の使用コストがさらに増加し​​ます。

◆ 調達サイクルが長い

GPU の調達および在庫サイクルは、通常の CPU サーバーよりも長くなります。パブリック クラウド サービスを使用する場合でも、CPU クラウド ホストのように、いつでもどこでも GPU クラウド ホストを購入して使用することはできません。

◆ 運用・保守コストが高い

ビジネスボリュームの増加に伴い、トレーニング環境の構成、GPU リソースのスケジュール設定、データ ストレージ、トレーニング タスクの災害復旧などの問題が増加し、GPU トレーニング クラスターのメンテナンスの運用コストと保守コストが継続的に増加します。

これらの問題は、AIビジネスに携わる企業が直面する課題が非常に深刻であることを示しています。 R&D 担当者は優れた AI アルゴリズム モデルとソリューションを持っているかもしれませんが、AI テクノロジの要件が高いため、R&D コストが増加し、R&D サイクルが長くなることがよくあります。

顧客が AI モデルのトレーニング プロセスで直面する 4 つの主要な問題を解決できるように、UCloud AI Train プラットフォームは UCloud の強力な GPU クラウド ホスト クラスター上に構築され、AI トレーニング タスクに十分なコンピューティング パワーを提供します。同時に、自動コンピューティングノードのスケジューリング、トレーニング環境の準備、データのアップロードとダウンロード、タスクの災害復旧など、ワンストップのトレーニングタスクホスティングサービスも提供しており、ユーザーは複雑な GPU リソースの調達、管理、運用と保守の作業から解放されます。さらに、UAI-Train プラットフォームは実際のコンピューティング消費量に応じて課金するため、GPU 投資のコストが削減されるだけでなく、アイドル リソースの無駄も回避されます。

インテリジェントな統合トレーニングプラットフォームの3つの主な利点

◆ ワンストップのタスクホスティングとリアルタイムのトレーニングステータス追跡

UAI-Train プラットフォームは、ワンストップのトレーニング タスク ホスティング サービスを提供します。ユーザーは、トレーニング タスクを送信してタスクが終了するのを待つために、パッケージ化されたトレーニング イメージ、データ ソース パス、データ出力パス、およびトレーニングに必要なパラメーターを指定するだけです。 UAI-Train プラットフォームは、GPU リソースのスケジューリング、データのダウンロードとアップロード、コンピューティング ノードの災害復旧を自動的に実行します。

同時に、UAI-Train プラットフォームは、グラフィカルなリアルタイム ログ出力と TensorBoard (Tensorflow および Keras で利用可能) のリアルタイム表示を提供し、ユーザーはブラウザーを通じてトレーニングの状況をリアルタイムで追跡できます。

◆ Dockerコンテナ技術をベースに、強力なAI互換性を実現

UAI Train は、Docker コンテナ テクノロジーをベースにした互換性の高いトレーニング環境を提供します。ユーザーは、AI モデルのトレーニング アルゴリズムを Docker イメージにパッケージ化し、トレーニング タスクをトレーニング プラットフォームに送信するだけで、次の処理が実行されます。

>>>> トレーニング データのダウンロード;

>>>> 訓練ミッションの実行;

>>>> トレーニング結果を出力して保存します。

ユーザーの介入はまったく必要ありません。全体のプロセスを下の図に示します。

UAI-Train プラットフォームの使用を簡素化するために、UCloud は、ユーザーが Docker イメージをパッケージ化できるように Python SDK と基本的な Docker イメージを提供します。現在、UAI-Train プラットフォームは、ワンクリック画像パッケージ化およびテストツール、基本画像など、4 つの主流 AI フレームワークをサポートしています (PyTorch や CNTK などのオープンソースフレームワークのサポートは将来追加される予定です)。

同時に、UAI Train プラットフォームはカスタム Docker トレーニング イメージもサポートし、cuda と cudnn がプリインストールされた基本イメージを提供します。

◆ 柔軟な構成オプション、高いコストパフォーマンス

UAI-Train プラットフォームは現在 3 種類の GPU ノードをサポートしており、オンデマンドで分単位で正確に課金されるため、コスト効率が非常に高くなります。

UAI-Train プラットフォームでは、新しい GPU デバイス、Xeon Phi デバイスなど、より豊富な種類のハードウェア アクセラレーション コンピューティング デバイスを段階的にリリースする予定であり、分散トレーニング クラスターのサポートも開始する予定です。

企業のAIビジネス開発を支援する4つのコアアプリケーションシナリオ

◆ 応用シナリオ1:急速なAI変革

AIモデルのトレーニングタスク実行環境の構成が複雑(GPUドライバー、AIフレームワーク環境のインストールなど)、GPUリソ​​ースの調達サイクルが長く、コストが高く、運用・保守作業が煩雑であることから、企業がAIビジネスを迅速に変革する上での障害となっていました。 UAI-Train トレーニングサービスを利用することで、リソースの調達、環境構成、クラスターのメンテナンスといった問題を気にすることなく、迅速に AI モデルのトレーニングを実施できます。

◆ 応用シナリオ2:AIコストの削減

AI トレーニング タスクを実行するには大量のコンピューティング リソースが必要です。 GPU ハードウェアの調達コストは高く、アイドル状態のリソースが無駄になり、莫大な費用が発生します。 UAI Train トレーニング サービスを使用すると、十分な GPU ハードウェア リソースを取得できるだけでなく、実際のコンピューティング消費量に応じて支払うこともできます。比較的少額の投資で十分なコンピューティング リソースを取得できるため、費用対効果が非常に高く、AI コストを効果的に削減できます。

◆ 応用シナリオ3:AIの運用と保守の簡素化

AI モデル トレーニング タスクを大規模に実行するには、コンピューティング リソースのスケジュール設定、タスク管理、タスクの災害復旧などの問題に対処する必要があります。 UAI-Train トレーニング プラットフォームは、コンピューティング ノードのスケジュール設定、タスク管理、災害復旧などの問題を自動的に解決し、トレーニング タスクのステータスを表示するグラフィカル インターフェイスをユーザーに提供します。

◆ 応用シナリオ4: GPUリソ​​ースの共有

GPU クラウド ホストと物理マシンを使用して、チーム、部門、さまざまなユーザー間で GPU リソースを共有することは困難です。 UAI-Train トレーニング プラットフォームは、数百人のユーザーが GPU リソース プール全体を共有するというニーズを同時に満たすと同時に、GPU リソース共有シナリオのニーズを満たすリソース分離機能とクォータ管理機能も提供します。

9月にSinovation Ventures、Sogou、Toutiaoが主催した「AI Challenger Global AI Challenge」では、UCloudが唯一のAI GPUパートナーとなり、同コンテスト向けにAIモデルトレーニングサービス(UCloud AI Train)を独占的に提供した。この協力は、UCloudの強力な研究開発能力、迅速な対応サービス、AI分野における自社プラットフォームの安定性を検証し、コンテストの成功を確実にするものでもある。

UCloud は、中国を代表するクラウド コンピューティング サービス プロバイダーとして、AI トレーニング プラットフォームの機能とパフォーマンスに関する徹底的な研究を継続し、より豊富な AI フレームワークと分散トレーニング サポートをユーザーに提供できるよう努めます。同時に、UCloudはUAI-Serviceオンラインサービスプラットフォームを組み合わせて、AIトレーニングからAIオンラインサービスまでの統合ソリューションを構築し、AI業界向けのサービス機能を全面的に強化します。

<<:  AIラボがワンストップAI開発を体験できる公開テストを開始

>>:  IPSec VPNが正式にリリースされ、UCloudゲートウェイのセキュリティ戦略に新たな強力なツールが加わりました。

推薦する

JD.comは「ペットの夢」の実現に熱心だ

近年、「猫スター」「うんちかき」「雲猫抱っこ」などのネット用語が頻繁に登場し、ペットは徐々に人々の生...

Proaxxs 初月配送リストサーバー

Proaxxs, LLC は、1999 年に設立された定評のあるホスティング会社です。同社のアダルト...

クラウドネイティブ路線では、Kingsoft Cloudの戦略がより明確になりつつある

[51CTO.comからのオリジナル記事] 世界的なデジタル変革の深化に伴い、クラウドコンピューティ...

SEO実践(2) - ウェブサイトを検索エンジンに適したものにする

このシリーズの最初の記事では、SEO はデータに基づいて行う必要があると述べ、データの準備作業が少し...

Qvodは現場で罰金通知書に署名することを拒否し、罰金の額はまだ決定されていない。

【A5ウェブマスターネットワークニュース】最近、Qvodは何度も著作権侵害に関与したと非難され、2億...

ウェブビジュアルデザイン原則の重要性の包括的な分析

インターネット企業に勤めているあなたは、たくさんのウェブサイトを見て、自分なりの美的ビジョンを持って...

vmhaus - 英国 VPS/KVM/$15/年/256 メモリ/5g NVMe/1T 帯域幅

vmhaus はイギリスとマレーシアに登録された VPS 事業者です。現在は主にイギリスのデータセン...

Hujiang.comがデジタル出版分野で生き残った成功ストーリーを語る

この記事は、Hujiang.com 副社長の Xu Hua 氏が internet2share デジ...

2019年テンセントグローバルデジタルエコシステムカンファレンスが雲南省で開催され、エコシステムのアップグレードとデジタル時代の創造を目指す

5月21日、2019年テンセントグローバルデジタルエコシステムカンファレンスが昆明の滇池国際会議展示...

北京市衛生監督局:医療ウェブサイトに「中国」という名称をつけることは許可されない

北京時報(李秋萌記者)記者は昨日、北京市衛生監督管理研究所から、同市がインターネット上の医療・健康情...

「理解」エコシステムを構築し、エコシステムの潜在力を解き放ち、業界のデジタル変革に立ち向かう

[51CTO.comより元記事] ファーウェイは2021年1月1日、「2021年ファーウェイ中国政府...

エッジコンピューティングの課題を解決する

エッジ コンピューティングは、アクティビティやデータ ソースの近くで処理が行われるコンピューティング...

この記事では、仮想マシンの 4 つのネットワーク モデルについて包括的に説明します (画像とテキスト付き)

01. 物理ネットワークから仮想ネットワークへ有名な「六次の隔たり定理」によれば、世界中の見知らぬ人...

ブラック フライデー - サーバー - プロモーションの概要

ウェブサイトのトラフィックが増加し、プロジェクトがより多くのデータを消費するにつれて、VPS および...

Baiduホームページのキーワードランキングのまとめ

みなさんこんにちは。私はHongtu Internetです。以前、弊社のウェブサイトの1つでキーワー...