最近、UCloud は UAI-Train インテリジェント統合トレーニング プラットフォームをリリースしました。 UCloudは、UAI-Service、GPU、Safe Houseなど、これまでに発売されたAIシリーズ製品と組み合わせることで、ワンストップのAIフルサービスを構築しました。 UAI-Train の柔軟で便利なトレーニング タスク ホスティング サービスは、ユーザーがリソースの調達や運用保守の煩わしさから解放され、AI 使用のハードルを下げるのに役立ちます。同時に、プラットフォームは従量課金モデルを採用し、AI コストの投資を削減し、アイドル リソースの無駄を回避します。 AIモデルトレーニングの問題点 人工知能産業の台頭により、人工知能技術はあらゆる分野で広く利用されるようになりました。近年、人工知能技術は、画像(物体認識、顔認識など)、自然言語(音声認識、翻訳、対話ロボット)、スマート医療、スマートレコメンデーション(広告、ニュース、動画)の分野で急速な進歩を遂げています。同時に、人工知能技術によるコンピューティングリソースの需要も急速に高まっており、「クラウドコンピューティングが人工知能産業の発展にどのように貢献できるか」がパブリッククラウドサービスの新たな方向性となっています。 一般的に、人工知能サービスの構築には、ビッグデータの収集と処理、AI モデルのトレーニング、AI モデルのオンライン サービスという 3 つのステップが含まれます。これらの各ステップには大量のコンピューティング リソースが必要です。 ビッグデータ処理の場合、一定数のクラウドホストまたは物理マシンを購入してデータ処理クラスターを構築するか、UHadoop 製品を使用して Hadoop または Spark クラスターを構築し、データを処理することができます。 AI オンライン サービスの場合、クラウド ホストを使用してサービス クラスターを構築するか、UCloud UAI サービスを直接使用することで、AI オンライン推論サービスを迅速に展開できます。 ただし、AI モデルのトレーニングでは、通常、AI モデルのトレーニング プロセス中に生成される膨大な浮動小数点コンピューティング要件を満たし、それに伴う多くの課題に対処するために、高性能の GPU リソースが必要になります。 ◆ 高額な投資 GPU ハードウェアまたは GPU クラウド ホストの調達コストは非常に高くなります。 P40 GPUの購入価格は5万元以上です。 P40クラウドホストをレンタルした場合でも、コストは月額4,500元以上かかります。したがって、GPU ハードウェアを使用するための 1 回限りの投資コストは非常に高くなります。 ◆ 遊休リソース GPU を独自に購入すると、アイドルリソースなどの問題も発生します。 AI アルゴリズムの開発と反復の過程では、アルゴリズムの設計とデータ処理に多くの時間が必要になりますが、このとき、GPU デバイスは十分に活用できないためアイドル状態になることが多く、GPU の使用コストがさらに増加します。 ◆ 調達サイクルが長い GPU の調達および在庫サイクルは、通常の CPU サーバーよりも長くなります。パブリック クラウド サービスを使用する場合でも、CPU クラウド ホストのように、いつでもどこでも GPU クラウド ホストを購入して使用することはできません。 ◆ 運用・保守コストが高い ビジネスボリュームの増加に伴い、トレーニング環境の構成、GPU リソースのスケジュール設定、データ ストレージ、トレーニング タスクの災害復旧などの問題が増加し、GPU トレーニング クラスターのメンテナンスの運用コストと保守コストが継続的に増加します。 これらの問題は、AIビジネスに携わる企業が直面する課題が非常に深刻であることを示しています。 R&D 担当者は優れた AI アルゴリズム モデルとソリューションを持っているかもしれませんが、AI テクノロジの要件が高いため、R&D コストが増加し、R&D サイクルが長くなることがよくあります。 顧客が AI モデルのトレーニング プロセスで直面する 4 つの主要な問題を解決できるように、UCloud AI Train プラットフォームは UCloud の強力な GPU クラウド ホスト クラスター上に構築され、AI トレーニング タスクに十分なコンピューティング パワーを提供します。同時に、自動コンピューティングノードのスケジューリング、トレーニング環境の準備、データのアップロードとダウンロード、タスクの災害復旧など、ワンストップのトレーニングタスクホスティングサービスも提供しており、ユーザーは複雑な GPU リソースの調達、管理、運用と保守の作業から解放されます。さらに、UAI-Train プラットフォームは実際のコンピューティング消費量に応じて課金するため、GPU 投資のコストが削減されるだけでなく、アイドル リソースの無駄も回避されます。 インテリジェントな統合トレーニングプラットフォームの3つの主な利点 ◆ ワンストップのタスクホスティングとリアルタイムのトレーニングステータス追跡 UAI-Train プラットフォームは、ワンストップのトレーニング タスク ホスティング サービスを提供します。ユーザーは、トレーニング タスクを送信してタスクが終了するのを待つために、パッケージ化されたトレーニング イメージ、データ ソース パス、データ出力パス、およびトレーニングに必要なパラメーターを指定するだけです。 UAI-Train プラットフォームは、GPU リソースのスケジューリング、データのダウンロードとアップロード、コンピューティング ノードの災害復旧を自動的に実行します。 同時に、UAI-Train プラットフォームは、グラフィカルなリアルタイム ログ出力と TensorBoard (Tensorflow および Keras で利用可能) のリアルタイム表示を提供し、ユーザーはブラウザーを通じてトレーニングの状況をリアルタイムで追跡できます。 ◆ Dockerコンテナ技術をベースに、強力なAI互換性を実現 UAI Train は、Docker コンテナ テクノロジーをベースにした互換性の高いトレーニング環境を提供します。ユーザーは、AI モデルのトレーニング アルゴリズムを Docker イメージにパッケージ化し、トレーニング タスクをトレーニング プラットフォームに送信するだけで、次の処理が実行されます。 >>>> トレーニング データのダウンロード; >>>> 訓練ミッションの実行; >>>> トレーニング結果を出力して保存します。 ユーザーの介入はまったく必要ありません。全体のプロセスを下の図に示します。 UAI-Train プラットフォームの使用を簡素化するために、UCloud は、ユーザーが Docker イメージをパッケージ化できるように Python SDK と基本的な Docker イメージを提供します。現在、UAI-Train プラットフォームは、ワンクリック画像パッケージ化およびテストツール、基本画像など、4 つの主流 AI フレームワークをサポートしています (PyTorch や CNTK などのオープンソースフレームワークのサポートは将来追加される予定です)。 同時に、UAI Train プラットフォームはカスタム Docker トレーニング イメージもサポートし、cuda と cudnn がプリインストールされた基本イメージを提供します。 ◆ 柔軟な構成オプション、高いコストパフォーマンス UAI-Train プラットフォームは現在 3 種類の GPU ノードをサポートしており、オンデマンドで分単位で正確に課金されるため、コスト効率が非常に高くなります。 UAI-Train プラットフォームでは、新しい GPU デバイス、Xeon Phi デバイスなど、より豊富な種類のハードウェア アクセラレーション コンピューティング デバイスを段階的にリリースする予定であり、分散トレーニング クラスターのサポートも開始する予定です。 企業のAIビジネス開発を支援する4つのコアアプリケーションシナリオ ◆ 応用シナリオ1:急速なAI変革 AIモデルのトレーニングタスク実行環境の構成が複雑(GPUドライバー、AIフレームワーク環境のインストールなど)、GPUリソースの調達サイクルが長く、コストが高く、運用・保守作業が煩雑であることから、企業がAIビジネスを迅速に変革する上での障害となっていました。 UAI-Train トレーニングサービスを利用することで、リソースの調達、環境構成、クラスターのメンテナンスといった問題を気にすることなく、迅速に AI モデルのトレーニングを実施できます。 ◆ 応用シナリオ2:AIコストの削減 AI トレーニング タスクを実行するには大量のコンピューティング リソースが必要です。 GPU ハードウェアの調達コストは高く、アイドル状態のリソースが無駄になり、莫大な費用が発生します。 UAI Train トレーニング サービスを使用すると、十分な GPU ハードウェア リソースを取得できるだけでなく、実際のコンピューティング消費量に応じて支払うこともできます。比較的少額の投資で十分なコンピューティング リソースを取得できるため、費用対効果が非常に高く、AI コストを効果的に削減できます。 ◆ 応用シナリオ3:AIの運用と保守の簡素化 AI モデル トレーニング タスクを大規模に実行するには、コンピューティング リソースのスケジュール設定、タスク管理、タスクの災害復旧などの問題に対処する必要があります。 UAI-Train トレーニング プラットフォームは、コンピューティング ノードのスケジュール設定、タスク管理、災害復旧などの問題を自動的に解決し、トレーニング タスクのステータスを表示するグラフィカル インターフェイスをユーザーに提供します。 ◆ 応用シナリオ4: GPUリソースの共有 GPU クラウド ホストと物理マシンを使用して、チーム、部門、さまざまなユーザー間で GPU リソースを共有することは困難です。 UAI-Train トレーニング プラットフォームは、数百人のユーザーが GPU リソース プール全体を共有するというニーズを同時に満たすと同時に、GPU リソース共有シナリオのニーズを満たすリソース分離機能とクォータ管理機能も提供します。 9月にSinovation Ventures、Sogou、Toutiaoが主催した「AI Challenger Global AI Challenge」では、UCloudが唯一のAI GPUパートナーとなり、同コンテスト向けにAIモデルトレーニングサービス(UCloud AI Train)を独占的に提供した。この協力は、UCloudの強力な研究開発能力、迅速な対応サービス、AI分野における自社プラットフォームの安定性を検証し、コンテストの成功を確実にするものでもある。 UCloud は、中国を代表するクラウド コンピューティング サービス プロバイダーとして、AI トレーニング プラットフォームの機能とパフォーマンスに関する徹底的な研究を継続し、より豊富な AI フレームワークと分散トレーニング サポートをユーザーに提供できるよう努めます。同時に、UCloudはUAI-Serviceオンラインサービスプラットフォームを組み合わせて、AIトレーニングからAIオンラインサービスまでの統合ソリューションを構築し、AI業界向けのサービス機能を全面的に強化します。 |
<<: AIラボがワンストップAI開発を体験できる公開テストを開始
>>: IPSec VPNが正式にリリースされ、UCloudゲートウェイのセキュリティ戦略に新たな強力なツールが加わりました。
Hivelocity は、2002 年に設立された米国の旧式データセンターで、独立系サーバーレンタル...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますこのブログ...
今年1月23日の夕方、ハッカー集団UGNaziが高級ブランドCoachのウェブサイトをハッキングした...
「人員削減?局閉鎖?」最近、「捜狐が広東と上海の局を閉鎖し、関係する従業員を直接解雇する」というニュ...
現在、人工知能は生産性の向上を可能にし、さまざまな産業のインテリジェント化と新旧の運動エネルギーの変...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますマーケティ...
cmivps は香港データセンターに独立したサーバーを追加しました。これらの香港サーバーは、2*e5...
Microsoft は、Azure Resource Manager のリリースで Windows ...
【ゼロからのスタート】 2003 年には、QQ や NetEase Bubble などのインスタント...
新しいインターネット アプリケーションは、誕生から普及に至るまで、常にチャンス、課題、あらゆる場所で...
アルゴリズムの継続的な更新により、外部リンクが王様だった時代は終わりました。ウェブサイトの最適化の焦...
スターには暗黙のルールがあります。目立って先に進みたいなら、お金を払わなければなりません。もちろん、...
静かな夜、若い女性は慎重に着飾った後、カーテンを引きます。3台の高解像度カメラ、マイク、そして最も重...
最近、ウェブサイトのスナップショットが更新されていません。ウェブサイトのログでスパイダーアクセスを確...
Zorocloud は 4 月の特別プロモーションを実施し、四半期ごとの支払いで米国 VPS と香港...