デジタル時代において、クラウドは常に企業がデジタル変革と成長を実現するための重要な基盤となっています。パブリック クラウドの新たな競争が激化するにつれ、コンピューティング能力とインフラストラクチャに基づく新たな需要が急増しています。このクラウドブームの中で、どのようなインフラストラクチャ製品が優位性を獲得し、「クラウド内」での地位を獲得できるのでしょうか? 11月10日から24日まで、「クラウドに乗って未来へ向かう」Volcano Engineパブリッククラウド都市共有セッションが北京、上海、深センで開催されました。会議では、Volcano Engine は「企業のスムーズなクラウド移行を保護するコンピューティング パワー インフラストラクチャ」をテーマに、高性能コンピューティングとストレージ クラスター、クラウド ネイティブとコンピューティングの共同スケジューリング、リソース プーリング、オフライン統合における Volcano Engine のコンピューティング パワー インフラストラクチャの利点を共有し、エンタープライズ ビジネスのスムーズなクラウド移行を支援しました。 以下はスピーチの記録です。 バイトダンスの社内ビジネスの進化から生まれた基盤技術の進化Volcano Engine は「クラウド」に真剣に取り組んできました。 クラウド コンピューティングの「後発企業」である Volcano Engine は、「顧客のビジネスを支援し、成長させることが非常に重要」であると固く信じています。 2021年末、Volcano Engineはクラウド製品を正式にリリースしました。それ以来、CPUやGPUなどのコンピューティング能力の大幅な成長と、サポートするストレージ規模の拡大は、Volcano Engineインフラストラクチャ製品の開発における「最優先事項」になりました。 歴史を振り返ると、2003年から2010年の間、基本的なネットワーク接続速度は10Gでした。 AIの発展により、今日の基本的なネットワーク速度は200G、さらには400Gに達しています。この成長は間違いなく驚くべきものです。インターネットの「高速化」に直面し、顧客により良いサービスを提供するために、Volcano Engine は機能の改良と最適化に懸命に取り組んできました。 Volcano Engineは過去5〜6年間、大規模なサーバー導入と徹底したシステム構築を実施し、ITコスト、ハードウェアサーバーコスト、運用コストの面で体系的かつ包括的な最適化を実施してきました。例えば、数百万台のサーバーに対する強力なサプライチェーンの準備と組み立てを実施し、ハードウェア最適化システムを確立しました。これにより、Volcano Engine の供給システムとハードウェアのテストおよび最適化機能が極限まで高められ、クラウド サーバー、GPU サーバー、エラスティック ベア メタルのいずれであっても、コスト効率に優れた利点が得られます。 この先行者利益に基づいて、Volcano Engine は内部的にも外部的にもクラウドネイティブ アーキテクチャを採用し、システム全体の同期と高い利用率を実現しています。これを基に、内部および外部の多重化技術を使用してリソースの使用率を向上させ、最適化された操作を実現します。このように、コールドスタート段階では、Volcano Engine は業界をリードするレベルにあります。 過去数年間、3世代にわたるアーキテクチャの進化と大規模な社内実践を経て、Volcano Engineは大きな進歩を遂げました。リソースの範囲に関して言えば、パブリック クラウド製品は、中国北部、中国東部、中国南部、東南アジアなどの地域にサービスを提供しています。これらはコスト効率と安全でコンプライアンスに準拠したインフラストラクチャに基づいて、ByteDance のビジネスと深く統合されています。 このプロセスでは、コピーの各ステップは単純な「コピーと貼り付け」ではありません。 Volcano Engineがやるべきことは、地域での使用率と販売率を上げるという目標に立ち返ることです。お客様のニーズに応えながら、自らの強い競争力も磨いていきます。 コンピューティングインフラストラクチャの進化コンピューティング インフラストラクチャには、システム エンジニアリングの最適化、大規模なトレーニングと推論の最適化、24 時間体制の技術サポート、サプライ チェーンの安定性などの特徴があります。これらの機能は一般的には似ていますが、ベンダーごとに独自の機能があります。その中で、サプライチェーンの安定性は競争力を高めるための重要な要素の一つです。 現在、人工知能技術の推進とそれに伴う高性能コンピューティングおよびストレージ機能の需要により、サプライチェーン全体の不安定性が高まっています。したがって、リスク管理とリスク許容度が重要な要素になります。 この不確実性に対処するために、コンピューティング インフラストラクチャは、さまざまなアーキテクチャの高性能コンピューティング ユニットをサポートする必要があります。クラスターの安定した動作を維持することは非常に重要なタスクです。現在使用しているマシンにはそれぞれ、2 つの CPU、8 つの GPU カード、4 ~ 8 つのネットワーク カードが搭載されており、従来のサーバーよりも 1 桁以上複雑になっています。 このハードウェア構成の複雑さにより、システム全体の故障率は従来の CPU の 10 倍以上になります。クラスターに数千または数万の GPU がある場合、障害の影響は指数関数的に増大します。そのため、数百、数千、数万枚のカードのクラスターを安定して長期的に動作させる方法を確保することが、解決すべき緊急の課題となっています。 この問題を解決するために、Volcano Engine はハードウェアのコールド マイグレーションを提案しました。障害発生時にはサイトを保持し、状態をクラウドに保存して、マシンを迅速にコールドマイグレーションすることができます。このアプローチにより、ロードおよび保存プロセスの最適化を最大限に高めることができます。さらに、GPU 障害コードの判別を含め、ネットワークをリアルタイムで監視することができ、これらはすべて効果的な対策です。 自動車業界や製造業界で主に使用されているコンピューティング パワー ネットワークから判断すると、業界で処理する必要があるデータはマルチモーダルであることが多いです。したがって、コンピューティング能力に対する高い要件に加えて、ストレージと帯域幅に対する需要もそれに応じて増加します。ネットワーク パフォーマンスをより適切に監視するために、Volcano Engine はミリ秒レベルのネットワーク監視機能を提供します。 200G および 400G ネットワークでは、データ転送中にピークバーストが発生する可能性があり、これは 1 ~ 2 秒間続くことがあります。ミリ秒レベルの監視により、この問題を効果的に解決できます。 Wanka 規模のクラスターの場合、Volcano Engine は 3 層アーキテクチャ設計を採用します。独自の研究開発を活用することで、計算上の問題を可能な限り排除します。同時に、Volcano Engine はクラスター上に 400 個のストレージ ノードをマウントしており、ファイル システムを実行するクラスターは優れたストレージおよび帯域幅機能を提供できます。 ストレージ要件の高いタスクの場合、Volcano Engine は最下層に独立したストレージ システムを構築します。また、高いパフォーマンス要件と比較的単純な計算を必要とするタスクの場合、Volcano Engine は、GPU ローカル ディスクとバックエンド キャッシュ分離テクノロジを使用して分散キャッシュ アーキテクチャを実現し、より最適化されたソリューションを提供します。このアプローチは、容量は小さいが帯域幅要件が大きいタスクに対して、よりコスト効率の高いソリューションを提供できます。 全体として、これらのコンピューティングリソースを最大限に活用することが、AI開発システムの鍵となります。トレーニング中、さまざまなタスクでは、数十から数千のカードに及ぶさまざまなコンピューティング リソースが必要になる場合があります。これらのタスクをクラウドネイティブ機能を通じて統合し、基盤となるリソースを最大限に活用できれば、全体的なリソース利用がより効率的になります。 このプロセスでは、Volcano Engine 自体が開発した DPU カードについて言及する価値があります。 2018年から開発が進められてきたDPUは、数千万ppsのパフォーマンスを実現できている。仮想化とストレージ ネットワーク機能をカードに完全にオフロードし、仮想化を強化しながら実際の問題をうまく解決できます。 現在、Volcano Engine のすべての GPU は均一に構成され、クラウドに接続されており、より優れた弾力性を実現しています。 柔軟なネットワークがクラウドの成長を促進Volcano Engine は、コンピューティング リソースに加えて、ネットワーク サービスでも大きな進歩を遂げています。機能面から見ると、Volcano Engine Public Cloud は、包括的なクラウド移行に対する企業のネットワーク ニーズを満たすように設計されています。包括的なネットワーク サービスを提供し、企業の柔軟なネットワーク構築を支援し、企業の要件を満たす効率的で制御可能かつ準拠したクラウド ネットワーク環境を構築できます。 同時に、Volcano Engine は異種機密信頼の実現と信用問題などの技術的課題の解決に注力し、「複雑な問題を Volcano Engine に任せ、顧客により良いサービスを提供する」という目標を真に実現します。 |
<<: Dockerを簡単に簡素化する方法について開発者が語る: Easypanelで効率的な開発者になる
>>: クラウド移行に関する注意事項 |企業のスムーズなクラウド移行を実現するためのコンピューティングパワーインフラストラクチャを理解するための図
「インターネットホームデコレーション元年」という言葉を聞いたことがありますか? 「インターネットホー...
現在、物流会社のコーポレートサイトや比較的大規模なポータル情報プラットフォームなど、多くの物流ウェブ...
テクノロジーは急速に進歩し続けており、求人市場では常に最新の IT スキルを持つ専門家が求められてい...
Baidu は毎週大きなアップデートがあり、毎日さまざまなサイトに対して小さなアップデートがあります...
NVIDIA によれば、CSD3 (Cambridge Service for Data Drive...
なぜ今日突然この記事を書いているのでしょうか? 私はこれまで多くのウェブサイトの SEO 最適化を分...
現在、OVH は専用サーバーを最大 40% 割引で提供しており、VPS はすべて 50% オフとなっ...
過去3年間、インターネット大手企業にとって最重要戦略事業であったクラウドコンピューティングは、現在そ...
drserver [3つのサブブランド SugarVPS、AbusiveCores、byteshac...
フォーラムでは、Web マスターは、Web サイトを最適化するときに URL を静的にする必要がある...
5月21日、2019年テンセントグローバルデジタルエコシステムカンファレンスが昆明で盛大に開幕した。...
コンテナ技術は数年前から存在しており、その原理はよく理解されています。コンテナは低コスト、高速、導入...
cmivpsは以前のモバイルcmi国際ラインを変更したようです。公式も大量のサーバーを追加しました。...
Dogyunは最近、香港のMGデータセンターのクラウドサーバーにアクセスしました。このサーバーは国際...
7日間で20万人のユーザーを獲得できますか? JJ コラオ「コーディングは21世紀に必須のスキルの一...