クラウドに乗って未来へ |スムーズなクラウド移行を実現するコンピューティング インフラストラクチャ

クラウドに乗って未来へ |スムーズなクラウド移行を実現するコンピューティング インフラストラクチャ

デジタル時代において、クラウドは常に企業がデジタル変革と成長を実現するための重要な基盤となっています。パブリック クラウドの新たな競争が激化するにつれ、コンピューティング能力とインフラストラクチャに基づく新たな需要が急増しています。このクラウドブームの中で、どのようなインフラストラクチャ製品が優位性を獲得し、「クラウド内」での地位を獲得できるのでしょうか?

11月10日から24日まで、「クラウドに乗って未来へ向かう」Volcano Engineパブリッククラウド都市共有セッションが北京、上海、深センで開催されました。会議では、Volcano Engine は「企業のスムーズなクラウド移行を保護するコンピューティング パワー インフラストラクチャ」をテーマに、高性能コンピューティングとストレージ クラスター、クラウド ネイティブとコンピューティングの共同スケジューリング、リソース プーリング、オフライン統合における Volcano Engine のコンピューティング パワー インフラストラクチャの利点を共有し、エンタープライズ ビジネスのスムーズなクラウド移行を支援しました。

以下はスピーチの記録です。

バイトダンスの社内ビジネスの進化から生まれた基盤技術の進化

Volcano Engine は「クラウド」に真剣に取り組んできました。

クラウド コンピューティングの「後発企業」である Volcano Engine は、「顧客のビジネスを支援し、成長させることが非常に重要」であると固く信じています。 2021年末、Volcano Engineはクラウド製品を正式にリリースしました。それ以来、CPUやGPUなどのコンピューティング能力の大幅な成長と、サポートするストレージ規模の拡大は、Volcano Engineインフラストラクチャ製品の開発における「最優先事項」になりました。

歴史を振り返ると、2003年から2010年の間、基本的なネットワーク接続速度は10Gでした。 AIの発展により、今日の基本的なネットワーク速度は200G、さらには400Gに達しています。この成長は間違いなく驚くべきものです。インターネットの「高速化」に直面し、顧客により良いサービスを提供するために、Volcano Engine は機能の改良と最適化に懸命に取り組んできました。

Volcano Engineは過去5〜6年間、大規模なサーバー導入と徹底したシステム構築を実施し、ITコスト、ハードウェアサーバーコスト、運用コストの面で体系的かつ包括的な最適化を実施してきました。例えば、数百万台のサーバーに対する強力なサプライチェーンの準備と組み立てを実施し、ハードウェア最適化システムを確立しました。これにより、Volcano Engine の供給システムとハードウェアのテストおよび最適化機能が極限まで高められ、クラウド サーバー、GPU サーバー、エラスティック ベア メタルのいずれであっても、コスト効率に優れた利点が得られます。

この先行者利益に基づいて、Volcano Engine は内部的にも外部的にもクラウドネイティブ アーキテクチャを採用し、システム全体の同期と高い利用率を実現しています。これを基に、内部および外部の多重化技術を使用してリソースの使用率を向上させ、最適化された操作を実現します。このように、コールドスタート段階では、Volcano Engine は業界をリードするレベルにあります。

過去数年間、3世代にわたるアーキテクチャの進化と大規模な社内実践を経て、Volcano Engineは大きな進歩を遂げました。リソースの範囲に関して言えば、パブリック クラウド製品は、中国北部、中国東部、中国南部、東南アジアなどの地域にサービスを提供しています。これらはコスト効率と安全でコンプライアンスに準拠したインフラストラクチャに基づいて、ByteDance のビジネスと深く統合されています。

このプロセスでは、コピーの各ステップは単純な「コピーと貼り付け」ではありません。 Volcano Engineがやるべきことは、地域での使用率と販売率を上げるという目標に立ち返ることです。お客様のニーズに応えながら、自らの強い競争力も磨いていきます。

コンピューティングインフラストラクチャの進化

コンピューティング インフラストラクチャには、システム エンジニアリングの最適化、大規模なトレーニングと推論の最適化、24 時間体制の技術サポート、サプライ チェーンの安定性などの特徴があります。これらの機能は一般的には似ていますが、ベンダーごとに独自の機能があります。その中で、サプライチェーンの安定性は競争力を高めるための重要な要素の一つです。

現在、人工知能技術の推進とそれに伴う高性能コンピューティングおよびストレージ機能の需要により、サプライチェーン全体の不安定性が高まっています。したがって、リスク管理とリスク許容度が重要な要素になります。

この不確実性に対処するために、コンピューティング インフラストラクチャは、さまざまなアーキテクチャの高性能コンピューティング ユニットをサポートする必要があります。クラスターの安定した動作を維持することは非常に重要なタスクです。現在使用しているマシンにはそれぞれ、2 つの CPU、8 つの GPU カード、4 ~ 8 つのネットワーク カードが搭載されており、従来のサーバーよりも 1 桁以上複雑になっています。

このハードウェア構成の複雑さにより、システム全体の故障率は従来の CPU の 10 倍以上になります。クラスターに数千または数万の GPU がある場合、障害の影響は指数関数的に増大します。そのため、数百、数千、数万枚のカードのクラスターを安定して長期的に動作させる方法を確保することが、解決すべき緊急の課題となっています。

この問題を解決するために、Volcano Engine はハードウェアのコールド マイグレーションを提案しました。障害発生時にはサイトを保持し、状態をクラウドに保存して、マシンを迅速にコールドマイグレーションすることができます。このアプローチにより、ロードおよび保存プロセスの最適化を最大限に高めることができます。さらに、GPU 障害コードの判別を含め、ネットワークをリアルタイムで監視することができ、これらはすべて効果的な対策です。

自動車業界や製造業界で主に使用されているコンピューティング パワー ネットワークから判断すると、業界で処理する必要があるデータはマルチモーダルであることが多いです。したがって、コンピューティング能力に対する高い要件に加えて、ストレージと帯域幅に対する需要もそれに応じて増加します。ネットワーク パフォーマンスをより適切に監視するために、Volcano Engine はミリ秒レベルのネットワーク監視機能を提供します。 200G および 400G ネットワークでは、データ転送中にピークバーストが発生する可能性があり、これは 1 ~ 2 秒間続くことがあります。ミリ秒レベルの監視により、この問題を効果的に解決できます。

Wanka 規模のクラスターの場合、Volcano Engine は 3 層アーキテクチャ設計を採用します。独自の研究開発を活用することで、計算上の問題を可能な限り排除します。同時に、Volcano Engine はクラスター上に 400 個のストレージ ノードをマウントしており、ファイル システムを実行するクラスターは優れたストレージおよび帯域幅機能を提供できます。

ストレージ要件の高いタスクの場合、Volcano Engine は最下層に独立したストレージ システムを構築します。また、高いパフォーマンス要件と比較的単純な計算を必要とするタスクの場合、Volcano Engine は、GPU ローカル ディスクとバックエンド キャッシュ分離テクノロジを使用して分散キャッシュ アーキテクチャを実現し、より最適化されたソリューションを提供します。このアプローチは、容量は小さいが帯域幅要件が大きいタスクに対して、よりコスト効率の高いソリューションを提供できます。

全体として、これらのコンピューティングリソースを最大限に活用することが、AI開発システムの鍵となります。トレーニング中、さまざまなタスクでは、数十から数千のカードに及ぶさまざまなコンピューティング リソースが必要になる場合があります。これらのタスクをクラウドネイティブ機能を通じて統合し、基盤となるリソースを最大限に活用できれば、全体的なリソース利用がより効率的になります。

このプロセスでは、Volcano Engine 自体が開発した DPU カードについて言及する価値があります。 2018年から開発が進められてきたDPUは、数千万ppsのパフォーマンスを実現できている。仮想化とストレージ ネットワーク機能をカードに完全にオフロードし、仮想化を強化しながら実際の問題をうまく解決できます。

現在、Volcano Engine のすべての GPU は均一に構成され、クラウドに接続されており、より優れた弾力性を実現しています。

柔軟なネットワークがクラ​​ウドの成長を促進

Volcano Engine は、コンピューティング リソースに加えて、ネットワーク サービスでも大きな進歩を遂げています。機能面から見ると、Volcano Engine Public Cloud は、包括的なクラウド移行に対する企業のネットワーク ニーズを満たすように設計されています。包括的なネットワーク サービスを提供し、企業の柔軟なネットワーク構築を支援し、企業の要件を満たす効率的で制御可能かつ準拠したクラウド ネットワーク環境を構築できます。

同時に、Volcano Engine は異種機密信頼の実現と信用問題などの技術的課題の解決に注力し、「複雑な問題を Volcano Engine に任せ、顧客により良いサービスを提供する」という目標を真に実現します。

<<:  Dockerを簡単に簡素化する方法について開発者が語る: Easypanelで効率的な開発者になる

>>:  クラウド移行に関する注意事項 |企業のスムーズなクラウド移行を実現するためのコンピューティングパワーインフラストラクチャを理解するための図

推薦する

ロングテールキーワードへの詳細なアプローチ

はじめに:ロングテールキーワードには、ユーザーニーズを解決するものとトラフィックを追求するものの 2...

Vmiss: 新しくて安価な香港VPS(3ネットワークCMIライン)、月額18元、500M〜5Gbpsの帯域幅

vmissは、3つのネットワークすべてにモバイルCMI回線の使用を強制し、中国本土に直接接続し、pi...

オートナビは、何千人もの将来の交通専門家を育成することを目標に、産業界、学界、研究機関の統合に取り組んでいます。

[51CTO.com からのオリジナル記事] 今日、都市の急速な発展は都市統治に大きな課題をもたらし...

オンサイト最適化におけるアンカーテキストの使用上の注意点について簡単に説明します。

最適化担当者は皆、テキスト リンクと比較したアンカー テキストの役割を深く認識しています。アンカー ...

オンライン教育アプリユーザーの支払いコンバージョン率を向上させるにはどうすればよいでしょうか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス疫病はオンライン教育業界...

プロモーション チャネルの大規模なコレクション。必要なものを見つけてください。

1 WeChatは半閉鎖的なサークルです。「良いワインには茂みは不要」。コンテンツがどれだけ優れてい...

cloudcone: ストレージ VPS (大容量ハードディスク VPS)、年間 20 ドル、1G メモリ/1 コア/250g ハードディスク/5T ストリーミング

Cloudcone は、大量のトラフィックに対応する安価な大容量ハード ドライブ VPS (ストレー...

VPS IP が「不明瞭」になることをまだ心配していますか?格安 VPS マーチャント Hiformance がお手伝いします!

過去2日間、あまりにも多くのIPが「言葉にできない」問題により「言葉にできない」状態になりました。多...

デジタルオフィスのセキュリティを向上させ、中国のシステムが統合されたコラボレーションソリューションを生み出すことを保証する

仕事と生活はますます絡み合っており、それがほとんどの人々の生活の描写となっています。日常生活で一般的...

RBAC を使用して Kubernetes リソースへのアクセスを制限する

この記事では、Kubernetes RBAC 認証モデルを最初から再作成する方法と、Roles、Cl...

Taobao アフィリエイト開発は 3 つのコア段階に基づいています。大金を稼ぐことはもはや遠い夢ではありません。

タオバオアフィリエイトは、初期の広告スペースモデルから現在の洗練されたコンテンツプレゼンテーションま...

どのような状況で小紅書の紙幣が規制に違反するのでしょうか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスどのような状況でメモ取り...

SEM メディカル PPC の高コンバージョン ランディング ページ

2月14日に公開された記事「SEMの医療SEOは検索エンジンの背後にいるユーザーに焦点を当てています...

クイックパケット - $35/L5630/24g メモリ/1T ハードディスク/4IP/20T トラフィック/ロサンゼルス

Quickpacket は創立 14 周年を記念し、プロモーション用に自社専用サーバーを 2 台リリ...

クラウド コンピューティングへの投資価値を最大化する 12 の方法

過去数年間で、オンプレミスの施設からパブリック クラウドに業務を移行する企業がますます増えています。...