クラウドに乗って未来へ |スムーズなクラウド移行を実現するコンピューティング インフラストラクチャ

クラウドに乗って未来へ |スムーズなクラウド移行を実現するコンピューティング インフラストラクチャ

デジタル時代において、クラウドは常に企業がデジタル変革と成長を実現するための重要な基盤となっています。パブリック クラウドの新たな競争が激化するにつれ、コンピューティング能力とインフラストラクチャに基づく新たな需要が急増しています。このクラウドブームの中で、どのようなインフラストラクチャ製品が優位性を獲得し、「クラウド内」での地位を獲得できるのでしょうか?

11月10日から24日まで、「クラウドに乗って未来へ向かう」Volcano Engineパブリッククラウド都市共有セッションが北京、上海、深センで開催されました。会議では、Volcano Engine は「企業のスムーズなクラウド移行を保護するコンピューティング パワー インフラストラクチャ」をテーマに、高性能コンピューティングとストレージ クラスター、クラウド ネイティブとコンピューティングの共同スケジューリング、リソース プーリング、オフライン統合における Volcano Engine のコンピューティング パワー インフラストラクチャの利点を共有し、エンタープライズ ビジネスのスムーズなクラウド移行を支援しました。

以下はスピーチの記録です。

バイトダンスの社内ビジネスの進化から生まれた基盤技術の進化

Volcano Engine は「クラウド」に真剣に取り組んできました。

クラウド コンピューティングの「後発企業」である Volcano Engine は、「顧客のビジネスを支援し、成長させることが非常に重要」であると固く信じています。 2021年末、Volcano Engineはクラウド製品を正式にリリースしました。それ以来、CPUやGPUなどのコンピューティング能力の大幅な成長と、サポートするストレージ規模の拡大は、Volcano Engineインフラストラクチャ製品の開発における「最優先事項」になりました。

歴史を振り返ると、2003年から2010年の間、基本的なネットワーク接続速度は10Gでした。 AIの発展により、今日の基本的なネットワーク速度は200G、さらには400Gに達しています。この成長は間違いなく驚くべきものです。インターネットの「高速化」に直面し、顧客により良いサービスを提供するために、Volcano Engine は機能の改良と最適化に懸命に取り組んできました。

Volcano Engineは過去5〜6年間、大規模なサーバー導入と徹底したシステム構築を実施し、ITコスト、ハードウェアサーバーコスト、運用コストの面で体系的かつ包括的な最適化を実施してきました。例えば、数百万台のサーバーに対する強力なサプライチェーンの準備と組み立てを実施し、ハードウェア最適化システムを確立しました。これにより、Volcano Engine の供給システムとハードウェアのテストおよび最適化機能が極限まで高められ、クラウド サーバー、GPU サーバー、エラスティック ベア メタルのいずれであっても、コスト効率に優れた利点が得られます。

この先行者利益に基づいて、Volcano Engine は内部的にも外部的にもクラウドネイティブ アーキテクチャを採用し、システム全体の同期と高い利用率を実現しています。これを基に、内部および外部の多重化技術を使用してリソースの使用率を向上させ、最適化された操作を実現します。このように、コールドスタート段階では、Volcano Engine は業界をリードするレベルにあります。

過去数年間、3世代にわたるアーキテクチャの進化と大規模な社内実践を経て、Volcano Engineは大きな進歩を遂げました。リソースの範囲に関して言えば、パブリック クラウド製品は、中国北部、中国東部、中国南部、東南アジアなどの地域にサービスを提供しています。これらはコスト効率と安全でコンプライアンスに準拠したインフラストラクチャに基づいて、ByteDance のビジネスと深く統合されています。

このプロセスでは、コピーの各ステップは単純な「コピーと貼り付け」ではありません。 Volcano Engineがやるべきことは、地域での使用率と販売率を上げるという目標に立ち返ることです。お客様のニーズに応えながら、自らの強い競争力も磨いていきます。

コンピューティングインフラストラクチャの進化

コンピューティング インフラストラクチャには、システム エンジニアリングの最適化、大規模なトレーニングと推論の最適化、24 時間体制の技術サポート、サプライ チェーンの安定性などの特徴があります。これらの機能は一般的には似ていますが、ベンダーごとに独自の機能があります。その中で、サプライチェーンの安定性は競争力を高めるための重要な要素の一つです。

現在、人工知能技術の推進とそれに伴う高性能コンピューティングおよびストレージ機能の需要により、サプライチェーン全体の不安定性が高まっています。したがって、リスク管理とリスク許容度が重要な要素になります。

この不確実性に対処するために、コンピューティング インフラストラクチャは、さまざまなアーキテクチャの高性能コンピューティング ユニットをサポートする必要があります。クラスターの安定した動作を維持することは非常に重要なタスクです。現在使用しているマシンにはそれぞれ、2 つの CPU、8 つの GPU カード、4 ~ 8 つのネットワーク カードが搭載されており、従来のサーバーよりも 1 桁以上複雑になっています。

このハードウェア構成の複雑さにより、システム全体の故障率は従来の CPU の 10 倍以上になります。クラスターに数千または数万の GPU がある場合、障害の影響は指数関数的に増大します。そのため、数百、数千、数万枚のカードのクラスターを安定して長期的に動作させる方法を確保することが、解決すべき緊急の課題となっています。

この問題を解決するために、Volcano Engine はハードウェアのコールド マイグレーションを提案しました。障害発生時にはサイトを保持し、状態をクラウドに保存して、マシンを迅速にコールドマイグレーションすることができます。このアプローチにより、ロードおよび保存プロセスの最適化を最大限に高めることができます。さらに、GPU 障害コードの判別を含め、ネットワークをリアルタイムで監視することができ、これらはすべて効果的な対策です。

自動車業界や製造業界で主に使用されているコンピューティング パワー ネットワークから判断すると、業界で処理する必要があるデータはマルチモーダルであることが多いです。したがって、コンピューティング能力に対する高い要件に加えて、ストレージと帯域幅に対する需要もそれに応じて増加します。ネットワーク パフォーマンスをより適切に監視するために、Volcano Engine はミリ秒レベルのネットワーク監視機能を提供します。 200G および 400G ネットワークでは、データ転送中にピークバーストが発生する可能性があり、これは 1 ~ 2 秒間続くことがあります。ミリ秒レベルの監視により、この問題を効果的に解決できます。

Wanka 規模のクラスターの場合、Volcano Engine は 3 層アーキテクチャ設計を採用します。独自の研究開発を活用することで、計算上の問題を可能な限り排除します。同時に、Volcano Engine はクラスター上に 400 個のストレージ ノードをマウントしており、ファイル システムを実行するクラスターは優れたストレージおよび帯域幅機能を提供できます。

ストレージ要件の高いタスクの場合、Volcano Engine は最下層に独立したストレージ システムを構築します。また、高いパフォーマンス要件と比較的単純な計算を必要とするタスクの場合、Volcano Engine は、GPU ローカル ディスクとバックエンド キャッシュ分離テクノロジを使用して分散キャッシュ アーキテクチャを実現し、より最適化されたソリューションを提供します。このアプローチは、容量は小さいが帯域幅要件が大きいタスクに対して、よりコスト効率の高いソリューションを提供できます。

全体として、これらのコンピューティングリソースを最大限に活用することが、AI開発システムの鍵となります。トレーニング中、さまざまなタスクでは、数十から数千のカードに及ぶさまざまなコンピューティング リソースが必要になる場合があります。これらのタスクをクラウドネイティブ機能を通じて統合し、基盤となるリソースを最大限に活用できれば、全体的なリソース利用がより効率的になります。

このプロセスでは、Volcano Engine 自体が開発した DPU カードについて言及する価値があります。 2018年から開発が進められてきたDPUは、数千万ppsのパフォーマンスを実現できている。仮想化とストレージ ネットワーク機能をカードに完全にオフロードし、仮想化を強化しながら実際の問題をうまく解決できます。

現在、Volcano Engine のすべての GPU は均一に構成され、クラウドに接続されており、より優れた弾力性を実現しています。

柔軟なネットワークがクラ​​ウドの成長を促進

Volcano Engine は、コンピューティング リソースに加えて、ネットワーク サービスでも大きな進歩を遂げています。機能面から見ると、Volcano Engine Public Cloud は、包括的なクラウド移行に対する企業のネットワーク ニーズを満たすように設計されています。包括的なネットワーク サービスを提供し、企業の柔軟なネットワーク構築を支援し、企業の要件を満たす効率的で制御可能かつ準拠したクラウド ネットワーク環境を構築できます。

同時に、Volcano Engine は異種機密信頼の実現と信用問題などの技術的課題の解決に注力し、「複雑な問題を Volcano Engine に任せ、顧客により良いサービスを提供する」という目標を真に実現します。

<<:  Dockerを簡単に簡素化する方法について開発者が語る: Easypanelで効率的な開発者になる

>>:  クラウド移行に関する注意事項 |企業のスムーズなクラウド移行を実現するためのコンピューティングパワーインフラストラクチャを理解するための図

推薦する

検索結果の多様化がウェブサイトのコンテンツ体験に与える影響

最近の観察から、Baidu の検索結果はますます多様化しており、ある程度のインテリジェントな思考を備...

掲示板やブログの価値を合理的に活用し、サイトの飛躍的発展を促進する(前編)

Baidu のアルゴリズムが継続的に変更されるにつれて、BBS と BLOG はもはや価値がないと感...

SEOスタジオのいくつかの開発方向の簡単な分析

1年前と比べて、SEO業界の競争はますます激しくなっています。インデックスの低い商業用語の多くは、数...

クラウド移行の5つの課題

クラウド コンピューティングの登場により、企業はクラウド コンピューティングを利用してビジネスの革新...

河南省、大規模なインターネット侵害事件を解決:失業中の若者が「プライベートサーバー」を設置して数百万ドルを稼ぐ

失業中の若者グループが私利私欲のため、オンラインゲーム運営者の許可なくオンラインゲームサーバーやオン...

Hostyun:ロシアのCN2 GIAラインVPSの簡単な評価、3つのネットワークがCN2 GIAを強制

Hostyun については多くの人がよく知っています。10 年以上運営されているこのビジネスが今でも...

程玲鋒:YYとQQはどれくらい「近い」のでしょうか? YYの上場に関するいくつかの判決

フェン兄弟はわざわざ業界を訪問し、株式公開を控えているYYについていくつかの判断を得ました。 1. ...

ダブルイレブンの低価格の裏にある本当の意図を分析する

いよいよ毎年恒例の独身の日がやってきます。カップルや独身者がお祝いに忙しくなるこの日は、いわゆる「お...

微博は16.27ドルで始まり、時価総額は33億300万ドルだった。

【TechWeb Report】昨日夕方(4月17日夕方)、Weiboがナスダック証券取引所に上場し...

ウェブサイトのランキングの上昇または下降の鍵は重みの配分です

現在、企業のマーケティング手法は大きな変化を遂げており、従来の電話マーケティングはインターネットマー...

独学の学生の SEO の旅 - 長期的な戦術

誰もが自分の進むべき道を持っており、それがどのようなルートであっても、それは忍耐のプロセスです。過去...

PieLayer - $12/年/512MB RAM/100GB HDD/800GB フロー/1000MB ポート

PieLayerは2001年から4年間VPSサービスを提供しています。逃げる可能性は低く、サービスは...

フレンドリーリンクの品質を把握するために6つの要素に注目してください

友情リンクは、ウェブサイト全体のかなりの割合を占めています。今日、Bo Baiyou は主に、他の人...

リアンタイクラスタークリスタルシリーズ製品が発売されました、衝撃的!

2019年12月26日午後14時30分(北京時間)、UnionTech Clusterは北京でCr...