クラウド コンピューティングの時代において、マルチクラウド アーキテクチャは企業のクラウド戦略における重要なトレンドとなっています。 IDC レポートによると、2023 年までに世界中の企業の 85% がマルチクラウド アーキテクチャを採用することになります。マルチクラウド アーキテクチャは、単一のクラウド サービスと比較して、弾力性と拡張性が高く、企業のビジネス ニーズや突然のクラウド サービスの問題により適切に対応できます。 しかし、異なるクラウド プラットフォーム間でビジネス システムをシームレスに統合するにはどうすればよいでしょうか?リソースの利用を最大化するにはどうすればよいでしょうか? 「情報孤島」などの問題を防ぐために、クラウドネイティブ実践者は常にマルチクラウド環境でのソリューションを模索しています。 11月10日から24日まで開催された「クラウドに乗って未来へ向かう」Volcano Engineパブリッククラウドおよび都市共有カンファレンスにおいて、Volcano Engineは「ByteDanceのマルチクラウドの進化とコスト削減の実践」をテーマに、ByteDanceのマルチクラウドコンピューティングアーキテクチャとVolcano Engineのクラウドネイティブテクノロジーを紹介・共有したほか、マルチクラウド環境における展開、運用・保守、データ、コストの課題を解決する方法についても紹介した。 以下はスピーチの記録です。 ByteDanceがマルチクラウドを選んだ理由Volcano Engine テクノロジーは ByteDance のテクノロジーから派生したもので、ByteDance のビジネスにも統合されています。 ByteDance の事業が発展するにつれ、Volcano Engine の技術も絶えず発展し、向上しています。 マルチクラウドについて話すとき、誰もが ByteDance がマルチクラウドを選択した理由について話すでしょう。まとめると、理由は3つあります。 1つ目はビジネス上の要求です。 2017年から2018年にかけて、Douyinは10,000 DAUから1億DAUへと急速に成長しましたが、それには膨大なリソースが必要でした。単一のクラウドでは、短期間でそれらを供給することはできません。当時、複数のクラウドを選択することは、ビジネス展開上避けられない課題でした。同時に、ビジネスによってハードウェアとコンピューティング能力の要件が異なり、クラウド サービス プロバイダーによってコンピューティング能力の供給も異なります。企業はクラウド サービスを選択する際に、希少なリソースやビジネス サポートなどの要素を考慮します。近年、ライブストリーミング電子商取引が普及しており、分散リソースのサポートが必要になっています。独自のIDCとリソースを構築すると、ビジネスが完了するまでに長い時間がかかります。ビジネスが発展するにつれて、企業はクラウド リソースを購入する必要が出てきます。 2番目に重要な要素は経済です。インターネットベースのビジネスを多数展開する企業は、大量のリソースを保有すると一定の経済的損失を被るため、サポートにはクラウドサービスを選択することになります。また、リソースによってコストが異なるため、企業はニーズに応じて適切なクラウド サービス プロバイダーを選択します。 3番目に重要な要素は安全性です。データ主権、セキュリティコンプライアンス、アンチバインディングなどの問題により、企業は事業展開の過程で無意識のうちに複数のクラウドサービスプロバイダーを選択することになり、マルチクラウド現象が発生します。 上記の問題の存在により、ByteDance の技術チームは、インフラ開発の主な道としてマルチクラウドをしっかりと選択しました。 ByteDance によるクラウド ネイティブへの道では、曇りの状態でクラウドを有効活用するにはどうすればよいでしょうか?これは非常に重要な提案です。マルチクラウドを有効活用する方法について説明する前に、まずはマルチクラウドにおける ByteDance のクラウドネイティブ パスを確認しましょう。 2016年、ByteDanceの各事業はそれぞれ異なる自社管理リソースを使用していたため、リソースの浪費、管理と開発、運用と保守の困難、容量の一貫性の欠如などの問題が発生し、事業の安定性と効率性に影響を与えました。 Toutiaoの急速な成長に伴い、ByteDanceはクラウド構築を開始しました。 2017年、インターネットの競争環境は激化し、システムを迅速に開発・反復するためには多くの開発者が必要となり、大量の開発者を採用する必要がありました。しかし、新しく採用された開発者は会社の開発システムに慣れておらず、トレーニングと適応が必要です。開発者が使い慣れたネイティブな方法でビジネス開発プロセスに迅速に参入し、ビジネスの発展に貢献できるようにするには、解決しなければならない問題があります。各チームのスキルは異なるため、開発するビジネス システムは、オンライン相互接続の対応する管理とガバナンスにもいくつかの課題をもたらすため、これらのテクノロジと経験を統合する必要があります。そのため、当社はサービスグリッドアーキテクチャを採用し、監視と警報の方法を統一し、サービスグリッドに適応するために複数の言語をサポートし、さまざまなビジネス開発者が迅速にビジネス反復に参入できるように支援し、サービスガバナンス機能、安定性ガバナンス機能、トラフィックモビライゼーション機能などのパブリック機能を基盤プラットフォームに預けて、プラットフォームの開発を強化しました。 2019 年には、CCTV 春節祭紅包など、多くのマーケティング活動を実施し、多くのクラウド リソースが必要になりました。当社のプロモーション事業はかつて大規模であり、さまざまなクラウドへの適応と最適化が必要で、非常にコストがかかっていました。このような状況下では、大規模なビジネスを推進するためには、さまざまなクラウドのリソースに適応する必要があり、適応およびチューニングのコストが発生します。イベント期間中、一部のプロモーション業務をある程度まで縮小し、多くの追加リソースを節約して、対応する活動の展開をより良くサポートできることがわかりました。これまでと同じやり方で事業を継続すると、コストが非常に不経済なものになります。したがって、リソースコストを削減するには、クラウド リソースの弾力性を向上させ、アクティビティのニーズにさらに機敏に対応する必要があります。 2020年はプロモーション事業が進化を遂げ、オフラインとオンラインを融合した利用率が上昇しました。全体的な運用効率を向上させるために、ストレージに大幅な変更を加えました。 ビジネス開発においては、リソースの需要が膨大であるため、複数のクラウドを切り替える必要が生じることが多く、運用・保守コストが増加します。クラウドネイティブ アプリケーションのマルチクラウド機能により、時間を節約し、さまざまなクラウドに迅速に適応できるようになります。現在、Douyin と Toutiao は 1 週間ほどでさまざまなクラウドに迅速に適応し、クラウド切り替えの問題を迅速に解決できるため、ビジネスに非常に役立ちます。 2021年、ByteDanceはマルチクラウドリソースからマルチクラウドアプリケーションまで、フルシナリオアプリケーションオーケストレーションとリソース管理の標準化と統一を正式に達成しました。 ByteDance は現在、 500を超える k8s プロダクション クラスターを保有しており、 210,000を超えるフェデレーション管理ノード、 20,000を超える単一クラスター サイズ、 100,000を超えるマイクロサービスを備えています。毎日、本番システムは30,000 件のサービス更新を受け取り、ビジネスの安定性を確保しながら反復とイノベーションを強力にサポートします。さらに、オフライン タスク コンテナの数は2 億 4,000 万以上に達し、クラウド ネイティブのハイブリッド展開により、企業のリソース コストが効果的に節約されます。 マルチクラウドが直面する4つの大きな課題マルチクラウド開発のプロセス全体は順調に進むわけではなく、さまざまな側面で問題を解決する必要があります。まとめると、次の 4 つのポイントがあります。
ByteDanceのマルチクラウドコンピューティングアーキテクチャByteDanceの事業展開から判断すると、全体的に「マルチクラウドコントロール+マルチクラウドマルチアクティブ」モデルが形成されている。ローカルでは、複数の場所への展開アプローチを採用し、基盤となるストレージ テクノロジを使用して複数のローカル場所間の差異を埋めます。ネットワークレベルでの専用回線を通じて、緊密な統合を実現します。このようにして、さまざまなビジネス ユニットをさまざまなコンピューター ルームに柔軟に割り当てることができます。 さらに、マルチクラウドとリモート方式を通じて、柔軟な災害復旧機能がビジネスに提供されます。マルチクラウドレベルでの安定性を維持するために、マルチコンピュータルームアプローチは採用されませんでした。特定の国または地域でビジネス上の問題が発生した場合、トラフィックを別のコンピュータ ルームに割り当てて、ビジネスの継続性を確保できます。 データのセキュリティとトレーサビリティに関しては、全体的なデータの双方向同期ゲートウェイを通じて、データ流出のトレーサビリティと透明性を確保するなどの対策を講じています。複数のコントロールプレーンを通じて、全体的な災害復旧を保証します。スーパーコントロールプレーンを通じて、一貫したエクスペリエンスを保証します。これにより、異なる地域の開発者が同じプラットフォームで作業できるようになり、ビジネス開発の効率と堅牢性が向上します。 現在、ByteDance のマルチクラウド コンピューティング アーキテクチャ全体は、2 つの主要なコンピューティング プラットフォームに分かれています。1つは、さまざまな地域のパブリック クラウド、情報グループ、地域リソースを統合する分散型クラウド ネイティブ プラットフォームです。もう 1 つは、さまざまな種類のストレージ サービスを備えたオフラインのリアルタイム コンピューティング プラットフォームです。ビッグデータアクセラレーションテクノロジーにより、さまざまなデータをリンクし、さまざまな上位レベルのコンピューティングタイプに統一されたビューを提供し、上位レベルのシステムを簡素化します。 ただし、このアーキテクチャでは、依然として 2 つのコンピューティング タイプまたはシステムの構造が提示されます。リソースの利用をより効率的にするにはどうすればよいでしょうか?この問題を解決するために、ByteDance は次の 2 つの戦略を採用しました。1つはクラウドネイティブのオフライン スケジューリングである Serverless Yarn です。これは、さまざまなオープン ソースのオフライン スケジューリング ツールに簡単に適応でき、業務を変更することなくオンラインの統合リソース管理に接続できます。このようにして、オフライン リソースとオンライン リソースが正常に統合され、一緒に運用されます。 2 つ目は、オフラインとオンラインのハイブリッド スケジューラである Katalyst です。これは、オフラインとオンラインの違いを認識し、クラウド ネイティブのスケジューリング機能を向上させ、全体的なリソース使用率を向上させることができます。さらに、運用中のリソースの使用を正確に制御してビジネスの堅牢性を確保できるクラウドネイティブのリソース管理ツールであるオフライン リソース マネージャーがあります。 運用と保守の展開およびオフラインリソース管理の複雑さを軽減さらに詳しく見てみると、分散型クラウド ネイティブ プラットフォームは、オンライン ビジネスをサポートするために次の機能を提供します。 1. 統合リソース管理機能。これには、複数のクラスターを管理する機能が含まれます。複数の地域や複数のインフラストラクチャにあるクラスターを接続し、複数のクラウド上の既存のビジネス クラスターをシームレスに引き継ぐことができ、リソース監視を統合する機能があり、統合された制御チェーンとインターフェイスを通じてリソースの管理とスケジュール設定を容易にします。 2. 統合アプリケーション管理。統合アプリケーション配布機能により、ユーザー戦略、クラスターの特性、ビジネス レベル、依存関係に基づいて多様な配布戦略を実装できるため、企業は基礎となる詳細について心配する必要がありません。さらに、異なるクラウド上のクラスターを接続するには、既存のエコシステムとの完全な互換性も必要です。履歴レベルとビジネス レベルで互換性がない場合、アクセス プロセス中に問題が発生します。そのため、アプリケーションシステムを引き継いだ後は、より強力な運用、保守、ガバナンス機能を提供する必要があります。 3. 統合アプリケーション監視: クラスター レベルでさまざまなシステムを統合的に収集することで、より強力な認識を実現できます。問題が発生した場合は、クラスター自体の自己回復機能に加えて、インテリジェントな手段を使用して、運用および保守担当者がタイムリーに問題に対処できるようにすることができます。 4. 統一されたガバナンス。地域の安定性の問題を解決するために、当社は、統合された認証管理、サービス追跡、トラフィック管理などの機能も提供しており、これによりリソースを柔軟に割り当てて、ビジネスの安定した運営を確保できます。 さらに、統合リソース レイクは、オフラインのコンピューティング パワー プラットフォームになる傾向があります。私たちはデータの使用に関してレイヤーごとの統合を行ってきましたが、マルチクラウド環境で企業がデータを詳細に使用する場合、そのデータの 90% 以上が相互に関連していることがわかりました。これは、単一のビジネス レベルでのユニット展開にとって大きな課題となります。ビジネスでは、リソースをどのように配置し、対応する関係をどのように処理するかについて正確な答えを出すことができません。この問題を解決するために、多くのソリューションではオフラインのコンピューティング パワーを接続しますが、これにより、複数のコンピュータ ルーム レベルでのコンピューティング パワーのスケジュール設定やリモート ストレージの取得に課題が生じ、専用回線が制限なく使用されることにもなります。 ByteDance は社内でリソース レイク アプローチを採用しています。データ駆動型のコンセプトと技術ツールを通じて、インテリジェントな認識を実現し、必要に応じて事前にリソースを再配置することもできます。たとえば、コンピュータルーム A のリソースをコンピュータルーム B に移動することで、業務を迅速に加速できます。これらの移転アクションはすべて自動化されており、リソース レイクとクラウドネイティブのローカル コンピューティング テクノロジーを通じて実行されます。この方法により、オフライン コンピューティング速度が1.3 ~ 1.4倍向上し、帯域幅が30% ~ 60%節約されます。 さらに、もう 1 つの非常に重要な機能は、オフライン帯域幅のスケジュール設定です。オフライン帯域幅は限られているため、スケジュール設定されていない場合は、ビジネスの安定性に影響します。これは、オフライン コンピューティング プラットフォームがビジネスおよび上位レベルのコンピューティング エンジンにもたらす利点です。リソースレイクを介した統合管理と、ServerlessYARN によるクラウドネイティブの問題を解決することで、オフライン コンピューティング プラットフォームの効率的な運用を実現できます。 リソース利用率の向上によるコスト削減オフラインの問題を解決する効果的な方法は分離です。では、どうすればより良く、より正確に分離できるのでしょうか?これは大きな課題です。 ByteDance では、遅延感度とビジネスの違いに基づいてタスクを 2 つの次元に分割し、階層的なジョブ管理を実現します。 CPU、IO、ネットワークに応じて、経験的なもの、ビジネス向けに構成されたもの、機械学習によって生成された適応モデルなど、さまざまな分離ソリューションが選択されます。対応する業務に分離対策を正確に適用することで、オフラインとオンラインの完璧な組み合わせが実現され、オンラインの安定性に影響を与えることなくリソースを最大限に活用できます。これがByteDanceのやり方です。 現在、数十万台のサーバーのオフラインコロケーションの標準化を実現しました。このテクノロジーは、マルチクラウドおよびマルチクラスター環境に多くの利点をもたらします。しかし、このプロセスを実現するのは簡単ではなく、多くの経験と技術開発が必要です。 技術的な難易度と実装の難しさに基づいて、通常の状況で使用できるいくつかの方法をまとめました。まず、アプリケーション ポートレートの観点で、アプリケーションの特性と要件を分析できます。 2つ目は、無駄やリソース不足を回避できる仕様のインテリジェントな推奨です。 3つ目は、ビジネス変動に応じて調整できるピークとローピークの割り当てです。 4つ目は、緊急事態に対処できるオンラインおよびオフラインの活動機能です。これらのリソース効率機能はアトミック機能であり、アプリケーションで任意の組み合わせで使用して、リソース使用コストを削減できます。 マルチクラウドの未来ByteDanceの開発の歴史を振り返った後、マルチクラウドレベルでの今後の動向を見てみましょう。次のような面で変化があることがわかりました。まず、AI 技術の発展に伴い、GPU や FPGA などの特殊なアーキテクチャを備えたコンピューティング パワーが登場し、これらのコンピューティング パワーの管理に新たな課題が生じています。これは、マルチクラウド レベルで考慮し、対処する必要がある問題です。第二に、これらのコンピューティング能力をさまざまなビジネスにさらに正確に適合させる方法も課題です。コンピューティングパワーの効率とビジネスとの一致について、より正確な認識を持つ必要があります。 3 番目に、クラウドや地域によってコストが異なるため、この部分に注意する必要があります。 4 番目に、ビジネスによってレイテンシーの要件が異なるため、ビジネス エクスペリエンスに注意する必要があります。これらすべてにより、将来の開発では、分散クラウドとマルチクラウド レベル全体で、より正確な適応型でインテリジェントな認識機能が必要になります。これは、リソースとスケジュールの面で現れている傾向です。 さらに、ByteDance のデータコンプライアンス手法や、よりインテリジェントな手法もいくつか紹介しました。近年、フェデレーテッド ラーニングやデータ セキュリティなどのプライバシー強化コンピューティングにより、データ交換ではなく、クラウドやユーザー間でのデータのやり取りやコンピューティングが可能になりました。これにより、データ漏洩を防ぎ、コンプライアンスとセキュリティが向上します。 最後に、マルチクラウドの必然的なトレンドにより、管理、使用、運用にさらなる課題がもたらされるでしょう。アプリケーション レベル全体が必然的にマルチクラウドへと移行します。メーカーとユーザーは、エクスペリエンスと効率を向上させるために、より強力なマルチクラウド プラットフォームを必要としています。相互接続とマルチクラウドコラボレーションを実現するには、このようなプラットフォームはオープンかつ標準化されている必要があります。 |
<<: Kubernetes におけるサービス登録と検出の原則の分析
>>: クラウド移行に関する注意事項 | ByteDance のマルチクラウドの進化とコスト削減の実践を理解するための図
2018年1月、ZJIの香港葵湾データセンターの香港サーバー2機種が40%割引で提供され、日本CN2...
ソリューションの効率を最大化し、コストを削減するにはどうすればよいでしょうか?最適化されたアーキテク...
SEOビデオ マーケティングは、潜在的な視聴者が誰であるかを把握することから始まります。テキスト、音...
Google は本日、金融機関が Google Cloud プラットフォーム上で SWIFT SC ...
2019 年が終わりに近づき、2020 年は新たな旅の始まりです。振り返ってみると、エンタープライズ...
rytechhosting. は、トラフィック量の多いユーザーに適した、コスト効率に優れた 2 つの...
dwidc(大王データ、「中華人民共和国付加価値通信事業許可証」番号:クラウドライセンス/IDC/I...
月給5,000~50,000のこれらのプロジェクトはあなたの将来ですもう月末です。今月の収入は変わり...
Ddos-Guard について、簡単に背景を説明しましょう。2011 年にウクライナで 2 人のロシ...
yourlasthost は、ロサンゼルスとジャック ウィルソンの KVM 仮想 VPS を宣伝して...
Spartanhostはどうですか? Spartan VPS はいかがでしょうか?多くの転売屋が S...
私たちはますますつながりが深まる世界に住んでいます。人類の歴史上、これほど簡単に情報にアクセスできる...
[[344264]]中国人民銀行が発表した「金融技術(フィンテック)発展計画(2019~2021年)...
2006年にGoogleがクラウドコンピューティングを提唱して以来、クラウドコンピューティングは12...
11月24日、第9回CDCCデータセンター標準サミットにおいて、Tencent Cloudは新しくア...