クラウドに乗って未来へ | ByteDanceのクラウドベースのインフラストラクチャの実践

クラウドに乗って未来へ | ByteDanceのクラウドベースのインフラストラクチャの実践

デジタル経済の時代において、クラウドコンピューティングは企業のデジタル変革を推進する重要な原動力となっています。ビジネス効率の向上と運用コストの削減のためにクラウド コンピューティングを導入する企業が増えています。ただし、クラウド コンピューティングには、クラウド サービスの選択、コスト、セキュリティ、可用性、スケーラビリティなど、多くの課題や困難も存在します。クラウド時代において、高性能、低コスト、安​​全かつ信頼性の高いテクノロジー システムをどのように構築するかは、多くの企業や開発者にとって重要な関心事です。

11月10日から24日まで開催されたVolcano Engineパブリッククラウドシティ共有カンファレンスで、Volcano Engineは「ByteDanceのインフラクラウド化実践」をテーマに、ByteDanceのインフラ技術システムと大規模な実践、およびByteDanceとVolcano Engineの「内外一体」の研究開発システムを紹介し、ByteDanceのクラウドネイティブ分野における探求と革新を実証しました。これらの技術システムは、ByteDance の膨大な社内業務とピーク時のトラフィックをサポートするだけでなく、外部の顧客やパートナーにクラウド サービス機能を提供し、クラウド時代の恩恵を共有できるようにします。

以下はスピーチの記録です。

バイトダンスのインフラ技術システム

ByteDance はクラウドで生まれ育ちました。当社はクラウドネイティブ企業であり、クラウド時代のネイティブ企業です。 ByteDance は 2012 年の設立以来、常にクラウド コンピューティングを採用してきました。なぜ ByteDance はクラウド時代のネイティブと見なされるのでしょうか? ByteDanceはさまざまなクラウドサービスを広く利用しているからです。

ByteDance は、マルチクラウドは企業の柔軟性、自律性、効率性を高めることができるため、避けられないトレンドであると考えています。クラウドサービスってそんなに高いんじゃないの?と疑問に思う人もいるかもしれません。実際、スタートアップ企業であれば、クラウドサービスのコストだけでなく、自社でサーバーを購入して維持するためのコスト、システム管理者の採用やトレーニングへの投資も考慮する必要があります。対照的に、クラウド サービスは多くの時間とコストを節約できます。マウスをクリックするだけで、クラウド上で必要なリソースを入手できます。さらに、資本チェーンの問題を心配する必要もありません。オンデマンドで支払いができ、ビジネスの変化に応じていつでもリソースの規模を調整できます。これらは Volcano Engine が提供できるサービスです。

写真

ByteDance のインフラストラクチャ技術システムは、過去 10 年間の事業発展を通じて徐々に構築され、改善されてきました。システム、ストレージ、データベースなどの最も基本的なインフラストラクチャから、クラウド サーバー、クラウド ストレージ、クラウド データベース、クラウド ネイティブ コンピューティングなどの高度なサービス、さらに R&D システムのあらゆる側面をカバーします。 ByteDance のインフラストラクチャ技術システムは、リアルタイム推奨やリアルタイム計算などの機能を備えており、膨大なビジネストラフィックとピーク時の圧力に対応できます。その中で、プールストレージByteStoreと統合リソーススケジューリングGodelはByteDanceのコアテクノロジーです。 Volcano Engineと組み合わせることで、ビジネスを意識し、リソースを統合し、テクノロジーを統合した「内外一体型」のR&Dシステムが形成され、ByteDanceの内外のビジネス開発をより良くサポートします。

ByteDanceのコアインフラ技術システム - プールストレージByteStore

写真

Volcano Engine のコア技術は、ByteStore に基づくプール ストレージです。このストレージの利点は、基盤となるストレージ メカニズムを提供し、上位層が独自のニーズに応じてストレージ戦略を設計できることです。 ByteStore をベースに、データベース、ファイルシステム、オブジェクトストレージなど、さまざまなアプリケーションを実装し、1 か所に保存できます。 Volcano Engine を設計した当初の目的は、このような基盤となるストレージ インフラストラクチャを通じて、パフォーマンス、コスト、セキュリティなどのさまざまな要件を満たすことです。

もちろん、これは簡単なことではありません。 Volcano Engine は、多くの業界の慣行やオープンソース ソリューションも参照しましたが、それらはすべて、スケジュールの問題、フォールト トレランスの問題、一貫性の問題など、さまざまな問題があることがわかりました。これらの問題は、オープンソース ソリューションではうまく解決できません。 Volcano Engine へのすべての投資と改善は、システムの可用性を向上させ、システムの安定した実行を可能にし、ByteDance のさまざまなビジネスをサポートし、幅広いユーザーにサービスを提供することを目的としています。基盤となるストレージ構造と上位層の整合性プロトコルはどちらも実際には非常に複雑です。大規模システムのテストがなければ、ビジネスニーズを満たすことはできません。

プールストレージByteStoreテクノロジーの開発の歴史も非常に驚くべきものです。 2018年より研究開発プロジェクトを開始し、2020年までにシステムにはサーバーが26台、PD使用スペースが2,000以上になりました。しかし、事業の成長に伴い、規模も急速に拡大しました。 2023年8月までに、オンラインサーバーの数は約10万台に達しました。これは、ByteDance のビジネスがもたらすプレッシャーと課題であると同時に、Volcano Engine テクノロジーの成熟の原動力でもあります。 Volcano Engine や ByteDance のインフラストラクチャがその価値と利点を発揮できるのは、ByteDance の大規模なビジネスとピーク時のトラフィックがあるからこそです。

ByteDanceのコアインフラ技術システム - 統合リソーススケジューリングGodel

写真

Godel は、ByteStore ストレージ アーキテクチャに基づくリソース スケジューリング システムであり、オフラインとオンラインのハイブリッド スケジューリングを実現し、大規模なビジネスとコンピューティング パワーの要件をサポートします。 Godel の設計は、Google の Borg などの業界の先進的な経験を参考にしていますが、K8S の可用性やスケーラビリティなど、オープンソース ソリューションの多くの制限も克服しています。

Godel の重要な機能は、オフライン タスクとオンライン タスクを相互に影響を与えることなく同時にスケジュールできることです。これは非常に難しい問題であり、多くの企業が試みましたが、満足のいく結果は得られませんでした。ゲーデルは完全な動的リソース スケジューリングを実現できます。ビジネスの過去の状況と予測に基づいて、30 分以内にグループのコンピューティング能力を 100 万増加させたり、日中に最小限に圧縮したりして、真の弾力性を実現します。

Godel のもう 1 つの利点は、Volcano Engine とシームレスに接続して、ByteDance の内外のビジネス開発をより適切にサポートできることです。 ByteDance には数百万台のサーバーがあります。日中に大規模なコンピューティングが必要ない場合は、これらのリソースを弾力性のあるリソースとして顧客に提供できます。このようにして、顧客はコストの削減、パフォーマンスの向上、そしてより良いエクスペリエンスを享受できます。もちろん、リソースの割り当て、最適化、分離など、まだ多くの課題が残っています。これらはゲーデルが引き続き探求し解決する必要がある問題です。

ByteDanceのコアインフラ技術システム - リアルタイム推奨機能とリアルタイムコンピューティングスケール

ByteDance は、コンピューター分野で多くの探求と実践を経て、今日のテクノロジー システムと機能を形成するまでに多くの回り道をしてきました。その中でも、リアルタイムレコメンデーション機能は代表的なものと言えます。これはByteDanceの中核事業の一つであり、Volcano Engineの重要な応用シナリオの一つです。リアルタイム推奨機能は、データの収集、処理、分析、特徴抽出、保存、サービスをカバーする完全なラベリング システムです。ユーザーの行動や好みに基づいて、最も適切なコンテンツをリアルタイムで推奨できます。

リアルタイム推奨機能は、膨大な量のデータと計算能力によってサポートされています。リアルタイム推奨機能によって生成されるリアルタイム コンピューティングの規模は非常に大きく、100,000 台を超えるサーバー、20,000 個の CheckPoint ジョブ、60,000 個を超える Flink ジョブ、900 万個を超える Flink ジョブ CPU、および 120 億を超えるメッセージ処理ピークに達します。これらはすべて ByteDance のネイティブ インフラストラクチャ上で実行されており、リアルタイム コンピューティングのスケール機能を反映しています。

バイトダンスの大規模インフラ実践

写真

ByteDance の大規模なクラウド移行の実践も非常に「苦痛」であり、完全にロスのないクラウド ソリューションを見つけることは基本的に困難です。しかし、私たちにできることは、クラウド移行プロセス中のビジネスへの混乱を最小限に抑え、プロセスを可能な限りシームレスにすることです。クラウドコンピューティングの必要性とは何でしょうか?クラウドには 3 つの基本的な要件があります。

  • 1 つ目は高可用性です。簡単に言えば、動的なスケジューリング機能、災害復旧機能、複数のコンピュータ ルームのトラフィック切り替えなどが含まれます。
  • 2つ目はリソースとコストです。これは通常、クラウドに移行するときに最初に考慮すべき事項です。現在の環境ではリソースが不足しており、急速なビジネス展開のニーズを満たすことができません。リソースの問題は、ビジネス開発と技術アーキテクチャの進化における主なボトルネックの 1 つになっています。ピーク時のリソース使用率に対処するには、より多くのリソースをスタックする必要があり、残りの時間はアイドル状態になるため、ビジネス コストが高くなります。
  • 3つ目は、R&D経験の要件です。企業に求められる協力と変革の量を減らし、クラウド リソースへの適応をより迅速に行うよう努めるべきです。そのため、クラウド コンピューティングの初日から、Volcano Engine のすべてのクラウド製品は「私の顧客にならないでください」という原則を順守しており、これは、当社が提供するすべての機能が標準的かつ普遍的であることを意味します。たとえば、MySQL データベースは標準の MySQL データベースです。 Volcano Engine 公式サイトからダウンロードした MySQL は、ByteDance で使用されているものと同じです。

では、なぜクラウドに移行するのでしょうか?まず、ビジネスコストを削減します。クラウドに移行することで、人的リソースを最適化し、R&D 部門が基本的な運用やアーキテクチャではなくビジネス革新に集中できるようになります。 IT コスト削減の鍵は、リソースの動的かつ柔軟な割り当てを実現し、ビジネスコストの圧力を軽減し、リソースの使用率を向上させることです。第二に、業務効率を向上します。従来のデータベースの使用率は一般的に 10% を超えてはなりませんが、スケジューリング プラットフォームのサポートにより、ビジネスに影響を与えることなくクラウド上のデータベースの使用率を非常に高くすることができます。さらに、各コンポーネントは非常に複雑です。中規模企業には、データベース、オペレーティング システム、IDC リソース、ミドルウェア、さまざまなスケジューリング プラットフォームが含まれます。人間の能力には限界があります。したがって、クラウド サービス プロバイダーは、統合管理を実現し、互換性と反復戦略を簡素化する必要があります。

クラウドに移行することでどのような問題を解決できますか?クラウドに移行した後は、すべてのサービスが Volcano Engine によって提供されるようになります。 Volcano Engine は標準的なパブリック クラウド IaaS および PaaS コンポーネントを提供し、リソース量と SLA を保証します。毎日のピークトラフィックには弾力性のあるクラウドリソースが使用されるため、アイドル時間に対して料金を支払う必要はありません。アカウント間の強力なリソース分離と、Volcano Engine のリソース スケジューリング機能により競合が排除されます。

通常、企業には、リリース後まで待つのではなく、移行プロセス中にトラフィックを再生して、事前に問題を発見して解決することをお勧めします。しかし、十分な準備をしたにもかかわらず、オフクラウドからオンクラウドへの切り替え中に、予期せぬ問題が数多く発生しました。たとえば、ストレージ コンポーネントの障害、ビジネス監視の低下、クラウド同期コンポーネントのバグなどです。私たちの目標は、完璧な Volcano Engine を紹介することではなく、基本的なビジネス機能を提供し、拘束力のないオープンなインターフェースとビジネスとともに成長することを約束する、十分に優れたシステムを提供することです。

クラウド コンピューティングの短期的なメリットは明らかであり、主に次の 3 つの側面に反映されています。

  • ビジネスの安定性: Volcano Engine のビジネス アーキテクチャ設計により、単一障害点のリスクが回避され、システムの信頼性と可用性が向上します。同時に、Volcano Engine のアフターセールス保証システムにより、よりタイムリーなサポートと迅速な対応が提供されます。
  • R&D エクスペリエンス: Volcano Engine のオープン ソース コンポーネントは、オフラインのものと同じインターフェイスと機能を維持しているため、R&D 担当者は追加の調整やカスタマイズを行わずに、柔軟なリソース割り当てとクラウド上の安定した信頼性の高いオープン ソース環境を利用できます。
  • パフォーマンス上の利点: クラウド リソースは十分かつ分離されており、コンテナ プラットフォームとスケジューリング システムにより、ビジネス間の効率的なコラボレーションが保証され、障害の可能性が低減されます。ポッドの安定性が向上し、単一インスタンスの問題が大幅に減少します。

写真

長期的な利益は予測可能です。インフラストラクチャの観点から見ると、主に次の 3 つの側面に反映されます。

  • R&D はビジネスに重点を置きます。クラウド コンポーネントは迅速に反復され、オフラインの「孤立した製品」やバージョンの不整合がなくなるため、R&D 担当者は常に最新のテクノロジと機能を使用できます。クラウド コンポーネントは運用やメンテナンスが不要なため、R&D 担当者は基盤となるコンポーネントやインフラストラクチャについて心配する必要がなく、ビジネス開発やイノベーションに集中できます。
  • クラウド上の安定性の向上: クラウド製品は非常に優れた高可用性保証を提供し、単一のコンピュータ ルームであるか複数のコンピュータ ルームであるかに関係なく、柔軟なフェールオーバーとリカバリを実現できます。クラウドは、テナント レベルの管理、より優れた分離、より柔軟なリソース スケジューリングを提供します。クラウド製品はきめ細かな運用・保守を実現し、個々のコンテナを監視、デバッグ、最適化できるため、運用・保守の効率と品質が向上します。
  • 長期的な総コスト削減: クラウド上の弾力的なリソース、コンポーネント機能、運用保守保証システムにより、総コストを約 20% 削減できます。

写真

ByteDance と Volcano Engine「内と外の一体感」

Byte Cloud と Volcano Engine はどちらも ByteDance のネイティブ インフラストラクチャとテクノロジー システムをベースとしており、社内外のビジネスにクラウド サービスとクラウド機能を提供します。 Byte Cloud は、複数のクラウド プラットフォームを統合するインフラストラクチャ レイヤーであり、企業がさまざまなクラウド リソースをシームレスに切り替えて使用できるようにすることで、真のマルチクラウドを実現します。 Volcano Engine は、ByteDance が蓄積した技術とベストプラクティスを輸出し、より多くの顧客やパートナーと共有することで、彼らもクラウド時代の恩恵を受けられるようにしたいと考えています。 Volcano Engine は、オープン性、共生、Win-Win の概念を堅持し、すべての顧客がクラウド時代のネイティブ居住者になることを願っています。テクノロジー システムをクラウド ネイティブな方法で再構築し、マルチクラウド管理機能を通じて企業が弾力性、効率性、安全性に優れたクラウド サービスを利用できるようにすることで、真のクラウド ネイティブを実現します。

写真

ByteDanceのR&Dシステムは、コンテナサービスVKEやECSなどのさまざまなリソースを統合し、ビジネスのシームレスな切り替えを実現できる社内PaaSプラットフォームを構築しています。 Volcano Engine は、ByteDance のインフラストラクチャに基づいて開発されたクラウド サービスです。これは ByteDance のテクノロジー システムと完全に一致しており、ユーザーにクラウド上のベスト プラクティスを提供できます。私たちの目標は、Volcano Engine インターフェースを通じてさまざまな機能を実現する統合テクノロジー スタックを構築することです。自社内外を問わずあらゆるビジネスに対応し、CPU 制限のある膨大な機能をいつでも提供できるようにしたいと考えています。

Volcano Engine の見解では、クラウド ネイティブはまだ始まったばかりの道であり、探求と革新の余地がまだたくさんあります。多くの企業は、クラウドの特性と利点を十分に活用せずに、従来のインフラストラクチャを単にクラウドに移行しているため、非効率性と高コストという問題が発生しています。 Volcano Engine は、独自のテクノロジーとプラットフォームを通じてクラウド ネイティブの開発をリードし、推進することで、企業がクラウド ネイティブな方法で独自のアーキテクチャとサービスを再考し、構築できるようにしたいと考えています。同時に、顧客やパートナーとともにクラウドネイティブの道を歩み、未来を共に模索し創造していきたいと考えています。

<<:  Spring Cloud Function の SpEL インジェクション脆弱性 (CVE-2022-22963) の分析

>>:  クラウド移行に関する注意事項 | ByteDance のクラウド インフラストラクチャの実践を理解するための図

推薦する

友情リンクの核心はウェブサイト交換リンクと相互リンクにある

ほとんどのウェブマスターは、自分のサイトでリンク交換のプロセスを経験したことがあると思います。また、...

リンク構築における「ワンショット対ワンショット」の状況を回避する方法

多くのウェブマスターは、外部リンクの構築は大変な仕事だと感じているため、極端な方法を採用しています。...

阿倍豆班氏との対話:ユーザー価値の外部性を見つける

豆板創始者阿倍氏(右) Doubanの創設者Abeiは、Geek Park Innovation C...

iPhone 12はまだ発表されていない。Appleはどうやってユーザーを引き留めるのだろうか?

9月16日午前1時、クック氏は時間通りにスクリーンに登場し、アップルの秋季カンファレンスを開幕した。...

オウルクラウド:米国セラデータセンター+CUVIPライン+弾力性のあるカスタマイズクラウドサーバー、10G防御、20%割引、月額19元から

Oulu Cloudは、米国ロサンゼルスのceraデータセンターにクラウドサーバーを新設しました。こ...

「生理休暇」事件から学ぶアプリイベントマーケティングのやり方

最近、微博では「生理休暇」の話題が非常に人気となっている。この事件の発端は、厦門のインターネット企業...

Huawei Cloud はどのようにして「専門的、特化的、革新的な」企業を支援するのでしょうか?イシンダが答える

技術革新の中心都市である広東省深センには、革新的な産業が集中しているエリアが数多くあります。これらの...

調査:クラウドコンピューティング支出は若干減少した後、再び増加

世界のクラウドインフラ支出は2021年第3四半期に再び増加に転じ、パンデミックによる支出急増以来初の...

草の根ウェブマスターが秘密を明かす - SEO をゼロから学ぶ方法

インターネットの普及と発展により、ウェブマスターはウェブサイトプログラムをダウンロードするだけで簡単...

どのような状況でウェブサイトを修正できますか?

どのような状況でウェブサイトを改訂できるのでしょうか? これは多くのウェブマスターやウェブマスターが...

ジュメイ・ユーピンの成功の経営哲学に関する詳細な議論

1日の売上高は5億元に達し、注文数は200万件を超え、ピーク時には1秒あたり1,000件を超える注文...

ローカルオンライン旅行ウェブサイトのユーザー定着率の秘密

インターネットで最も人気のある旅行ウェブサイトのほとんどが、ホテル、チケット、サービスなどの補助的な...