クラウドに乗って未来へ | ByteDanceの超大規模データベース製品技術の進化

クラウドに乗って未来へ | ByteDanceの超大規模データベース製品技術の進化

データは企業の発展を支える重要な生産要素です。ビジネスシナリオの多様化に伴い、データ量も増加し続けており、多様なデータタイプや複雑なインタラクティブ分析などの課題が生じています。データのリアルタイム性、リソースの弾力性、集中負荷に対するビジネスの要求も高まっています。したがって、適切なデータベース製品は、企業がデータ管理を実現するための最適なツールになります。

11月10日、11月16日、11月24日に開催された「クラウドに乗って未来へ向かう」Volcano Engineパブリッククラウドと都市共有カンファレンスにおいて、Volcano Engineは「ByteDanceの超大規模データベース製品技術進化の道」をテーマに、ByteDanceのビジネスの多様化と大規模化に基づいて、ByteDanceのデータベース製品システムの特徴と技術進化プロセスを分析して、企業のデータ管理の問題を軽減し、データガバナンスの優れた戦略を提供しました。

以下はスピーチの記録です。


ByteDanceの事業開発の歴史とデータベースの課題

ByteDanceのビジネスは過去10年間で急速に成長しました。 2017年の1日あたりのアクティブユーザー数1億人から2019年には4億人、そして2023年には6億人超へと増加し、それに伴って事業の多様化も進みました。Douyin Live、Douyin E-commerce、Feishuなどの事業の急速な発展により、ByteDanceのデータベースも複数世代にわたって進化を遂げています。

2017 年、グループのデータベースのデータ量はわずか 2,000 クラスターで、各クラスターのサイズは通常数十万でした。 2019年までにデータ量は200PB以上に達しました。現在までに、データ量は 2EB に増加し、ピークスループットは 20B 以上に達しています。このような巨大な規模に直面して、Volcano Engine はデータベース技術の進化について考えてきましたが、それは大きく 3 つの段階に分けられます。

第一段階は2015年から2017年までの焼畑農業の石器時代でした。当時は主に業務開発とパートタイムの運用保守に依存しており、オンラインでの運用保守や容量拡張を実行するために徹夜で作業することもよくありました。

第 2 段階は 2018 年から 2020 年まででした。Volcano Engine は、以前のアプローチが持続不可能であると判断したため、マルチカテゴリ データベースの構築を開始しました。 Volcano Engineは、独自のクラウドネイティブデータベースをベースに、分散データベースなどの製品を開発し、社内で幅広く活用されています。さらに、Volcano Engine は、従来の純粋に手動による運用と保守の限界を打ち破り、超大規模クラスターの自動管理を実現するための複数の運用と保守プラットフォームも開発しました。

3番目の段階は2021年から現在までで、ByteDanceはクラウドネイティブの取り組みをさらに進め、その事業規模は数万ライブラリ/数百万インスタンスに達しています。このプロセスにおいて、データベースは技術とアプリケーションにおいてさまざまな課題に直面しました。

1つ目は、事業形態の多様性です。決済サービスや電子商取引サービスなどのさまざまなシナリオのデータベース要件は一貫していません。さまざまなミドルプラットフォームによって生成されるさまざまなデータタイプによって、大量の構造化データと非構造化データの管理、ユーザー間の関係管理など、データベースに対する要件も増えています。

2 番目の課題は、超大規模環境での高可用性です。大規模なビジネスが同時に実行されている場合、データベースが常にオンラインであることを保証する方法は、すべてのアプリケーション開発者が考える問題になりますが、Volcano Engine も例外ではありません。

3 番目の課題は、マルチモード融合負荷です。たとえば、同時実行性に対する要件が非常に高いものの、容量が小さい企業もあります。一方、スループットは低いものの、データ量が多く、分析要件が高い企業もあります。

最後の課題は、リソースの弾力性に対する需要の増加です。周知のとおり、ByteDanceの業務には618や春節祭など、ある程度の「季節性」があり、自動弾力性によって突発的なトラフィックに対応する必要があります。この点で、ビジネスコストを削減し、弾力性を提供することは、データベースにとって非常に重要です。

Volcano Engineの自社開発データベース製品の完全な分析

これまで、企業が単一のデータベースを使用してすべての負荷に対応することは困難でした。そのため、Volcano Engine は課題に対応するために、多様化、拡張化、統合化されたインテリジェントなデータベース製品マトリックスを構築しました。

veDB クラウドネイティブ データベースは、容量の拡張や分割などの一連の問題を解決し、ストレージの共有を実現し、ストレージ コストを大幅に削減できます。同時に、リソースの弾力性は非常に優れています。ビジネスの弾力性の要求を解決した後、リソースを迅速に立ち上げ、コンピューティング能力を削減し、ユーザーコストを削減できます。現在、データセンター企業の 90% 以上が veDB を使用しています。

ビジネスプロセス中に企業が認識していない状況に遭遇した場合、いくつかのプラットフォームを通じて問題を自動的に解決できます。データベースは 3 つの特大コンピュータ ルームに展開できるため、従来の拡張と分割に比べて運用と保守の難易度が 80% 軽減されます。これを基に、Volcano Engine は統合技術を通じて OLTP やメモリなどを統合した HTAP 製品を構築しました。これはユーザーにとって完全に透過的であり、複雑なクエリを直接処理できます。

ドキュメント データベース DocumentDB は、クラウド ネイティブ テクノロジーに基づくマネージド サービスです。従来のデータベースと比較して、このタイプの製品のデータはリアルタイムの一貫性を実現できるため、データがより「新鮮」になります。現在、そのような製品はByteDance内で大規模に使用されています。

Redis ファミリー キャッシュ製品の特徴は、Redis プロトコルとの互換性と優れたパフォーマンスです。製品は内部的にメモリ バージョンとディスク バージョンの 2 つのバージョンに分かれています。ディスク バージョンの容量は数百 TB に達するため、データ移行に関するビジネス上の考慮事項が軽減されます。ゲームや電子商取引など、ByteDance の大規模な社内プラットフォームはすべてこの製品を使用しています。

クロスプラットフォームビジネスでは、クラウドネイティブ クラスターのデータ規模も非常に大きくなります。そのため、Volcano Engine は、支払い/お歳暮などの金融ビジネスで主に使用されている、一貫性の高い KV データベース ByteKV を作成しました。分散トランザクションと CAS 要件をサポートしながら、メタデータのセキュリティを維持できます。

Volcano Engine は 2018 年に自社開発を開始し、2020 年頃に第 1 世代のグラフ データベースを構築しました。その基盤となるレイヤーは分散 KV であり、数兆個のポイント変数をサポートできます。たとえば、Douyin 内の相互注目、推奨関係、友人関係などはすべてグラフ データベースを使用して保存されます。

2022 年、Volcano Engine は次世代の高性能マルチモーダル グラフ データベースを作成しました。システム全体は分散ストレージに基づいており、グラフ データと非グラフ データをまとめてデータ同期を行い、ストレージ コストを削減します。究極のコスト効率、統一されたストレージ形式、および 1 つのデータによる複数の計算のサポートにより、ユーザーにワンストップの分析エクスペリエンスを提供します。

さらに、Volcano Engine は超大規模グラフコンピューティング/グラフ学習機能も構築しました。グラフ コンピューティングは、分散ストレージに直接アクセスしてデータを読み取ることができ、非常に効率的なデータ フローを備えています。前述の通り、HTAPではグラフにデータを渡すことができ、データを使ったグラフ計算や学習をリアルタイムに行うことができます。典型的な適用シナリオは、リスク管理、支払いセキュリティ、ブラック業界、および情報抽出を必要とするその他の操作が多数存在する Douyin 電子商取引です。この機能により、数秒以内にリスクがあるかどうかを照会できるため、ユーザーに安全なエクスペリエンスを提供できます。

「4+1」戦略に注力し、製品を継続的に最適化する

Volcano Engineは将来を見据えて、自社製品に期待をかける「4+1」戦略に重点を置いています。

一つ目は知性です。 AI モデルのネイティブ サポートに基づいて、データベースは大規模な計算能力の向上を実現しました。データベースチームは、技術的な知識のないユーザーでもデータベースを簡単に操作できるように製品のアップグレードも行っています。

2 つ目は、データベースを安全にすることです。時間が経つにつれて、コンプライアンスとセキュリティはますます重要になります。データベース製品は、それ自体のパフォーマンスの向上に加えて、信頼できるデータベースへと変化しています。たとえば、企業オフィスなどのシナリオでは、すべてのフィールドを暗号化する必要があります。 Volcano Engine が行う必要があるのは、データベース プラットフォームのコンプライアンス機能だけでなく、データ セキュリティとプライバシー保護機能も向上させることです。

3つ目はプラットフォーム化です。 Volcano Engine は、自動化された運用と保守、およびマルチクラウド統合展開を継続的に反復およびアップグレードし、製品化された体系的なソリューションを作成します。

4つ目に、エコロジーの面では、Volcano Engineはパートナーと協力して開発者ツールとリソースを充実させ、市場とパートナーシップを積極的に拡大し、データベースエコロジーの構築を共同で改善していきます。

最も重要なことは、Volcano Engine がデータベース カーネルを最適化し続け、コストを真に削減し、効率性を向上させることです。同時に、Volcano Engineの自社開発DPUなどの新しいハードウェアを深く統合し、ハードウェアの配当を継続的に活用し、アプリケーションシナリオの統合とインフラストラクチャレベルでの分離と統合を通じて、水平と垂直の二重統合システムでアプリケーションキャッシュとデータベースを再形成し、ユーザーの成長を支援します。

veDBについて詳しく知るにはQRコードをスキャンしてください

<<:  StackShareからインスピレーションを得て、Linode Marketplaceで便利なツールを見つけましょう

>>:  クラウド移行に関する注意事項 | ByteDanceの超大規模データベース製品技術の進化を理解するための図

推薦する

CIO 向けハイパフォーマンス コンピューティング ワークロードをクラウドに移行するためのガイド

英国気象庁は、従来とは異なるベンダーの従来型スーパーコンピューター、Azure 上の Cray EX...

[Newegg が「クラック」されました] ビッグニュースです! Newegg Decay Apocalypseの独占取材

[iTianxia.com からの注記] 記者との独占インタビューを通じて、私たちは Newegg ...

2018 年のクラウド トレンド: サーバーレス コンピューティング、Kubernetes プラットフォーム、ベンダー寡占

市場調査・分析会社フォレスターのデータによると、パブリッククラウドコンピューティングは、その固有の柔...

VPS 仮想化アーキテクチャ OpenVZ、KVM、Xen、Hyper-V の違い

1. OpenVZ OpenVZ (略して OVZ) は、SWsoft の Virutozzo 仮想...

インターネットトラフィックと有料トラフィックの分析!

少し前に、Pinduoduo は年次財務報告書を発表しました。財務報告によると、ピンドゥオドゥオのマ...

王通氏:タオバオSEO市場には大きな成長の余地がある

2002 年、私は SEO を始めたばかりでした。ある日、有名な IT コミュニティに、SEO は急...

友好的なリンク交換を行うには、なぜサイトをホームページに掲載する必要があるのですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています石家荘馬匯...

1ヶ月でPR2に到達する方法をリアルに共有

最近、ある会社のネットワーク最適化を行いました。この会社のウェブサイトは2012年3月26日に作成さ...

SEOはSEMと切り離せない

はじめに: SEM は検索エンジン マーケティングであり、SEO は検索エンジン最適化です。前者では...

bluehost - $12/年/無制限ホスティング/サイバーマンデー

Bluehost は、サイバーマンデーに 6 時間のクレイジーなプロモーションを実施しています。月額...

企業ウェブサイトの最新ナビゲーションマーク——SEO最適化

数十億のウェブサイトの中で、ユーザーがあなたのウェブサイトをすぐに見つけ、クリックし、閲覧し、取引を...

中国のクラウドコンピューティングの成功

テクノロジー、需要、経済環境の推進により、さまざまなクラウドコンピューティングアプリケーションが普及...

Baidu によってブロックされたウェブサイトを復元する方法

12月26日に、当社のウェブサイトは完全にブロックされ、ホームページやその他のページを含め、1ページ...

CIOはエンタープライズクラウド環境における誤解を認識する必要がある

現在、多くの企業の CIO や上級 IT プロフェッショナルはクラウド コンピューティングの重要性を...