課題 アリババの「双十一」は世界的なスーパープロジェクトとなった。このスーパープロジェクトでは、フルリンクストレステストが非常に重要なリンクです。グループ レベルでのフルリンク ストレス テストには、多くの BU とチームが関与します。このように複数のチーム間で連携する案件では、フルリンクストレステストの人員投入と回数を最小限に抑えながら、ストレステストの目的を確実に達成することが、克服しなければならない課題となっています。 同グループのフルリンクストレステストは、主にトランザクションとショッピングガイドの2つの部分から構成されています。トランザクションの完全なチェーンは比較的早い段階で開始されました。数年にわたる開発を経て、関連するプラットフォーム、ツール、プロセスは比較的成熟し、比較的安定したシステムを形成しました。ショッピングガイド事業のフルリンクストレステストは、ショッピングガイド事業の特殊性によるものです。たとえば、入ってくるトラフィックには不確実性が多く、システム間の呼び出しは複雑で、ショッピングガイド業務では日常の状態と大規模なプロモーションの状態の間に明らかな違いがあります。 上記は、抽象化後のショッピングガイドのフルリンクストレステストモデルです。実際のモデルは、次の図に示すように、分散化されたエントリ ポイントとシステム間の相互依存関係を備え、より複雑になります。 また、ショッピングガイドのフルリンクストレステストは2016年に開始されたばかりで、まだシステム化されていません。こうした問題や課題に対応するため、2017年にワンストップのフルリンク管理プラットフォームを構築しました。上記の問題は克服され、良好な結果が達成されました。 2017年にショッピングガイドのフルリンクストレステストを開始する前に、まずはショッピングガイドのフルリンクストレステストが過去に経験した問題を確認しました。 1. ストレステストの人的資源消費がますます制御不能になってきています。全リンクストレステストショッピングガイドの人員消費量は150人、ダブルイレブンデーには1,000人です。人員削減が差し迫った課題に 2. アプリケーションが多く、入口が分散している。トラフィック モデルは、ストレス テストごとに調整する必要があります。頻繁な調整は決算業務の安定性に大きなプレッシャーを与えます。 3. 過去の参考データはありません。新しいグループに人が入れ替わると、多くの歴史的経験が蓄積されず、人材の大きな無駄が生じる。 4. アップストリームおよびダウンストリームトラフィックの手動収集と制御、およびショッピングガイドシナリオ間のメッシュコールにより、長期的なトラフィック評価に大きなエラーが発生していました。 5. ストレステストのパフォーマンスプロセス制御がありません。 R&D 担当者がパフォーマンスの問題を抱えている場合、最初の対応はマシンを要求することです。 これらの問題に対処するために、ワンストップのフルリンク ストレス テスト プラットフォームを構築しました。プラットフォームのコア機能としては、ストレステストの構築、ストレステストの実行(部分監視)、問題の分析、位置付けなどがあります。 ストレステストの構造 ショッピング ガイドのフルリンク ストレス テストのストレス テスト要件の構築は非常に重要なリンクであり、ストレス テスト結果の精度に大きな影響を与え、かなりの作業も必要とします。 2017 年、当社はストレス テスト構築において以下の豊富な機能を提供しました。 (1)データファクトリー:ストレステストデータの高速構築を提供し、複数のタイプと柔軟なパラメータ構築ルールをサポートし、関連システム間でストレステストデータを共有できるため、ストレステストデータの準備作業負荷が軽減され、ストレステストデータの精度が向上します。 (2)ストレステストのトラフィックモデルと要件:ショッピングガイドトラフィックには複数のユニット入口があり、入口トラフィックは不確実であるため、ストレステスト要件の構築に一定の影響を与えます。 2017 年に、ストレス テスト トラフィック モデルを構築しました。これに基づいて、ストレステスト要件をワンクリックで直接構築できるようになり、要件内のリンク間でのストレステストデータの一括更新、マージ、レプリケーション、共有がサポートされるため、ストレステスト要件の構築作業負荷が大幅に軽減されます。 交通モデルのソート システム間の相互呼び出しやシステムトラフィック間の複雑な接続など、リンクシナリオは 1,000 近くあり、コアシステムのビジネス評価に大きな課題が生じています。トラフィック モデルを評価する際には、省略が発生しやすく、評価の偏りが生じやすくなります。 OPM はオンライン トラフィックをリアルタイムで記録し、トラフィック コール比率チャート (上図参照) を生成できます。入口トラフィックが決定されると、ユーザーは全体のトラフィックを整理し、トラフィックの並べ替えに役立つようになります。 これを基に、ショッピングガイドのフルリンクストレステストにグローバルな視点を加え、以下の機能を提供することでフルリンクストレステストの統合を実現しました。 1. タスク制御: ストレス テスト要件、ストレス テスト リンク、トラフィック モデルなど、ショッピング ガイドのフルリンク ストレス テストのすべてのアプリケーション リンクを制御し、グローバル トラフィック ビューを提供できます。ショッピングガイドのフルリンクストレステストの全体像をリアルタイムでご覧いただけます。ストレステスト全体の可視化を実現 2. 進捗と変更管理:eBay との連携により、フルリンク ストレス テストの時間進捗、ストレス テストの変更などを管理し、ストレス テスト プロセス全体が秩序正しく進行するようにします。 ストレステストを実行すると ショッピングガイドのフルリンクストレステストには、入口トラフィックが正しいかどうか、各ユニットのトラフィック比率が正しいかどうか、ユニット間の呼び出しがあるかどうか、実際のストレステストトラフィックがプリセット値と一致しているかどうかなど、多くのアプリケーションと注意すべきポイントが関係しており、既存の監視だけでは不十分です。この目的のため、2017 年にはストレス テスト実行中のグローバル モニタリングに取り組みました。グループ監視によって実装される機能に加えて、OPM は次のグローバル ビューも提供します。 1. ストレステストダッシュボード:入口トラフィック、各ユニットのトラフィック、ストレステストトラフィックと推定値のリアルタイム比較など、ストレステストトラフィックのリアルタイム表示により、ショッピングガイドのトラフィックが期待どおりかどうかをグローバルに監視できます。 2. グローバル システム監視ダッシュボード: システム指標 (CPU、負荷、ネットワークなど)、サービス指標 (RT、QPS、タイムアウトなど)、アップストリームおよびダウンストリームのコール量などにより、リンク全体でどのアプリケーションがパフォーマンスのボトルネックになっているかを直感的に特定できます。 3. 運用・保守状況ダッシュボード:システム監視、業務監視、緊急時対応計画、フロー制御。 OPM は、ストレス テスト中のリアルタイム表示に加えて、プラットフォーム内に保持され、再分析および表示できるスナップショット機能も提供します。 分析とポジショニング OPM は、グループ内のさまざまな監視プラットフォームを統合することにより、パフォーマンスの問題を分析および特定するための基盤を構築します。 1. 変更分析: フルリンク ストレス テストのパフォーマンスに問題が発生した場合、まずストレス テストの時点に戻って、その時点でどのような変更が実行されたかを把握する必要があります。どのような構成がプッシュされましたか?当時のパフォーマンススナップショットはどうでしたか? OPM はリアルタイム スナップショット機能を提供します。この機能は、すべての変更をリアルタイムで記録し、その後のパフォーマンス分析にデータ サポートを提供します。システム変更の集計表示により、パフォーマンスの変更とシステム変更の相関関係をすぐに特定できます。 2. パフォーマンス スナップショット: システム パフォーマンスをすばやく確認します。カスタマイズされたパフォーマンス スナップショットの収集と生成により、過去の任意の時点でのシステムの状態を照会および分析することが簡単になります。 2017年の新たな試み - パフォーマンスベースラインの構築 2017 年に、ショッピング ガイドのコア アプリケーションのパフォーマンス ベースラインを構築する計画を開始しました。隔離された環境でベースライン ストレス テストを定期的に実行することで、アプリケーションのパフォーマンスの問題を迅速に発見し、できるだけ早く検出して解決し、主要なプロモーションの前にパフォーマンスの問題が残されるのを防ぎ、システム パフォーマンスのリスクを大幅に軽減できます。 分離された環境 (パフォーマンス ベースラインを重視) 日中のオンライン ビジネスに支障をきたさずに、定期的なクラスター ストレス テストを実行する方法は、パフォーマンス ベースラインでは常に課題となっていました。 OPM は、オンライン クラスター ストレス テストを定期的に実行できるように、分離された環境を提供します。 まず、システムは多数のマシンを自動的に分離します。分離された環境はオンライン システムから論理的に分離されており、ストレス テスト トラフィックは自動的に分離された環境に送信されます。ストレステストが終了すると、隔離されたマシンは自動的にオンライン環境に戻され、ワンクリックで復元できます。 パフォーマンス ベースラインと傾向: 継続的なベースライン ストレス テストとベースライン管理により、アプリケーションのパフォーマンスと変更傾向をグローバルに表示し、ベースライン ストレス テスト中に見つかった問題を追跡して解決できます。アプリケーションのパフォーマンスのボトルネックは、毎日のベースライン ストレス テスト中に検出して解決できるため、大規模なプロモーション中のフルリンク ストレス テスト中にボトルネックを検出する必要がなくなり、システムのリスクが軽減されます。 2017年に私たちは達成しました 1. 人的コスト: 以前は、システムのストレス テストを複数の人が担当していましたが、現在はリンクのストレス テストを 1 人の人が担当できます。 2. ストレステストの準備時間: 各ストレステストに数日間の準備が必要だったのが、フルリンクストレステストをいつでも実施できるようになりました。 3. 不確実性から確実性へ: 下流のビジネスがストレス テスト トラフィックを評価するたびに、情報の収集と不確実性の推測から、システムによって提供されるトラフィック結果の確実性へと移行します。 適用可能なシナリオ 1. 適用可能なストレステストモデル: 分散した入口と統一されたクロージングを備えたストレステストモデル 2. 分離環境とパフォーマンスベースライン:オンラインパフォーマンスストレステストの定期的なサポート 3. 複雑なシステムのトラフィックモデル制御: ストレステストリンクにおける数千のシナリオのトラフィックモデル制御 |
<<: UCloudドバイノードが間もなくオープンし、中国企業が中東に進出するための「架け橋」を築く
>>: Ruiya Technology が FogPOD の新小売ソリューションを発表し、クラウドベースのインテリジェント管理の新時代を切り開く
有料テーマが無料テーマよりも優れている点は何ですか?より美しい外観とより強力な機能ほとんどの無料テー...
Faconhost は最近、ロサンゼルスのデータセンターに新しい VPS シリーズを追加しました。A...
みなさんこんにちは。今日はCool GrassrootsがSNSウェブサイトの運営におけるユーザー所...
個人ブログが流行り出してから6年以上が経ちました。新しい有名ブロガーが台頭してきた一方で、**だらけ...
みなさんこんにちは。私の名前はQu Yuです。私は nofollow タグが特に好きです。以前、大規...
【原文は51CTO.comより】6月26日午後、「デジタルメディア分野におけるクラウド技術の革新と実...
「デジタル経済白書」は、アナリシスがデジタル経済の各業界で培った経験とデータの蓄積を凝縮し、デジ...
360プライベートクラウドコンテナサービスチームと人工知能研究所チームは協力して、クラウドでの機械学...
Google で特定のキーワードを検索すると、ランキング上位の Web サイトがより詳細な形式で表示...
春節も無事に過ぎ、ウェブマスターに贈られるのは春の到来です。多くのウェブマスターも、正月休みの間中、...
Urpad の 72 時間限定の VPS リソースは「言葉では言い表せない」ものです。たとえば、51...
ウェブサイトを構築するときに最も重要なことは何でしょうか? ユーザーです。ユーザーのいないウェブサイ...
プロフェッショナルサービス企業アクセンチュアの新しいレポートによると、クラウド投資には実現されていな...
トラフィックとユーザーの生成は一度きりのことではなく、モバイルで持続的かつ長期的な運用が必要です。な...
DevOps は、開発者と運用担当者の両方にとって非常に重要なシステムとして、2019 年以降も着実...