ハッシュ計算に基づく多層実験トラフィックセグメンテーションの実装

ハッシュ計算に基づく多層実験トラフィックセグメンテーションの実装

1. 背景

新しいサイト機能またはサイト内の新しい戦略の開発が完了したら、フルトラフィックを開始する前に、新しい機能または新しい戦略の長所と短所を評価する必要があります。一般的に使用される評価方法は、ABテストです。これは、フルボリュームから2つの小さなトラフィックボリュームをサンプリングします。1つは新しい戦略ブランチを使用し、もう1つは古い戦略ブランチを使用します。2つのトラフィックボリュームでのさまざまな指標の違いを比較することで、新しい戦略の長所と短所を評価し、新しい戦略がフルトラフィック向けかどうかを判断できます。

上記のサンプリングとは、特定のランダム化方法に従ってオンライン トラフィックを分割することを指します。サンプリングとは、この分割方法、または分割によって取得されたトラフィックのサブセットを指す場合があります。サンプリングは、特別なタイプの小規模トラフィックです。トラフィックの分割は均一性とランダム性を確保し、仕様を満たさない部分を必要に応じてフィルタリングする必要があります。サンプリングプロセスは、トラフィックセグメンテーションとトラフィックスクリーニングの2つのステップに分けられます。トラフィックセグメンテーションとは、トラフィック全体を均等に分割し、トラフィックの一定の割合を抽出することです。トラフィックスクリーニングは、トラフィックセグメンテーションの補助です。スクリーニングプロセスは、セグメント化されたトラフィックから仕様を満たさない部分をフィルタリングすることです。この記事では、主にトラフィックセグメンテーションの実装について説明します。

2. 単層トラフィック分割アーキテクチャ

トラフィック セグメンテーションを実現する一般的な方法は、単層トラフィック セグメンテーションです。トラフィック セグメンテーションは、何らかの方法、つまりトラフィック セグメンテーションの基盤で実行する必要があります。たとえば、トラフィック内の Cookie に基づいてセグメント化したり、ランダムにセグメント化したりできます。セグメント化の方法が異なると、セグメンテーション オブジェクトのセットも異なります。Cookie に基づいてセグメント化する場合、セグメンテーション オブジェクト セットはすべて Cookie になります。ランダムにセグメント化する場合、セグメンテーション オブジェクト セットはサイトのすべてのトラフィックになります。

図1.1 単層トラフィック分割アーキテクチャの概略図

上記のアイデアでは、図1.1に示すように、指定されたトラフィックセグメンテーション法に応じて、ハッシュアルゴリズムによって生成された結果が得られますセグメンテーションオブジェクトは、間隔セグメントを間隔セグメントにマッピングします。セグメントプラス1。モジュロ後の結果は、セグメンテーションオブジェクト間隔の完全なセットに一意にマッピングできます。

最後に、実験の要件に応じて間隔セグメントをさらに細分化し、実験の比較のためにいくつかのサブ間隔に分割します。たとえば、下の図に示すように、100% 間隔全体が複数のサブ間隔に分割されています。各サブ間隔では、間隔の一意の識別子として一意の番号 sid を使用します。sid=1 のサブ間隔は 1% のトラフィックに対応するため、そのサブ間隔は [0,99] です。同様に、sid=2 の 2 番目の 1% サブ間隔に対応する間隔値は [100,199] です。このようにして、完全な 100% 間隔をいくつかのサブ間隔に分割し、同じ割合の 2 つのサブ間隔を実験戦略の比較に使用できます。

図1.2 フローサブ区間の分割

3. 再利用可能なトラフィックのための多層トラフィックセグメンテーションアーキテクチャ

この単層トラフィック分割方法は、排他的なトラフィック分割方法です。1 つのサブ間隔は 1 つの実験でのみ使用でき、1 つのリクエストは 1 つの実験にのみヒットします。利点は、実験が分離されており、互いに影響を及ぼさないことです。欠点は、リソースが限られていることです。トラフィックが割り当てられた後、後続の要求は長期間待機して空腹状態になります。この排他的なトラフィック分割方法では、明らかに、増加する実験のニーズを完全に満たすことができません。排他性の問題を解決するために、多層トラフィック分割方法を採用することができます。

マルチレイヤートラフィックセグメンテーションの考え方は、次の図に示すように、単層構造をマルチレイヤー構造に拡張することです。複数のレイヤーは直交性を満たす必要があります。ここでの複数のレイヤー間の直交性とは、あるレイヤーの任意のサブインターバルを他のレイヤーにランダムかつ均等にマッピングできることを意味します。このようにして、サブインターバルが他のレイヤーに与える影響をレイヤー全体に均等に分散できます。

多層トラフィックセグメンテーションアーキテクチャは、実験トラフィックを 100% から 100%*n に拡張できるため、各レイヤーのトラフィックを実験の比較に使用できます。 1 つのリクエストが同時に複数の実験にヒットし、実験トラフィックが再利用されます。 多層トラフィックにより、異なるレイヤーの実験間の影響が均一で予測可能になります。 多層実験を実施する前提は、実験間の影響が許容範囲内であることを保証することです。 一部の実験では、再利用が一切許可されません。 たとえば、表示実験の場合、2 つの実験がそれぞれ表示スタイルテンプレートのセットを指定し、表示モジュールの観点から見ると、1 つのリクエストで表示できるのは 1 つのスタイルテンプレートだけです。 したがって、ここで互換性のない実験は、同じレイヤーにしか配置できません。

図1.3 多層トラフィック分割アーキテクチャの概略図

マルチレイヤーのトラフィックセグメンテーションは、さまざまなレイヤーを使用できます角度はレイヤーを表し、その中にはレイヤー1にはレイヤーが含まれています。親層のトラフィックを2つの部分に分割するために、これらの2つの部分の生成方法が一貫しているはずです。

図1.4 トラフィックセグメンテーションの多層ネストの概念図

理論的には、マルチレイヤトラフィック分割アーキテクチャのスライス可能なレイヤの数は無限であり、任意の数のトラフィックレイヤをサポートできます。ただし、実装の観点から、無限の数のレイヤを実現することは困難です。これは、レイヤ間の直交性を保証するために、各ハッシュアルゴリズムの結果が直交していることを保証するために、各レイヤにハッシュアルゴリズムのセットを実装する必要があるためです。無限の数のレイヤを実現するには、直交性を保証する無限の数のハッシュアルゴリズムを実装する必要があります。ハッシュアルゴリズムの数が増えると、必然的に直交性が低下します。実装できる直交ハッシュアルゴリズムは有限の数であり、すべての実験要件を満たすにはハッシュアルゴリズムの数が必要です。次に、多層トラフィック分割アーキテクチャを実装する方法を紹介します。

多層トラフィックセグメンテーションを実現するために、まずハッシュアルゴリズムを実装します。このハッシュアルゴリズムの入力は、Cookie やランダム値などの情報であり、出力は単一のハッシュの結果です。また、このハッシュアルゴリズムの結果が十分に均一でランダムであることを確認する必要があります。次に、このハッシュを変換し、複数の直交ハッシュアルゴリズムに拡張します。

単一ハッシュアルゴリズムのランダム性と均一性を検証するために、実験検証を実施しました。下図に示すように、各行は100%フルセットを表し、各列はフルセットから抽出された10%を表します。テストされたフルセットは100万です。以下のテストデータから、各レイヤーのトラフィックセグメンテーション結果が比較的均一でランダムであることがわかります。

図1.5 単一ハッシュアルゴリズムの均一性とランダム性を検証するための実験データ

単層ハッシュアルゴリズムでは、単層ハッシュを多層に拡張する必要があります。ここで使用できる方法は多数あります。この記事では、シフト変換法を使用して、単層ハッシュを多層ハッシュに拡張します。多層実験トラフィックセグメンテーションの実際の環境テストデータを以下に示します。

4. 実際のデータテスト

アルゴリズムの実現可能性を検証するために、実際のデータテストを実施しました。テスト結果は次のとおりです。

表1.2 均一性検証データ

作成者: yangfangwei&huangjin&yaoshiyu

原題: ハッシュ計算に基づく多層実験的トラフィ​​ックセグメンテーションの実装

キーワード: ベース、ハッシュ、計算、マルチレイヤー、実験、トラフィック、実装、背景、紹介、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  画像閲覧時代のウェブサイト画像を最適化する方法

>>:  実際のケーススタディでは、ウェブサイトに古いドメイン名を使用することによる SEO の利点が示されています。

推薦する

IT投資に影響を与える主要なクラウドトレンド

今日のビジネスの世界では、成功するには、常に適応し、予期せぬ事態に備えることが求められます。企業が来...

これら4つのポイントをマスターすれば、小さなゲームステーションで大金を稼ぐことができます

著者の李雪志は辞書を引く癖があります。昨夜、退屈で「人生は演劇のようなもの」という言葉を調べました。...

地域ポータルサイトを通じてユーザーを惹きつける方法

ローカルポータルコミュニティサイトの運営は、通常のサイトとは大きく異なります。たとえば、ローカルポー...

SEOキーワードマイニング

ウェブサイトのプロモーションや検索エンジン最適化 (SEO) を行う場合、キーワードの選択は非常に重...

デディストリビューション - 3USD/80gDDoS 保護/4g メモリ/20gSSD/1T トラフィック/英国

dedistation.com の英国データセンターの特別な VPS: solusvm パネル、1G...

VPS77-ロシアのウラジオストクVPS、中国電信と中国聯通への直接接続、4K HD視聴の簡単なレビュー

vps77は中国の新規事業です。現在はKVM仮想化をベースとしたVPS事業を主に展開しています。米国...

淘宝網の交通入口開設の混乱の背景にある問題

タオバオは初めて、オープンプラットフォームへの道のりで岐路に立たされている。タオバオ自体とエコシステ...

tmthosting: as4837 のシアトル VPS、月払いで 20% オフ、年払いで 30% オフ、40G 防御無料

tmthosting は、Hostcat で初めて紹介されました。現在、tmthosting は春の...

有名なブロガーが自分のブログにソフトテキスト広告を掲載することについてどう思いますか?

最近、私、Lao Feng は独自の SEO ブログを構築しており、この間、有名なブロガーの IT ...

国美オンラインは400人近くの従業員を解雇、従業員はクバは名ばかりだと語る

国美の電子商取引の統合はまだ進行中です。最近、一部のメディアは、国美オンラインの解雇には約400人が...

EasyStor、収益10倍増達成に向けた5カ年計画を発表

2017 年 9 月 4 日、EasyStor は新しい会議室で、エンタープライズ クラウドおよび仮...

5G ネットワーク アーキテクチャとワイヤレス ネットワーク仮想化

5G は、柔軟で制御可能、オープンでカスタマイズ可能な無線ネットワークの目標を達成するために仮想化技...

マルチクラウドへの移行の鍵は管理ツール

企業がクラウドに移行することは今やコンセンサスとなっており、さらに多くの企業が複数のクラウド プラッ...

itldc (1995~): 無制限帯域幅の VPS、40% オフ、年間 23 ユーロ、米国、シンガポールなどで 15 のデータ センターが利用可能。

1995年に設立されたブルガリアの企業itldcは、15のデータセンターの「無制限トラフィックVPS...