SEO 集約ページのインスピレーションのためのシングルアルゴリズム

SEO 集約ページのインスピレーションのためのシングルアルゴリズム

シングル アルゴリズムは、検索エンジンが同一または類似のページを削除するために使用する基本的なアルゴリズムの 1 つです。SEO ページを集約するときにページ間の重複を避けるにはどうすればよいでしょうか。重複の問題にどう対処すればよいでしょうか。シングル アルゴリズムを推測することで、ヒントを得ることができます。

シングル [ˈʃɪŋgəl] は英語でタイルを重ねることを意味します。まず、例を使って Shingle アルゴリズムを説明しましょう。

タイトルが A と B の 2 つの文書があるとします。文書 A のタイトルは「明日から、電話で予約した列車のチケットは全国で受け取れ、受取時間が 12 時間延長されます」です。文書 B のタイトルは「電話で予約した列車のチケットは全国で受け取れ、オンライン先行販売期間が延長されます」です。

検索エンジンは、これら 2 つの文書のタイトルが重複しているかどうかをどのようにして知るのでしょうか。たとえば、Shingle メソッドを使用して、2 つの中国語の文字を 1 つに分割できます。

長さ L の文書の場合、N 個の漢字ごとに 1 枚の紙片が切り取られるため、合計で L-N+1 枚の紙片が切り取られます。文書 A のタイトルは L-N+1=21-2+1=20 枚の紙片に切り取られ、文書 B のタイトルは L-N+1=20-2+1=19 枚の紙片に切り取られます。

文書 A と B のタイトルに共通するシングル単語は、図の太字で示された 7 つの単語 (電話、電話予約、電車、切符、国内、国内接続、ユニバーサル接続) です。

2 つの文書 A と B のタイトルには、20+19-7=32 個の Shingle があります。

ただし、2 つの文書タイトル A と B の共通シングルを 2 つの文書タイトル A と B の共通シングルで割ったものが 2 つの文書タイトルの Jaccard 係数であり、これを使用して 2 つの文書タイトル A と B の類似性を判断できます。

2つの文書タイトルAとBのジャカード係数 = 7/(20+19-7) = 0.21875

2 つの文書のタイトルから、2 ページの文書に拡張し、さらに N ページに拡張して、Jaccard 係数が類似性の必要な基準を満たしているかどうかによってページが類似しているかどうかを判断できます。

これは、Shingle アルゴリズムです。2 つのセットの共通部分を 2 つのセットの和集合で割って、Jaccard 係数を取得します。Jaccard 係数が特定の数値より大きいかどうかを判断することで、2 つのセットが重複しているかどうかを判断できます。

Shingle アルゴリズムを逆にします。Jaccard 係数が一定数より小さい場合は、繰り返しません。まず、各ドキュメント コレクションを複数の Shingle に分割し、Jaccard 係数を 2 つずつ計算します。一定数より小さい場合は、ページを生成します。

以前行ったプロジェクトで、ある方法を使用しました。少し不器用ではありますが、それでも実用的です。皆さんにも共有したいと思います。

北京映画カテゴリにグループ購入注文が 100 件あるとします。次に、下の図の右側にある単語の集約ページを設計する必要があります。各ページには 10 件の注文が表示されます。Jaccard 係数が 0.3 より大きいと仮定すると、ページが重複していると判断されます。重複のないページを生成するにはどうすればよいでしょうか。

次の図は、注文のタイトルと長いタイトルを示しています (長いタイトルには多くのテキストと大量のテキストが含まれているため、長いタイトルが SEO 集約ページに使用されることを前提としています)。

各 ID は一意であり、各 ID に対応するタイトルと長いタイトルもほぼ一意であるため、同じ ID を持つ注文の数を単純化して重複の問題を解決できます。

これは、各ページには 10 件の注文が表示され、2 つのページに 3.33 個以上の同一の ID が存在することはないことを意味します。つまり、各ページの ID を比較すると、すべての ID が異なる場合はページを生成でき、1 つの ID のみが同一の場合はページを生成でき、2 つの ID のみが同一の場合はページを生成でき、3 つの ID のみが同一の場合はページを生成でき、4 つ以上の ID が同一の場合はページを生成できません。

今後は、アルゴリズム、テクノロジー、SEO の交流に余暇のほとんどを費やし、皆さんとより良いものを共有していきたいと考えています。

ご質問がある場合は、Meituan Chen HuiのWeiboにプライベートメッセージを送信してください:http://1.t.qq.com/chenhui8com


元のタイトル: SEO 集約ページのインスピレーションのためのシングルアルゴリズム

キーワード: シングルアルゴリズム、SEO 集約ページ、SEO 計算、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  若者よ、百度の写真を追い求めるのは本当に無意味だ

>>:  ウェブマスターは実行能力に欠けており、改善方法を教えてください

推薦する

オンライン活動では、ユーザーの熱意を喚起するためにお金を使うだけに頼ることはできません。

サイトを運営する過程では、ユーザーを維持するために、サイト上での良好なインタラクションとコンテンツに...

zji: 2800元/月、US双方向cn2 100M、2*e5-26xx/64gメモリ/500gSSD

アメリカ西海岸サンノゼにあるCN2双方向最適化回線を備えたZjiのサーバーがプロモーション中です。双...

2014 年の草の根ウェブマスターの脱出方法

おそらく多くの人が私のように、どんな種類のウェブサイトを構築すればいいのかわからず戸惑ったことがある...

海外メディア:米国防総省はマイクロソフトとの100億ドルのクラウドコンピューティング契約の解除を検討中

海外メディアの報道によると、アマゾンが起こした訴訟により、米国防総省はマイクロソフトとの100億ドル...

テンセントクラウドテクノハブテクノロジーツアー武漢駅を1つの記事で、クラウドネイティブの世界を深く解釈

[51CTO.com からのオリジナル記事] クラウド コンピューティング テクノロジーの開発は、2...

データから学び、ユーザーデータを新製品設計に適用する

導入通常、ユーザーインタビューを通じてユーザーのニーズを把握することができます。実際、デザイナーはユ...

誇張や誹謗中傷は一切なし。2か月以上安定稼働している Pacificrack PR-V シリーズ VPS の真実のレビューです。

Pacificrack は昨年の立ち上げ以来、低価格戦略を採用してきました。結局のところ、それらはす...

Alibaba Cloud Intelligence 社長、張建鋒氏:「完全なクラウド移行の転換点が到来しました!」

「完全クラウド移行の転換点が到来!」 7月25日、アリババクラウドインテリジェンスの社長である張建鋒...

転職してクラウド コンピューティングに参加してみませんか?参考までに4つのキャリアの方向性を推奨します

クラウド市場の急成長により、多くの IT プロフェッショナルがクラウド コンピューティング分野に移行...

外部リンクがウェブサイトのランキングに与える影響は、量よりも質が重要です。

外部リンクと内部リンクは、ウェブサイトのランキングの 8 割を占めています。外部リンクとコンテンツの...

Baidu のフォーラム署名外部リンクの説明の長所と短所を分析する

Souba.com ニュース: An Ze 氏が Baidu のフォーラム署名外部リンク指示の長所と...

Kehua Hengsheng: インテリジェントで環境に優しく、省エネなデータセンターの構築

[原文は51CTO.comより] Kezhi Consulting(中国IDCサークル研究センター)...

edgenat: すべての VPS が 20% オフ、香港 cn2、韓国 cn2、米国 cn2、Windows 対応

お客様のニーズを満たすために、edgenat (ASN139803) は特別に構成された VPS を...

初雪から考えるインターネットマーケティング

今日は雪が降りました。2012年最初の雪が降りました。家に帰ってから、私はこう考えました。「神様は本...

#おすすめ# bacloud: ハイエンドの高性能 VPS、50% オフ、更新時も同じ価格、トラフィック無制限

bacloud は HostCat に何度か登場しており、ウェブマスターに与える一般的な印象は、独自...