Qi Ning: 検索エンジン知識ウェブページ重複検出技術

重複したウェブページコンテンツは検索エンジンにとって非常に有害です。重複した Web ページが存在する場合、これらのページは検索エンジンによって再度処理されることになります。さらに有害なのは、検索エンジンがインデックス作成中に、インデックスライブラリ内の同じ Web ページの 2 つのコピーをインデックスする可能性があることです。誰かが検索すると、重複した Web ページリンクが検索結果に表示されます。したがって、これらの過負荷の Web ページは、検索エクスペリエンスとシステム効率および検索品質の両面で有害です。

Web ページの重複チェック技術は、ファイルの内容が他のファイルから盗用またはコピーされたものであるかどうかを判断するコピー検出技術から生まれました。

1993 年、アリゾナ大学のマンバー氏 (現 Google 副社長兼エンジニア) は、類似ファイルを検索するための sif ツールを立ち上げました。 1995 年、セルゲイ・ブリン (Google の創設者の 1 人) とスタンフォード大学のガルシア・モリーナらは、「デジタルブックビュー」プロジェクト [Sergey Brin et al 1995] で、テキストコピー検出メカニズム COPS (Copy Protection System) システムと対応するアルゴリズムを初めて提案しました。その後、この重複検出技術は検索エンジンにも応用され、基本的なコア技術は非常に似ています。

Web ページは単純な文書とは異なり、コンテンツや形式などの特別な属性を持っています。したがって、コンテンツと形式の類似性は、4 種類の Web ページの類似性を構成します。
1. 2 つのページのコンテンツ形式はまったく同じです。
2. 2 つのページの内容は同じですが、形式が異なります。
3. 2 つのページの内容と形式は同じです。
4. 2 つのページには重要な部分は同じですが、形式が異なります。

実施方法：

Web ページ上の重複コンテンツをチェックするには、まず重複チェックを容易にするために、タイトルと本文を含むドキュメントに Web ページを整理します。そのため、Webページの盗用チェックは「文書の盗用チェック」とも呼ばれます。「文書重複チェック」は、一般的に 3 つのステップに分かれています。1. 特徴抽出。 2. 類似度の計算と評価。 3. 重さを軽減します。

1. 特徴抽出類似したオブジェクトを判断する場合、通常は変化しない特徴を比較に使用します。ファイルの重複チェックの最初のステップも特徴抽出です。つまり、文書のコンテンツは分解され、文書を構成する一連の特徴によって表現されます。このステップは、後続の特徴の比較と類似度の計算を容易にするためのものです。
特徴抽出には多くの方法があります。ここでは主に、「I-Match アルゴリズム」と「Shingle アルゴリズム」という 2 つの古典的なアルゴリズムについて説明します。
「I-Match アルゴリズム」は完全な情報分析に依存せず、データセットの統計特性を使用してドキュメントの主な特徴を抽出し、主要でない特徴を破棄します。
「Shingle アルゴリズム」は、複数の特徴語を抽出し、2 つの特徴セット間の類似性を比較することで、ドキュメントの重複を検出します。

2. 類似度の計算と評価特徴抽出が完了したら、Web ページの重複チェックの 2 番目のステップは類似度の計算と評価であるため、特徴の比較が必要になります。
I-Match アルゴリズムには 1 つの機能しかありません。文書を入力すると、語彙の IDF 値 (逆文書頻度) に応じていくつかの重要な機能がフィルタリングされます。つまり、記事内の頻度の高い単語と特に頻度の低い単語は、記事の本質を反映できないことがよくあります。そこで、文書から高頻度単語と低頻度単語を削除し、文書の一意のハッシュ値（ハッシュは単純にデータ値をアドレスにマッピングします。データ値を入力として使い、計算後にアドレス値を得ることができます）を計算すると、同じハッシュ値を持つ文書は重複していることがわかります。

Shingle アルゴリズムは比較のために複数の特徴を抽出するため、処理がより複雑になります。比較方法は同じ Shingle 番号です。次に、2 つのドキュメントの Shingle の合計数から、一致する Shingle の数を引いて割ります。この方法で計算された値が「Jaccard 係数」であり、コレクションの類似性を判断するために使用できます。ジャカード係数は、集合の共通部分を集合の和集合で割ることによって計算されます。

3. 体重減少
重複コンテンツを削除する場合、検索エンジンは多くの要素を考慮するため、最もシンプルで実用的な方法を使用します。クローラーによって最初にクロールされるページでは、元の Web ページが大部分最初に保持されることも保証されます。

Web ページの重複チェックは、システムの不可欠な部分です。重複ページを削除することで、検索エンジンの他の側面でも多くの不要なトラブルが軽減され、インデックスの保存スペースが節約され、クエリコストが削減され、PageRank の計算効率が向上します。検索エンジンユーザーにとって便利です。

この記事は、Qi-Ning Internet Marketing Planning www.qi-ning.com で最初に公開されました。転載する場合は著者情報を明記してください。ありがとう！
秦寧 MSN: [email protected]

原題: 斉寧: 検索エンジン知識ウェブページ重複検出技術

キーワード: 検索エンジン

<<: バイオバレー競争局、Googleのサンドボックスに注意

>>: ウェブサイトのHTML生成と最適化について話す

robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害をもたらす可能性があります (パート 1)

Qi Ning: 検索エンジン知識ウェブページ重複検出技術

robots.txt の記述は地雷原のようなもので、少しの不注意が深刻な被害をもたらす可能性があります (パート 1)

今夜、Baidu にインデックスされたページから得た考え

検討すべき 7 つのクラウドストレージおよびファイル共有サービス

物理的な検索とオープンな検索: どちらが未来でしょうか?

AnalyticDB PostgreSQLは分散一貫性バックアップとリカバリの実装方法を教えます

タオバオで稼ぐ人との独占インタビュー: タオバオSEO担当者は人気の職業になる

クラウドマスターデータ管理 (MDM) がエンタープライズ IT の次の「爆発点」となるのはなぜでしょうか?

短編動画サイト「Weishi」がWeChatエコシステムに加わることは、新たなマーケティングの原動力となるのか、それとも無駄な追加となるのか?

ウェブサイトを運営するにはもっと忍耐が必要です

ダブルブログリンクの紹介と実現可能性分析

推薦する

Facebook CEO VS Microsoft CEO: 富の戦いか、技術の戦いか?

Pomegranate アルゴリズムの後に Web サイトを最適化するときに注意すべきことは何ですか?

検索エンジンのトラフィックを迂回させる PHP トロイの木馬の導入と防止

pzea: 香港 VPS、シンガポール VPS、日本 VPS、すべて 30% オフ、一部 50% オフ、Windows 対応

初心者はランキング変動への対処方法を知る必要がある

パブリッククラウドとプライベートクラウドの主な利点と違い

Kubernetes プローブから DevOps へ

Present.me: SlideShare と YouTube の融合

コンテンツマーケティング記事を書くためのヒント

クラウドコストを大幅に削減する方法が登場しました。

F5 クラウドネイティブキーワード: 変革、構築、統合

ユーザーの思考を活用してウェブサイトを構築し、独りよがりにならないようにする

faconhostはどうですか？オランダの VPS の簡単なレビュー (複数の強化機能付き: Ryzen 9 7950X、AS4809、AS9929)

2020年第4四半期のクラウドインフラ支出は400億ドルに迫る

ソーシャルマーケティングの成功と失敗は時間によって決まる