重複したウェブページコンテンツは検索エンジンにとって非常に有害です。重複した Web ページが存在する場合、これらのページは検索エンジンによって再度処理されることになります。さらに有害なのは、検索エンジンがインデックス作成中に、インデックス ライブラリ内の同じ Web ページの 2 つのコピーをインデックスする可能性があることです。誰かが検索すると、重複した Web ページ リンクが検索結果に表示されます。したがって、これらの過負荷の Web ページは、検索エクスペリエンスとシステム効率および検索品質の両面で有害です。 Web ページの重複チェック技術は、ファイルの内容が他のファイルから盗用またはコピーされたものであるかどうかを判断するコピー検出技術から生まれました。 1993 年、アリゾナ大学のマンバー氏 (現 Google 副社長兼エンジニア) は、類似ファイルを検索するための sif ツールを立ち上げました。 1995 年、セルゲイ・ブリン (Google の創設者の 1 人) とスタンフォード大学のガルシア・モリーナらは、「デジタル ブック ビュー」プロジェクト [Sergey Brin et al 1995] で、テキスト コピー検出メカニズム COPS (Copy Protection System) システムと対応するアルゴリズムを初めて提案しました。その後、この重複検出技術は検索エンジンにも応用され、基本的なコア技術は非常に似ています。 Web ページは単純な文書とは異なり、コンテンツや形式などの特別な属性を持っています。したがって、コンテンツと形式の類似性は、4 種類の Web ページの類似性を構成します。 実施方法: Web ページ上の重複コンテンツをチェックするには、まず重複チェックを容易にするために、タイトルと本文を含むドキュメントに Web ページを整理します。そのため、Webページの盗用チェックは「文書の盗用チェック」とも呼ばれます。 「文書重複チェック」は、一般的に 3 つのステップに分かれています。1. 特徴抽出。 2. 類似度の計算と評価。 3. 重さを軽減します。 1. 特徴抽出 類似したオブジェクトを判断する場合、通常は変化しない特徴を比較に使用します。ファイルの重複チェックの最初のステップも特徴抽出です。つまり、文書のコンテンツは分解され、文書を構成する一連の特徴によって表現されます。このステップは、後続の特徴の比較と類似度の計算を容易にするためのものです。 2. 類似度の計算と評価 特徴抽出が完了したら、Web ページの重複チェックの 2 番目のステップは類似度の計算と評価であるため、特徴の比較が必要になります。 Shingle アルゴリズムは比較のために複数の特徴を抽出するため、処理がより複雑になります。比較方法は同じ Shingle 番号です。次に、2 つのドキュメントの Shingle の合計数から、一致する Shingle の数を引いて割ります。この方法で計算された値が「Jaccard 係数」であり、コレクションの類似性を判断するために使用できます。ジャカード係数は、集合の共通部分を集合の和集合で割ることによって計算されます。 3. 体重減少 Web ページの重複チェックは、システムの不可欠な部分です。重複ページを削除することで、検索エンジンの他の側面でも多くの不要なトラブルが軽減され、インデックスの保存スペースが節約され、クエリ コストが削減され、PageRank の計算効率が向上します。検索エンジンユーザーにとって便利です。 この記事は、Qi-Ning Internet Marketing Planning www.qi-ning.com で最初に公開されました。転載する場合は著者情報を明記してください。ありがとう! 原題: 斉寧: 検索エンジン知識ウェブページ重複検出技術 キーワード: 検索エンジン |
<<: バイオバレー競争局、Googleのサンドボックスに注意
クリスマスが近づいており、人気の webhostingbuzz が半額プロモーションを開始し、サイト...
以前のHDDディスク搭載のcpanelパネルホストは時代遅れです。eleven2はSSDディスクの全...
有能なSEO担当者にとって、ウェブサイトのターゲットキーワードをランク付けすることは、必ず完了し...
今夜、28tui を閲覧していたところ、最近のホットな返信で、友人が自分の Web サイトが 1 か...
武漢の SEO も他の SEO と同じです。毎日、いくつかの分類情報プラットフォームに戻って、会社の...
dwidc(大王データ、「中華人民共和国付加価値通信事業許可証」番号:クラウドライセンス/IDC/I...
今日、多くの組織は、あるクラウド プラットフォームから別のクラウド プラットフォームにデータを移行す...
著者 |趙雲制作 | 51CTO テクノロジースタック (WeChat ID: blog) Kube...
IT 業界の業界団体 CompTIA によれば、現在、企業の 80% が、オンデマンドで起動できる仮...
ここ数か月、COVID-19パンデミックは世界的に広がり、世界中のさまざまな業界に大きな影響を与えて...
北京時間1月4日夕方のニュースで、Googleは本日、Chromeウェブサイトが自社の広告規制に違反...
月収10万元の起業の夢を実現するミニプログラム起業支援プラン成外全は、数百件の小紅書プロモーションの...
著者: Spoon Killer/Product Observerローカルデザイン、モバイルインター...
楊洋のファンの理論に従えば、「王者栄耀」は中国のゲーム業界に謝罪するべきかもしれない。楊洋のファンは...
Hosthatch は香港に香港 VPS サービスを展開しています。デフォルトの帯域幅は 10Gbp...