Baiduオリジナル記事と転載検出アルゴリズム

Baiduオリジナル記事と転載検出アルゴリズム

インターネットの急速な発展に伴い、ネットワーク上には重複したリソース ファイルが大量に存在します。たとえば、ほとんどのユーザーは、共有したいリソース ファイルをインターネットにアップロードします。人気のあるリソース ファイルや非常に人気のあるリソース ファイルは、多くのユーザーによってインターネットにアップロードされるため、必然的に同じリソース ファイルが繰り返しアップロードされることになります。同時に、さまざまな Web サイトが同じリソース ファイルを再印刷、引用、ダウンロードを提供するため、ネットワーク上の重複するリソース ファイルの数がさらに増加し​​ます。

その後、検索エンジンが「スパイダー」、「クローラー」、「ロボット」などの Web クロール ツールを使用してネットワークから Web ページをクロールすると、クロールされた Web ページは区別されず、これらの Web ページに同じリソース ファイルを指す Web ページが含まれる可能性があります。同じリソース ファイルを指すこれらの Web ページが重複排除されていない場合、これらの Web ページをクロールした後、検索エンジンはこれらの Web ページを保存するために大量のストレージ スペースを必要とし、保存された Web ページに対して後続の検出を実行するためにさらに多くの検出装置を割り当てる必要があります。

したがって、コンテンツ機能情報に基づいて、同じリソース ファイルを指す重複リンクを削除する方法を提供するにはどうすればよいでしょうか?

その対処方法は早急に解決しなければならない問題の一つとなっている。

最初のリンク セット内の最初のリンクのクロール時間。

最初のリンク セット内の最初のリンクの生成時刻。

最初のリンク セットの最初のリンクに対応する Web ページのトラフィック。

最初のリンク セット内の最初のリンクに対応する Web ページの権限。

具体的には、最初のリンク セットの最初のリンクのクロール時間とは、検索エンジンが最初のリンクをクロールして検索エンジン インデックス情報ライブラリに格納する時間を指します。クロール時間が早いほど、対応する最初のリンクが検索エンジンによって早く発見され、ある程度、最初のリンクが指すリソース ファイルの品質も高いことを示します。

最初のリンク セットの最初のリンクの生成時刻は、最初のリンクとそれが指すリソース ファイルがインターネット上で公開された時刻を指します。生成時刻が早いほど、対応する最初のリンクの存続期間が長くなり、ある程度、最初のリンクが指すリソース ファイルの品質も高いことを示します。

最初のリンク セットの最初のリンクに対応する Web ページのトラフィックは、最初のリンクに対応する Web ページへのアクセス数を指します。トラフィックは、毎日、毎週、または毎月になることがあります。トラフィックが大きいほど、最初のリンクに対応する Web ページ、つまり最初のリンクが指すリソース ファイルが配置されている Web ページへのユーザー アクセス数が多くなり、リソース ファイルのユーザー注目度と人気が高くなることを示し、これは、最初のリンクが指すリソース ファイルの品質も高いことを示しています。

最初のリンクセットの最初のリンクに対応するウェブページの権威とは、最初のリンクに対応するウェブページの品質と重要度に関する検索エンジンまたはサードパーティデバイスによる評価を指します。権威が高いほど、最初のリンクに対応するウェブページ、つまり最初のリンクが指しているリソースファイルが配置されているウェブページはより高く、より重要です。これは、最初のリンクが指しているリソースファイルの品質もより高いことを示しています。

技術者は、上記の第1リンクセットの重複排除処理の参照要因は単なる例であり、第1リンクセットの重複排除処理のその他の既存または将来の参照要因が、

このアルゴリズムは、Gou Xiaoyun の SEO ブログで最初に公開されました。これは、Baidu の内部資料から取得されています。http://blog.sina.com.cn/70mazlc



原題: Baidu オリジナル記事と転載検出アルゴリズム

キーワード: SEO、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  Baidu のハイパーリンク アルゴリズムのアップグレード後に Web サイトの外部リンク構築を改善する方法

>>:  ウェブサイトのキーワードの配置方法の簡単な分析

推薦する

企業がウェブサイトを構築する必要があるのはなぜですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています企業がウェ...

新浪微博のマイクロフレンドや親しい友達は、どのように発展してWeChatを超えることができるのでしょうか?

みなさんこんにちは、小思です。6月に書いた「WeChatとモバイルQQのどんなアプリが人気があるの?...

チケット販売サイト向けネットワークチーム構築のリスク評価について

チームのリスク評価は、資金が十分でない場合に実行する必要があるものです。友人の中には、これは不必要だ...

Ben Feng: TusDesign プライベート クラウド データ センター構築の実践 | V教室109号室

第109回[スマート製造+V教室]「優秀なCIO」テーマ共有月間第1回では、Tus-Designグル...

ウェブサイトデータ分析:分析の前提 - データ品質 3

前回の 2 つの記事「分析の前提条件 - データ品質 1」と「分析の前提条件 - データ品質 2」で...

SEO の観点から Baidu PPC の結果を見る

中国最大の検索エンジンプラットフォームである百度は、自然なランキングを通じて正確な検索マーケティング...

アンダーホスト: キュラソーサーバー、カリブ海の島サーバー、めったに見られない

カリブ海に位置するキュラソーは、オランダの海外領土です。キュラソーはプライバシー法が非常に厳しいため...

ファーウェイのクラウドネイティブ分散データベースと高性能データベース技術の公開

クラウド時代の発展とともに、データベースの物語は続きます。 Oracle の商用バージョンであれ、M...

休日を有効活用してオンラインプロモーションを行う際に注意すべきスキルとは

周知のように、電子商取引の継続的な発展に伴い、オンラインプロモーションの手段とパターンは非常に多くな...

Jidong.comの呂文勝:残された動画サイトオーナーの反省

口頭 | Lv Wensheng記者のヘ・ヤンがまとめた資金調達は遅すぎますか? 300~400の動...

AARRR モデル: ゲーミフィケーション ユーザー成長戦略の習得 (パート 1)

成長コスト、効率、品質という3つのトピックを中心に、コンバージョンファネルの各レベルに実行可能な運用...

オンラインドラマ「大淘宝」でSEOについてより深く理解できました

今日は短編感動オンラインドラマ「大淘宝」を観終えました。短編映画の中で淘宝の売り手の生活状況が描写さ...

dedipath - メモリアルデー、Windows を含む VPS が 50% オフ

アメリカ版「墓参りの日」(戦没者追悼記念日)が近づいており、dedipath はすべての VPS 製...

BATが鎮圧に協力しているのに、今日頭条は今後も「野蛮」であり続けるのだろうか?

急成長から熾烈な競争まで、興味コンテンツの分野は長い間レッドオーシャンでした。 BATの共同包囲に直...

タオバオアフィリエイトウェブサイトのコンバージョン率を向上させるテクニックについての簡単な説明

インターネットがますます進歩するにつれて、Taobao アフィリエイトも盛んになり、さまざまな Ta...