スパイダーシステムの目標は、インターネット上のすべての貴重なウェブページを発見してクロールすることです。Baiduの関係者は、スパイダーはできるだけ多くの貴重なリソースをクロールし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにすることも明らかにしています。つまり、スパイダーはすべてのウェブサイトのすべてのページをクロールするわけではありません。このため、スパイダーには、クロール効率を向上させるために、リソースリンクをできるだけ迅速かつ完全に発見するための多くのクロール戦略があります。この方法によってのみ、スパイダーはほとんどのウェブサイトを可能な限り満足させることができます。これが、ウェブサイトのリンク構造をうまく処理する必要がある理由です。次に、Mumu SEO は、ページめくりのウェブページをキャプチャするスパイダーのメカニズムについていくつかの意見を述べます。 (この記事では他のクローリングメカニズムは考慮せず、1つのポイントのみを分析します) このクロールメカニズムはなぜ必要なのでしょうか? 現在、ほとんどの Web サイトでは、ページングを使用して Web サイトのリソースを整然と配布しています。新しい記事が追加されると、古いリソースはページング シリーズの最後尾に移動されます。スパイダーにとって、この特定の種類のインデックス ページはクロールに有効なチャネルですが、スパイダーのクロール頻度は Web サイトの記事の更新頻度と同じではありません。記事のリンクはページング バーに押し込まれる可能性があります。このように、スパイダーが毎日 1 番目のページング バーから 80 番目のページング バーまでクロールし、一度に 1 つの記事をクロールしてデータベースと比較することは不可能です。これはスパイダーの時間を無駄にし、Web サイトのインクルード時間も無駄にします。したがって、スパイダーは、この特別な種類のページング Web ページに対して追加のクロール メカニズムを必要とし、含まれるリソースの完全性を確保します。 順序付けられたページめくりページであるかどうかを判断するにはどうすればよいでしょうか? 記事が公開時間順に並べられているかどうかを判断することは、このタイプのページに必要な条件であり、これについては後で説明します。では、リソースがリリース時間順に並んでいるかどうかは、どうやって判断するのでしょうか。一部のページでは、各記事リンクの後に、対応するリリース時間が続いています。記事リンクに対応する時間セットを通じて、時間セットが大きいものから小さいものへ、または小さいものから大きいものへ並べられているかどうかを判断できます。そうであれば、Web ページ上のリソースはリリース時間順に並んでおり、その逆も同様です。公開時間が書かれていなくても、スパイダーは記事自体の実際の公開時間に基づいて判断を下すことができます。 この掴み機構はどのように機能するのでしょうか? このタイプのページング ページの場合、スパイダーは主に、Web ページをクロールするたびに見つかった記事リンクを記録し、今回見つかった記事リンクを履歴で見つかったリンクと比較します。交差がある場合は、このクロールですべての新しい記事が見つかったことを意味し、後続のページング バーのクロールを停止できます。交差がない場合は、このクロールですべての新しい記事が見つからなかったことを意味し、すべての新しい記事を見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。 少しわかりにくいかもしれません。非常に簡単な例を挙げてみましょう。たとえば、ウェブサイトのページング ディレクトリに 29 件の新しい記事が追加されました。これは、前回の最新記事が 30 番目だったことを意味し、スパイダーは一度に 10 件の記事リンクをクロールします。このように、スパイダーは最初に 10 件の記事をクロールしますが、これは前回との交差がありません。クロールを続行し、2 回目にさらに 10 件の記事をクロールします。合計 20 件の記事になります。前回との交差はまだありませんが、クロールを続行し、今回は前回との交差がある 30 番目の記事を取得します。これは、スパイダーが前回のクロールからこのウェブサイトの更新まで、29 件の記事すべてをクロールしたことを示しています。 提案 現在、Baidu Spiderは、Webページの種類、Webページ内のページめくりバーの位置、ページめくりバーに対応するリンク、リストが時間順に並んでいるかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、スパイダーは結局のところ100%の認識精度を達成することはできません。そのため、Webマスターがページめくりバーを作成するときにJSを使用せず、ましてやFALSHを使用せず、スパイダーのクローリングに協力するために記事を頻繁に更新すると、スパイダーの認識精度が大幅に向上し、それによってスパイダーのWebサイトにおけるクローリング効率が向上します。 もう一度、この記事はクモの這うメカニズムの 1 つについてのみ説明しており、クモがこの 1 つの這うメカニズムしか持っていないということを表しているわけではないことを思い出してください。実際の状況では、多くのメカニズムが同時に実行されます。著者: Mumu SEO http://blog.sina.com.cn/mumuhouzi 元のタイトル: ページめくり Web 検索エンジンはどのようにクロールするのか? キーワード: |
<<: P2Pオンライン融資は「連鎖危機」に陥っており、投資家は権利をどのように守るべきか困惑している。
多くの人は、マーケティングの知識を本から学び、その方法が自分に適しているかどうかを考えずにそれを習慣...
Frontrangehosting からメールが届き、そのメールから、同社は Total Serve...
小さな革命として始まったものが、近年、企業だけでなく政府にとっても、つまり社会全体にとって重要な戦略...
重要なヒント:人々があなたのウェブサイトを見つけてリンクすると、ウェブサイトへのリンクの数は徐々に増...
新しいサイトを持っている友人はたくさんいますが、その中には含まれているものはほとんどありません。サイ...
オンラインプロモーションに携わっている友人は、SEO(検索エンジン最適化)やSEM(検索エンジンマー...
カリブ海に位置するキュラソーは、オランダの海外領土です。キュラソーはプライバシー法が非常に厳しいため...
SonderCloud(恒創科技)は香港サーバー、特に香港の高防御サーバーを積極的に推進しており、一...
最近、友人のウェブサイトのプログラムに問題が発生しましたが、これもウェブサイトが一定の段階まで開発が...
データ分析といえば、特に長い間入札に触れていない多くの友人は、それが非常に「奥深くて神秘的」であ...
近年、ウェブサイトのホームページの百度スナップショット(つまり、ウェブサイトのホームページの百度スナ...
shockhosting.net の主な事業は仮想ホスティングと VPS です。すべての VPS サ...
競合他社が多い成熟した業界に参入する場合、新しいウェブサイトである私たちが古いウェブサイトに挑戦しよ...
海外メディアの報道によると、米司法省は最近、音楽や映画の著作権を侵害している疑いがあるとして、ファイ...
オペレーターが完全なアクティビティ プランを計画する場合、アクティビティ設計、リソース統合、通信パス...