ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

スパイダーシステムの目標は、インターネット上のすべての貴重なウェブページを発見してクロールすることです。Baiduの関係者は、スパイダーはできるだけ多くの貴重なリソースをクロールし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにすることも明らかにしています。つまり、スパイダーはすべてのウェブサイトのすべてのページをクロールするわけではありません。このため、スパイダーには、クロール効率を向上させるために、リソースリンクをできるだけ迅速かつ完全に発見するための多くのクロール戦略があります。この方法によってのみ、スパイダーはほとんどのウェブサイトを可能な限り満足させることができます。これが、ウェブサイトのリンク構造をうまく処理する必要がある理由です。次に、Mumu SEO は、ページめくりのウェブページをキャプチャするスパイダーのメカニズムについていくつかの意見を述べます。 (この記事では他のクローリングメカニズムは考慮せず、1つのポイントのみを分析します)

このクロールメカニズムはなぜ必要なのでしょうか?

現在、ほとんどの Web サイトでは、ページングを使用して Web サイトのリソースを整然と配布しています。新しい記事が追加されると、古いリソースはページング シリーズの最後尾に移動されます。スパイダーにとって、この特定の種類のインデックス ページはクロールに有効なチャネルですが、スパイダーのクロール頻度は Web サイトの記事の更新頻度と同じではありません。記事のリンクはページング バーに押し込まれる可能性があります。このように、スパイダーが毎日 1 番目のページング バーから 80 番目のページング バーまでクロールし、一度に 1 つの記事をクロールしてデータベースと比較することは不可能です。これはスパイダーの時間を無駄にし、Web サイトのインクルード時間も無駄にします。したがって、スパイダーは、この特別な種類のページング Web ページに対して追加のクロール メカニズムを必要とし、含まれるリソースの完全性を確保します。

順序付けられたページめくりページであるかどうかを判断するにはどうすればよいでしょうか?

記事が公開時間順に並べられているかどうかを判断することは、このタイプのページに必要な条件であり、これについては後で説明します。では、リソースがリリース時間順に並んでいるかどうかは、どうやって判断するのでしょうか。一部のページでは、各記事リンクの後に、対応するリリース時間が続いています。記事リンクに対応する時間セットを通じて、時間セットが大きいものから小さいものへ、または小さいものから大きいものへ並べられているかどうかを判断できます。そうであれば、Web ページ上のリソースはリリース時間順に並んでおり、その逆も同様です。公開時間が書かれていなくても、スパイダーは記事自体の実際の公開時間に基づいて判断を下すことができます。

この掴み機構はどのように機能するのでしょうか?

このタイプのページング ページの場合、スパイダーは主に、Web ページをクロールするたびに見つかった記事リンクを記録し、今回見つかった記事リンクを履歴で見つかったリンクと比較します。交差がある場合は、このクロールですべての新しい記事が見つかったことを意味し、後続のページング バーのクロールを停止できます。交差がない場合は、このクロールですべての新しい記事が見つからなかったことを意味し、すべての新しい記事を見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。

少しわかりにくいかもしれません。非常に簡単な例を挙げてみましょう。たとえば、ウェブサイトのページング ディレクトリに 29 件の新しい記事が追加されました。これは、前回の最新記事が 30 番目だったことを意味し、スパイダーは一度に 10 件の記事リンクをクロールします。このように、スパイダーは最初に 10 件の記事をクロールしますが、これは前回との交差がありません。クロールを続行し、2 回目にさらに 10 件の記事をクロールします。合計 20 件の記事になります。前回との交差はまだありませんが、クロールを続行し、今回は前回との交差がある 30 番目の記事を取得します。これは、スパイダーが前回のクロールからこのウェブサイトの更新まで、29 件の記事すべてをクロールしたことを示しています。

提案

現在、Baidu Spiderは、Webページの種類、Webページ内のページめくりバーの位置、ページめくりバーに対応するリンク、リストが時間順に並んでいるかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、スパイダーは結局のところ100%の認識精度を達成することはできません。そのため、Webマスターがページめくりバーを作成するときにJSを使用せず、ましてやFALSHを使用せず、スパイダーのクローリングに協力するために記事を頻繁に更新すると、スパイダーの認識精度が大幅に向上し、それによってスパイダーのWebサイトにおけるクローリング効率が向上します。

もう一度、この記事はクモの這うメカニズムの 1 つについてのみ説明しており、クモがこの 1 つの這うメカニズムしか持っていないということを表しているわけではないことを思い出してください。実際の状況では、多くのメカニズムが同時に実行されます。著者: Mumu SEO http://blog.sina.com.cn/mumuhouzi


元のタイトル: ページめくり Web 検索エンジンはどのようにクロールするのか?

キーワード:

<<:  P2Pオンライン融資は「連鎖危機」に陥っており、投資家は権利をどのように守るべきか困惑している。

>>:  地域内のターゲットグループを見つける方法

推薦する

ブランドマーケティングを行う際にこの3つのポイントを理解していなければ、すべて無駄になってしまいます!

多くの人は、マーケティングの知識を本から学び、その方法が自分に適しているかどうかを考えずにそれを習慣...

Frontrangehosting-簡易レビュー(768MメモリKVM)-取得しました

Frontrangehosting からメールが届き、そのメールから、同社は Total Serve...

クラウドコンピューティングはどのように進化するのでしょうか?

小さな革命として始まったものが、近年、企業だけでなく政府にとっても、つまり社会全体にとって重要な戦略...

Google 公式「検索エンジン最適化ガイド」ウェブサイトプロモーション章の翻訳

重要なヒント:人々があなたのウェブサイトを見つけてリンクすると、ウェブサイトへのリンクの数は徐々に増...

検索エンジンがサイトに素早くアクセスできるようにする方法

新しいサイトを持っている友人はたくさんいますが、その中には含まれているものはほとんどありません。サイ...

「SMOは現在最もホットなオンラインマーケティング手法です

オンラインプロモーションに携わっている友人は、SEO(検索エンジン最適化)やSEM(検索エンジンマー...

アンダーホスト: キュラソーサーバー、カリブ海の島サーバー、めったに見られない

カリブ海に位置するキュラソーは、オランダの海外領土です。キュラソーはプライバシー法が非常に厳しいため...

henghost: 香港の高防御サーバー、310Gbpsの防御、より高いカスタマイズ

SonderCloud(恒創科技)は香港サーバー、特に香港の高防御サーバーを積極的に推進しており、一...

ウェブサイト構築におけるプログラムの危険性は何ですか?

最近、友人のウェブサイトのプログラムに問題が発生しましたが、これもウェブサイトが一定の段階まで開発が...

検索エンジンの入札はデータを使った「ゲーム」である

データ分析といえば、特に長い間入札に触れていない多くの友人は、それが非常に「奥​​深くて神秘的」であ...

多くのウェブマスターや専門家はSEOスナップショットを理解している

近年、ウェブサイトのホームページの百度スナップショット(つまり、ウェブサイトのホームページの百度スナ...

ショックホスティングの月額料金は 3.49 ドル/KVM/512m メモリ/15g SSD/750g トラフィック

shockhosting.net の主な事業は仮想ホスティングと VPS です。すべての VPS サ...

新しいサイトが古いサイトをすぐに追い越したいのであれば、反撃しなければならない

競合他社が多い成熟した業界に参入する場合、新しいウェブサイトである私たちが古いウェブサイトに挑戦しよ...

共有サイトMegauploadの閉鎖により、米国政府のウェブサイトへの大規模なハッカー攻撃が発生した。

海外メディアの報道によると、米司法省は最近、音楽や映画の著作権を侵害している疑いがあるとして、ファイ...

イベントプロモーションに最もよく使われるオンラインチャネル 15 選 (おすすめコレクション)

オペレーターが完全なアクティビティ プランを計画する場合、アクティビティ設計、リソース統合、通信パス...