ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

スパイダーシステムの目標は、インターネット上のすべての貴重なウェブページを発見してクロールすることです。Baiduの関係者は、スパイダーはできるだけ多くの貴重なリソースをクロールし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにすることも明らかにしています。つまり、スパイダーはすべてのウェブサイトのすべてのページをクロールするわけではありません。このため、スパイダーには、クロール効率を向上させるために、リソースリンクをできるだけ迅速かつ完全に発見するための多くのクロール戦略があります。この方法によってのみ、スパイダーはほとんどのウェブサイトを可能な限り満足させることができます。これが、ウェブサイトのリンク構造をうまく処理する必要がある理由です。次に、Mumu SEO は、ページめくりのウェブページをキャプチャするスパイダーのメカニズムについていくつかの意見を述べます。 (この記事では他のクローリングメカニズムは考慮せず、1つのポイントのみを分析します)

このクロールメカニズムはなぜ必要なのでしょうか?

現在、ほとんどの Web サイトでは、ページングを使用して Web サイトのリソースを整然と配布しています。新しい記事が追加されると、古いリソースはページング シリーズの最後尾に移動されます。スパイダーにとって、この特定の種類のインデックス ページはクロールに有効なチャネルですが、スパイダーのクロール頻度は Web サイトの記事の更新頻度と同じではありません。記事のリンクはページング バーに押し込まれる可能性があります。このように、スパイダーが毎日 1 番目のページング バーから 80 番目のページング バーまでクロールし、一度に 1 つの記事をクロールしてデータベースと比較することは不可能です。これはスパイダーの時間を無駄にし、Web サイトのインクルード時間も無駄にします。したがって、スパイダーは、この特別な種類のページング Web ページに対して追加のクロール メカニズムを必要とし、含まれるリソースの完全性を確保します。

順序付けられたページめくりページであるかどうかを判断するにはどうすればよいでしょうか?

記事が公開時間順に並べられているかどうかを判断することは、このタイプのページに必要な条件であり、これについては後で説明します。では、リソースがリリース時間順に並んでいるかどうかは、どうやって判断するのでしょうか。一部のページでは、各記事リンクの後に、対応するリリース時間が続いています。記事リンクに対応する時間セットを通じて、時間セットが大きいものから小さいものへ、または小さいものから大きいものへ並べられているかどうかを判断できます。そうであれば、Web ページ上のリソースはリリース時間順に並んでおり、その逆も同様です。公開時間が書かれていなくても、スパイダーは記事自体の実際の公開時間に基づいて判断を下すことができます。

この掴み機構はどのように機能するのでしょうか?

このタイプのページング ページの場合、スパイダーは主に、Web ページをクロールするたびに見つかった記事リンクを記録し、今回見つかった記事リンクを履歴で見つかったリンクと比較します。交差がある場合は、このクロールですべての新しい記事が見つかったことを意味し、後続のページング バーのクロールを停止できます。交差がない場合は、このクロールですべての新しい記事が見つからなかったことを意味し、すべての新しい記事を見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。

少しわかりにくいかもしれません。非常に簡単な例を挙げてみましょう。たとえば、ウェブサイトのページング ディレクトリに 29 件の新しい記事が追加されました。これは、前回の最新記事が 30 番目だったことを意味し、スパイダーは一度に 10 件の記事リンクをクロールします。このように、スパイダーは最初に 10 件の記事をクロールしますが、これは前回との交差がありません。クロールを続行し、2 回目にさらに 10 件の記事をクロールします。合計 20 件の記事になります。前回との交差はまだありませんが、クロールを続行し、今回は前回との交差がある 30 番目の記事を取得します。これは、スパイダーが前回のクロールからこのウェブサイトの更新まで、29 件の記事すべてをクロールしたことを示しています。

提案

現在、Baidu Spiderは、Webページの種類、Webページ内のページめくりバーの位置、ページめくりバーに対応するリンク、リストが時間順に並んでいるかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、スパイダーは結局のところ100%の認識精度を達成することはできません。そのため、Webマスターがページめくりバーを作成するときにJSを使用せず、ましてやFALSHを使用せず、スパイダーのクローリングに協力するために記事を頻繁に更新すると、スパイダーの認識精度が大幅に向上し、それによってスパイダーのWebサイトにおけるクローリング効率が向上します。

もう一度、この記事はクモの這うメカニズムの 1 つについてのみ説明しており、クモがこの 1 つの這うメカニズムしか持っていないということを表しているわけではないことを思い出してください。実際の状況では、多くのメカニズムが同時に実行されます。著者: Mumu SEO http://blog.sina.com.cn/mumuhouzi


元のタイトル: ページめくり Web 検索エンジンはどのようにクロールするのか?

キーワード:

<<:  P2Pオンライン融資は「連鎖危機」に陥っており、投資家は権利をどのように守るべきか困惑している。

>>:  地域内のターゲットグループを見つける方法

推薦する

一般的な対外貿易促進方法の一覧

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています対外貿易促...

AWS、EC2とEBSの秒単位課金を発表

10月2日、世界的クラウドコンピューティング大手のAmazon AWSは、EC2(Elastic C...

3年間ウェブサイトを構築してきましたが、何も達成できず、A5の壁に直面しています。

時が経つのは早いものです。A5 に関する記事を最後に書いたのは 1 年前だったと記憶しています。それ...

ハイブリッドクラウドとマルチクラウドにおけるクラウドセキュリティの課題への対処方法

ハイブリッドおよびマルチクラウド環境には、複雑さと軽減戦略を伴うクラウド セキュリティの課題がいくつ...

創業107年のIBMはクラウドコンピューティング競争で「取り残される」ことになるのだろうか?

IBMにとって本当の脅威は、「誰もがクラウドに移行している」ため、メインフレーム・サーバーに対する顧...

SEOは薄まるどころかSEO 3.0の時代に入りつつある

多くのウェブマスターは、SEO は軽視されており、もはや SEO を行う必要はないと考えており、個人...

Weiphone フォーラムがクラッシュしたのはなぜですか? 国家ラジオ・映画・テレビ総局による禁止令により、新しいドメイン名が正式に開始された。

今日、「微音フォーラムがダウンしている」というニュースが注目を集めています。微音フォーラムは公式に発...

Baidu最適化の料理を味わう方法

現在、国内のネットワークは急速に発展しており、ウェブサイトの最適化とSEOもますます多くの人々に認識...

gcoreはどうですか? gcore シンガポール VPS 評価データ共有

gcoreシンガポールのコンピュータールームはどうですか? gcore シンガポール VPS はどう...

SEO 初心者が学ぶ大きなタブー

月収10万元の起業の夢を実現するミニプログラム起業支援プラン数日前、初心者の SEO 担当者から、検...

サーバーNV-2 Euro/KVM/Win/512m メモリ/25g ハードドライブ/900g トラフィック/英国

ServersNV は、英国を主なデータ センターとする VPS プロバイダーです。VPS には、o...

Kubernetes リースと分散リーダー選出

分散リーダー選出分散システムでは、アプリケーション サービスは高可用性を確保するために複数のノード ...

Tech Neo 11月号: コンテナプラットフォーム管理の実践

51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...

クラウドコンピューティング市場は2020年に飛躍的な成長を達成

2020 年は、パブリック クラウド ベンダーの収益が増加し、パンデミックによってデジタル変革のペー...