ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

スパイダーシステムの目標は、インターネット上のすべての貴重なウェブページを発見してクロールすることです。Baiduの関係者は、スパイダーはできるだけ多くの貴重なリソースをクロールし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにすることも明らかにしています。つまり、スパイダーはすべてのウェブサイトのすべてのページをクロールするわけではありません。このため、スパイダーには、クロール効率を向上させるために、リソースリンクをできるだけ迅速かつ完全に発見するための多くのクロール戦略があります。この方法によってのみ、スパイダーはほとんどのウェブサイトを可能な限り満足させることができます。これが、ウェブサイトのリンク構造をうまく処理する必要がある理由です。次に、Mumu SEO は、ページめくりのウェブページをキャプチャするスパイダーのメカニズムについていくつかの意見を述べます。 (この記事では他のクローリングメカニズムは考慮せず、1つのポイントのみを分析します)

このクロールメカニズムはなぜ必要なのでしょうか?

現在、ほとんどの Web サイトでは、ページングを使用して Web サイトのリソースを整然と配布しています。新しい記事が追加されると、古いリソースはページング シリーズの最後尾に移動されます。スパイダーにとって、この特定の種類のインデックス ページはクロールに有効なチャネルですが、スパイダーのクロール頻度は Web サイトの記事の更新頻度と同じではありません。記事のリンクはページング バーに押し込まれる可能性があります。このように、スパイダーが毎日 1 番目のページング バーから 80 番目のページング バーまでクロールし、一度に 1 つの記事をクロールしてデータベースと比較することは不可能です。これはスパイダーの時間を無駄にし、Web サイトのインクルード時間も無駄にします。したがって、スパイダーは、この特別な種類のページング Web ページに対して追加のクロール メカニズムを必要とし、含まれるリソースの完全性を確保します。

順序付けられたページめくりページであるかどうかを判断するにはどうすればよいでしょうか?

記事が公開時間順に並べられているかどうかを判断することは、このタイプのページに必要な条件であり、これについては後で説明します。では、リソースがリリース時間順に並んでいるかどうかは、どうやって判断するのでしょうか。一部のページでは、各記事リンクの後に、対応するリリース時間が続いています。記事リンクに対応する時間セットを通じて、時間セットが大きいものから小さいものへ、または小さいものから大きいものへ並べられているかどうかを判断できます。そうであれば、Web ページ上のリソースはリリース時間順に並んでおり、その逆も同様です。公開時間が書かれていなくても、スパイダーは記事自体の実際の公開時間に基づいて判断を下すことができます。

この掴み機構はどのように機能するのでしょうか?

このタイプのページング ページの場合、スパイダーは主に、Web ページをクロールするたびに見つかった記事リンクを記録し、今回見つかった記事リンクを履歴で見つかったリンクと比較します。交差がある場合は、このクロールですべての新しい記事が見つかったことを意味し、後続のページング バーのクロールを停止できます。交差がない場合は、このクロールですべての新しい記事が見つからなかったことを意味し、すべての新しい記事を見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。

少しわかりにくいかもしれません。非常に簡単な例を挙げてみましょう。たとえば、ウェブサイトのページング ディレクトリに 29 件の新しい記事が追加されました。これは、前回の最新記事が 30 番目だったことを意味し、スパイダーは一度に 10 件の記事リンクをクロールします。このように、スパイダーは最初に 10 件の記事をクロールしますが、これは前回との交差がありません。クロールを続行し、2 回目にさらに 10 件の記事をクロールします。合計 20 件の記事になります。前回との交差はまだありませんが、クロールを続行し、今回は前回との交差がある 30 番目の記事を取得します。これは、スパイダーが前回のクロールからこのウェブサイトの更新まで、29 件の記事すべてをクロールしたことを示しています。

提案

現在、Baidu Spiderは、Webページの種類、Webページ内のページめくりバーの位置、ページめくりバーに対応するリンク、リストが時間順に並んでいるかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、スパイダーは結局のところ100%の認識精度を達成することはできません。そのため、Webマスターがページめくりバーを作成するときにJSを使用せず、ましてやFALSHを使用せず、スパイダーのクローリングに協力するために記事を頻繁に更新すると、スパイダーの認識精度が大幅に向上し、それによってスパイダーのWebサイトにおけるクローリング効率が向上します。

もう一度、この記事はクモの這うメカニズムの 1 つについてのみ説明しており、クモがこの 1 つの這うメカニズムしか持っていないということを表しているわけではないことを思い出してください。実際の状況では、多くのメカニズムが同時に実行されます。著者: Mumu SEO http://blog.sina.com.cn/mumuhouzi


元のタイトル: ページめくり Web 検索エンジンはどのようにクロールするのか?

キーワード:

<<:  P2Pオンライン融資は「連鎖危機」に陥っており、投資家は権利をどのように守るべきか困惑している。

>>:  地域内のターゲットグループを見つける方法

推薦する

Ban Kui: モバイル インターネット SEO がウェブマスターにもたらすチャンス

最新の統計によると、モバイルインターネットの発展速度は非常に驚異的です。スマートフォンの継続的な普及...

Baishan の「Data Hive」イテレーションにより、エンタープライズ API 管理機能が強化されます。

「2021年までに、ビジネスニーズに後押しされ、CIOの70%が、クラウドプロバイダー、システム開発...

ラッキンコーヒーは復活したのか?

昨年、ラッキンコーヒーが財務不正を暴露してから1年が経ち、同国市場で騒動を引き起こしただけでなく、米...

分散ストレージの技術動向(I):3つのレプリカの欠点

分散ストレージの SDS コンセプトは優れており、水平拡張機能が優れており、ノードの自動追加と削除が...

Linode - 新しいプランを開始、月額わずか 5 ドル、メモリ 1G

Linodeはバレンタインデーに2つのニュースを発表しました。(1)大容量メモリインスタンスを追加し...

Namecheap: 18周年記念、ドメイン更新割引

米国のドメイン名登録業者 namecheap が 18 周年を迎えます。namecheap のドメイ...

2019 年のインターネットにおける 6 つの新しいトレンド!

2018年で一番悲しかったことは、子供の頃に尊敬していた多くの巨匠たちと別れを告げたことでした。ホー...

PaaS は SaaS にとって大きな参入障壁であり、技術的なギャップなのでしょうか?

クラウド コンピューティングは、IaaS、PaaS、SaaS の 3 つの層に分かれています。多くの...

Aizhan.comツールのキーワードランキングクエリワードの数に問題があります

人々がウェブサイトのキーワードランキングデータを照会する場合、Aizhan.com ツールクエリ、B...

信じてはいけないクラウドコンピューティングと人工知能に関する2つの誤解

クラウド コンピューティングによってデータ センターが消滅し、AI プロジェクトは失敗する運命にある...

優れたユーザーエクスペリエンスを実現するための 5 つの要件

[編集者注] この記事は@nipal柜によって翻訳されました。この記事では、優れたユーザーエクスペリ...

5年間の最適化経験を持つベテランウェブマスターがSEO最適化について語る

今日、私はフォーラムで「SEO マスター」が理論だけに頼っていては自立できないという投稿を読みました...

KVM仮想マシンがゲートウェイにアクセスできない問題のトラブルシューティング

問題の解決は簡単そうに思えることが多いですが、トラブルシューティングのプロセスは複雑で時間がかかりま...