ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

ページめくり検索エンジンはどのようにして Web ページをクロールするのでしょうか?

スパイダーシステムの目標は、インターネット上のすべての貴重なウェブページを発見してクロールすることです。Baiduの関係者は、スパイダーはできるだけ多くの貴重なリソースをクロールし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにすることも明らかにしています。つまり、スパイダーはすべてのウェブサイトのすべてのページをクロールするわけではありません。このため、スパイダーには、クロール効率を向上させるために、リソースリンクをできるだけ迅速かつ完全に発見するための多くのクロール戦略があります。この方法によってのみ、スパイダーはほとんどのウェブサイトを可能な限り満足させることができます。これが、ウェブサイトのリンク構造をうまく処理する必要がある理由です。次に、Mumu SEO は、ページめくりのウェブページをキャプチャするスパイダーのメカニズムについていくつかの意見を述べます。 (この記事では他のクローリングメカニズムは考慮せず、1つのポイントのみを分析します)

このクロールメカニズムはなぜ必要なのでしょうか?

現在、ほとんどの Web サイトでは、ページングを使用して Web サイトのリソースを整然と配布しています。新しい記事が追加されると、古いリソースはページング シリーズの最後尾に移動されます。スパイダーにとって、この特定の種類のインデックス ページはクロールに有効なチャネルですが、スパイダーのクロール頻度は Web サイトの記事の更新頻度と同じではありません。記事のリンクはページング バーに押し込まれる可能性があります。このように、スパイダーが毎日 1 番目のページング バーから 80 番目のページング バーまでクロールし、一度に 1 つの記事をクロールしてデータベースと比較することは不可能です。これはスパイダーの時間を無駄にし、Web サイトのインクルード時間も無駄にします。したがって、スパイダーは、この特別な種類のページング Web ページに対して追加のクロール メカニズムを必要とし、含まれるリソースの完全性を確保します。

順序付けられたページめくりページであるかどうかを判断するにはどうすればよいでしょうか?

記事が公開時間順に並べられているかどうかを判断することは、このタイプのページに必要な条件であり、これについては後で説明します。では、リソースがリリース時間順に並んでいるかどうかは、どうやって判断するのでしょうか。一部のページでは、各記事リンクの後に、対応するリリース時間が続いています。記事リンクに対応する時間セットを通じて、時間セットが大きいものから小さいものへ、または小さいものから大きいものへ並べられているかどうかを判断できます。そうであれば、Web ページ上のリソースはリリース時間順に並んでおり、その逆も同様です。公開時間が書かれていなくても、スパイダーは記事自体の実際の公開時間に基づいて判断を下すことができます。

この掴み機構はどのように機能するのでしょうか?

このタイプのページング ページの場合、スパイダーは主に、Web ページをクロールするたびに見つかった記事リンクを記録し、今回見つかった記事リンクを履歴で見つかったリンクと比較します。交差がある場合は、このクロールですべての新しい記事が見つかったことを意味し、後続のページング バーのクロールを停止できます。交差がない場合は、このクロールですべての新しい記事が見つからなかったことを意味し、すべての新しい記事を見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。

少しわかりにくいかもしれません。非常に簡単な例を挙げてみましょう。たとえば、ウェブサイトのページング ディレクトリに 29 件の新しい記事が追加されました。これは、前回の最新記事が 30 番目だったことを意味し、スパイダーは一度に 10 件の記事リンクをクロールします。このように、スパイダーは最初に 10 件の記事をクロールしますが、これは前回との交差がありません。クロールを続行し、2 回目にさらに 10 件の記事をクロールします。合計 20 件の記事になります。前回との交差はまだありませんが、クロールを続行し、今回は前回との交差がある 30 番目の記事を取得します。これは、スパイダーが前回のクロールからこのウェブサイトの更新まで、29 件の記事すべてをクロールしたことを示しています。

提案

現在、Baidu Spiderは、Webページの種類、Webページ内のページめくりバーの位置、ページめくりバーに対応するリンク、リストが時間順に並んでいるかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、スパイダーは結局のところ100%の認識精度を達成することはできません。そのため、Webマスターがページめくりバーを作成するときにJSを使用せず、ましてやFALSHを使用せず、スパイダーのクローリングに協力するために記事を頻繁に更新すると、スパイダーの認識精度が大幅に向上し、それによってスパイダーのWebサイトにおけるクローリング効率が向上します。

もう一度、この記事はクモの這うメカニズムの 1 つについてのみ説明しており、クモがこの 1 つの這うメカニズムしか持っていないということを表しているわけではないことを思い出してください。実際の状況では、多くのメカニズムが同時に実行されます。著者: Mumu SEO http://blog.sina.com.cn/mumuhouzi


元のタイトル: ページめくり Web 検索エンジンはどのようにクロールするのか?

キーワード:

<<:  P2Pオンライン融資は「連鎖危機」に陥っており、投資家は権利をどのように守るべきか困惑している。

>>:  地域内のターゲットグループを見つける方法

推薦する

SEO最適化におけるTF-IDFアルゴリズムの応用を説明する

TF-idf アルゴリズムは、実際にはユーザー情報の検索や情報マイニングによく使用される加重技術であ...

launchvps - $48/年 vps/KVM/4g メモリ/2 コア/20g SSD/4T トラフィック

launchvps は、ペンシルバニアのデータセンターで VPS のみを提供する比較的シンプルなビジ...

レポート: サーバーレスは多くのソフトウェアスタックの重要な部分となっている

Datadog は、クラウドネイティブのスタートアップから大企業まで、あらゆる規模の組織でサーバーレ...

かわいいマーケティング手法

数日前、外で誰かを待っていて退屈していたとき、KFCのレストランに入り、誰かを待っている間にインター...

マルチチャネルプロモーションにおいてアトリビューションモデルはどの程度重要ですか?コンバージョンコストを一気に削減する秘訣!

今日は、オンラインプロモーションのプロセスにアトリビューションモデルを適用する価値についてお話しした...

Hostus 香港 VPS/256M メモリ/10g ハードディスク/500g トラフィック/ソフトレイヤー/1000M ポート

Hostus は創業から 20 年になりますが、おそらく経営者は今日これほど人気が​​出るとは思って...

調査: マルチクラウド導入のメリット、障壁、最も人気のあるクラウド プラットフォーム

[51CTO.com クイック翻訳] 多くの企業は、ベンダーによるロックインを回避し、より競争力のあ...

ウェブサイトを最適化するにはどうすればいいですか?見出しを飾る人にならないでください

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスインターネットとスマート...

熊張昊: SEO の「サイト」から「アカウント」への転換トレンド

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています熊張浩の登...

程玲鋒:YYとQQはどれくらい「近い」のでしょうか? YYの上場に関するいくつかの判決

フェン兄弟はわざわざ業界を訪問し、株式公開を控えているYYについていくつかの判断を得ました。 1. ...

検索エンジン最適化のための代替技術の解釈

Baidu SEO の世界で、2012 年に何か覚えていることがあるとすれば、それは最も深刻な Ba...

機能の最適化 + 適切な宣伝 + 合理的な奨励 + 積極的な統合 = フォーラムユーザーの定着率

ウェブサイトの所有者は皆、ウェブサイトが長期的な発展を遂げたい場合、その基礎は収益モデルや経営管理で...

魏牙VS李嘉奇!電子商取引ライブストリーミングの王者競争の比較分析

10月20日夜、李佳琦と魏亜は双十一イベントに向けてウォーミングアップし、タオバオで8時間の生放送を...

新浪微博草の根Vが昨夜ブロックされ、ネットユーザーの態度は異なる

昨日の18時から21時頃、Weiboで「@冷笑话精選」や「@微博搞笑排行榜」など、幅広い人気を誇り、...