ウェブクローリングの優先戦略

ウェブクローリングの優先戦略

Web ページのクロールの優先順位戦略は、「ページ選択問題」とも呼ばれます。通常、重要な Web ページは可能な限り最初にクロールされ、限られたリソース内でそれらの重要度の高い Web ページが可能な限り処理されるようにします。では、どの Web ページが重要度が高いのでしょうか?重要性を定量化するにはどうすればよいでしょうか?

重要度メトリックは、リンクの人気度、リンクの重要度、平均リンク深度の側面によって決定されます。

リンク人気は IB(P) として定義され、主にバックリンクの数と品質によって決まります。まず、数字を見てみましょう。直感的に言えば、Web ページへのリンクが多いほど (バックリンクが多いほど)、他の Web ページから認識されやすくなります。同時に、このウェブページがネットユーザーによって訪問される可能性が高くなり、その重要度が高くなると推測されます。次に、品質が検査されます。より重要なウェブサイトによって指し示される場合、その重要度は高くなります。品質が考慮されない場合、グローバル最適性ではなくローカル最適性が発生します。最も典型的な例は、一部のウェブページに自らのウェブページを指す逆リンクを人為的に大量に設定し、ウェブページの重要度を高める不正なウェブページです。リンクの品質を考慮しないと、これらの不正行為者に利用されてしまいます。

リンクの重要度を IL(P) として定義します。これは URL 文字列の関数であり、文字列自体のみを調べます。リンクの重要度は主にいくつかのパターンによって決まります。たとえば、「.COM」や「HOME」を含む URL は重要度が高いとみなされ、スラッシュが少ない URL も同様です。

平均リンク深度は、作成者によって作成される ID(P) として定義されます。 ID(P) は、シード サイトのセットにおいて、各シード サイトから Web ページへのリンク (幅優先トラバーサル ルール) がある場合、平均リンク深度がこの Web ページの別の重要度指標となることを意味します。シードサイトに近いほど訪問される可能性が高くなり、シードサイトから遠いほど重要度が低くなるためです。実際、このような重要な Web ページのクロール優先順位付けの必要性は、幅優先のトラバーサル ルールに従うことで満たすことができます。

最後に、Web ページの重要度の指標は I(P) として定義され、これは上記の 2 つの定量値によって線形に決定されます。

I(P)=a*IB(P) β*IL(P)

平均リンク深度は幅優先探索ルールによって保証されるため、重要度評価の指標としては使用されません。クロール機能が制限されている場合、重要な Web ページをできるだけ多くクロールすることが合理的かつ科学的です。ユーザーが最終的に検索する Web ページは、多くの場合、重要度の高いページです。

これは十分に完璧に思えますが、実際には、依然として重要な要素である時間を無視しています。時間の経過と共に、ワールド ワイド ウェブは動的かつ変化する側面を持つようになりました。新しく追加された Web ページをクロールするにはどうすればよいでしょうか?変更された Web ページを再度訪問するにはどうすればよいでしょうか?削除されたWebページを見つけるにはどうすればいいですか? World Wide Web ページの変化に対応するには、ページ再訪問戦略が必要です。この戦略は、Web ページの追加、変更、削除という 3 種類の Web ページの変更を識別するために使用できます。

元のタイトル: Web クローリングの優先戦略

キーワード:

<<:  ブラックハットSEOとグレーハットSEOについて少し説明します

>>:  SEO: 権威の高いドメイン名を有効活用する

推薦する

Suning.com、ダブルイレブンで変化を求める

流動性問題、新規投資、経営陣の交代を経験し、緊縮財政を続けてきたSuning.comは、今やダブル1...

検索エンジンのリンク関連性の原則の簡単な分析

再び、検索エンジンとウェブサイトの最適化についてお話します。今日は、検索エンジン リンクの原則につい...

新規サイトが常に1桁で含まれる理由のまとめ

一昨日、A5タスクエリアでタスクを見ました。ウェブサイトのインクルードが常に10未満で、何をしても無...

企業のマーケティングモデルの断絶につながるいくつかの問題

今日の中小企業のオンラインマーケティング市場は、伝統的なモデルから徐々に脱却しています。伝統的な業界...

ロングテールは程度です。ロングテールを明らかにする3つのポイント

ロングテールキーワードとは何ですか?また、ロングテールキーワードについて何を知っていますか?ロングテ...

注意:ServerHubの無料ホスティングデータが漏洩しました。時間内に対処してください。

先月9日、HostCatはserverhubの無料仮想ホスト「serverhub-free仮想ホスト...

tmhhost: US cn2 gia + China Unicom AS9929 独立サーバー、高い防御保護、最低 700 元/月、e3-1230v5/16gDDR4/1T ハードディスク/30M 帯域幅/5 IP、

tmhhost は、米国で独自の独立サーバーを推進しています。ロサンゼルスのデータセンターに位置し、...

Krypt Ion Cloud: シンガポール データ センターの CN2 ネットワーク クラウド サーバーの簡単なレビュー

米国のロサンゼルスとサンノゼのデータセンターに加えて、イオンクラウドのクラウドサーバーには、実は国内...

ウェブサイトのリンク構築で不正行為をしていませんか?

最近では、ウェブサイトのリンク構築における不正行為は大幅に抑制されています。以前は、多くのウェブサイ...

Baiduのホームページに追加する機能により、良いウェブサイトと悪いウェブサイトがすぐに「明らかに」される

Baidu の動きは、常に SEO 担当者の研究の方向性となってきました。最近、Baidu は、いく...

コンテナセキュリティ管理のベストプラクティスの実装

Docker と Kubernetes テクノロジーの成熟に伴い、コンテナは現在最も注目されている開...

2023 年に知っておくべき 10 大新技術とトレンド

テクノロジーはますます進歩し、私たちの生活はこれまで以上に便利になるでしょう。日を追うごとに、テクノ...

Ketian Cloud: エンタープライズインテリジェントコラボレーションクラウドの時代をリード

[51CTO.comより引用] クラウドコンピューティングの重要な構成要素として、SaaSサービスは...

北京の冬が到来、しかし分散ストレージハードウェアは春を迎えている

[北京、2019年12月] 厳しい寒さの冬の中、2019年中国ストレージ&データサミットが予定通り、...