ウェブクローリングの優先戦略

ウェブクローリングの優先戦略

Web ページのクロールの優先順位戦略は、「ページ選択問題」とも呼ばれます。通常、重要な Web ページは可能な限り最初にクロールされ、限られたリソース内でそれらの重要度の高い Web ページが可能な限り処理されるようにします。では、どの Web ページが重要度が高いのでしょうか?重要性を定量化するにはどうすればよいでしょうか?

重要度メトリックは、リンクの人気度、リンクの重要度、平均リンク深度の側面によって決定されます。

リンク人気は IB(P) として定義され、主にバックリンクの数と品質によって決まります。まず、数字を見てみましょう。直感的に言えば、Web ページへのリンクが多いほど (バックリンクが多いほど)、他の Web ページから認識されやすくなります。同時に、このウェブページがネットユーザーによって訪問される可能性が高くなり、その重要度が高くなると推測されます。次に、品質が検査されます。より重要なウェブサイトによって指し示される場合、その重要度は高くなります。品質が考慮されない場合、グローバル最適性ではなくローカル最適性が発生します。最も典型的な例は、一部のウェブページに自らのウェブページを指す逆リンクを人為的に大量に設定し、ウェブページの重要度を高める不正なウェブページです。リンクの品質を考慮しないと、これらの不正行為者に利用されてしまいます。

リンクの重要度を IL(P) として定義します。これは URL 文字列の関数であり、文字列自体のみを調べます。リンクの重要度は主にいくつかのパターンによって決まります。たとえば、「.COM」や「HOME」を含む URL は重要度が高いとみなされ、スラッシュが少ない URL も同様です。

平均リンク深度は、作成者によって作成される ID(P) として定義されます。 ID(P) は、シード サイトのセットにおいて、各シード サイトから Web ページへのリンク (幅優先トラバーサル ルール) がある場合、平均リンク深度がこの Web ページの別の重要度指標となることを意味します。シードサイトに近いほど訪問される可能性が高くなり、シードサイトから遠いほど重要度が低くなるためです。実際、このような重要な Web ページのクロール優先順位付けの必要性は、幅優先のトラバーサル ルールに従うことで満たすことができます。

最後に、Web ページの重要度の指標は I(P) として定義され、これは上記の 2 つの定量値によって線形に決定されます。

I(P)=a*IB(P) β*IL(P)

平均リンク深度は幅優先探索ルールによって保証されるため、重要度評価の指標としては使用されません。クロール機能が制限されている場合、重要な Web ページをできるだけ多くクロールすることが合理的かつ科学的です。ユーザーが最終的に検索する Web ページは、多くの場合、重要度の高いページです。

これは十分に完璧に思えますが、実際には、依然として重要な要素である時間を無視しています。時間の経過と共に、ワールド ワイド ウェブは動的かつ変化する側面を持つようになりました。新しく追加された Web ページをクロールするにはどうすればよいでしょうか?変更された Web ページを再度訪問するにはどうすればよいでしょうか?削除されたWebページを見つけるにはどうすればいいですか? World Wide Web ページの変化に対応するには、ページ再訪問戦略が必要です。この戦略は、Web ページの追加、変更、削除という 3 種類の Web ページの変更を識別するために使用できます。

元のタイトル: Web クローリングの優先戦略

キーワード:

<<:  ブラックハットSEOとグレーハットSEOについて少し説明します

>>:  SEO: 権威の高いドメイン名を有効活用する

推薦する

正直に言うと、SEO 業界はどれくらい奥が深いのでしょうか?

SEO は 1997 年に始まり、百度よりも古い 15 年以上の歴史があると一般に認識されています。...

オンライン旅行:モバイルインターネットによって変革されるもう一つの業界

モバイルインターネットの普及により、オンライン旅行が本格的に形作られるようになりました。ユーザーの長...

Sanqi Interactive Entertainmentはトラフィック購入のボトルネックに陥っている

近年、人々の生活水準の向上に伴い、娯楽プロジェクトの追求はますます高くなり、娯楽の大きな部分を占める...

Xenpower-3.6 Euro/Xen/2 コア/1g メモリ/120g ハードディスク/2T トラフィック

プロメテウス傘下のXEN PV仮想ブランドであるXenpowerのVPSが、今回はイタリアのミラノコ...

サーバーレス: クラウド コンピューティングの未来?

CIO がビジネスの俊敏性の向上を目指してインフラストラクチャと運用をさらに抽象化する中で、サーバー...

ハイブリッドクラウドは再定義されつつある

[[337784]] 【51CTO.com クイック翻訳】業界の専門家は、ハイブリッド クラウドの定...

3.5年間のオンライン採用経験のまとめ:データに基づいた思考

現在のオンライン募集の普及は、実は私たちがこの業界に入った当初は想像もしていなかったことです。という...

教育用分類情報ウェブサイトを促進するための代替思考

この記事は、黄家朗による教育インターネット マーケティング シリーズの 2 回目です。分類情報 We...

A5 マーケティング: 企業にとってオンライン広告マーケティングの利点と形態は何ですか?

インターネットの普及と発展により、オンライン マーケティングは中小企業にとって強力なツールになりまし...

CIO Timesと工業情報化部標準化研究所が共同で新創システム認証トレーニングを開始

情報技術応用イノベーション(ICT応用イノベーション)は、従来のITアーキテクチャのアップグレードと...

標準相互接続 - 香港VPS/3ネットワーク直接接続/中国電信CN2/年間支払い179元から

香港の VPS、特に安価なものには、まだ一定の需要があることがわかりました。帯域幅は少し高価ですが、...

主流の検索エンジンの原則

今日は検索エンジンの原理を紹介します。まずは写真を見てみましょう…次に、階層ごとに説明します。 1....

あなたは本当に検索エンジンに夢中になりますか?

作者の智怡はつい最近、恋に落ちました。長い間追いかけていた女の子が、ついに私と一緒になることに同意し...

企業がネットワークマーケティングをどのように実施すべきかについての簡単な議論

全国の工業・商業登録企業は1,030万社(個人工業・商業世帯3,130万社を除く)あり、現行の中小企...

新浪微博がソーシャル検索エンジンYunyun.comを買収、創設者が退任

A5 Webmaster Networkは9月10日に報じた。9月10日は中国の伝統的な教師の日であ...