ウェブクローリングの優先戦略

ウェブクローリングの優先戦略

Web ページのクロールの優先順位戦略は、「ページ選択問題」とも呼ばれます。通常、重要な Web ページは可能な限り最初にクロールされ、限られたリソース内でそれらの重要度の高い Web ページが可能な限り処理されるようにします。では、どの Web ページが重要度が高いのでしょうか?重要性を定量化するにはどうすればよいでしょうか?

重要度メトリックは、リンクの人気度、リンクの重要度、平均リンク深度の側面によって決定されます。

リンク人気は IB(P) として定義され、主にバックリンクの数と品質によって決まります。まず、数字を見てみましょう。直感的に言えば、Web ページへのリンクが多いほど (バックリンクが多いほど)、他の Web ページから認識されやすくなります。同時に、このウェブページがネットユーザーによって訪問される可能性が高くなり、その重要度が高くなると推測されます。次に、品質が検査されます。より重要なウェブサイトによって指し示される場合、その重要度は高くなります。品質が考慮されない場合、グローバル最適性ではなくローカル最適性が発生します。最も典型的な例は、一部のウェブページに自らのウェブページを指す逆リンクを人為的に大量に設定し、ウェブページの重要度を高める不正なウェブページです。リンクの品質を考慮しないと、これらの不正行為者に利用されてしまいます。

リンクの重要度を IL(P) として定義します。これは URL 文字列の関数であり、文字列自体のみを調べます。リンクの重要度は主にいくつかのパターンによって決まります。たとえば、「.COM」や「HOME」を含む URL は重要度が高いとみなされ、スラッシュが少ない URL も同様です。

平均リンク深度は、作成者によって作成される ID(P) として定義されます。 ID(P) は、シード サイトのセットにおいて、各シード サイトから Web ページへのリンク (幅優先トラバーサル ルール) がある場合、平均リンク深度がこの Web ページの別の重要度指標となることを意味します。シードサイトに近いほど訪問される可能性が高くなり、シードサイトから遠いほど重要度が低くなるためです。実際、このような重要な Web ページのクロール優先順位付けの必要性は、幅優先のトラバーサル ルールに従うことで満たすことができます。

最後に、Web ページの重要度の指標は I(P) として定義され、これは上記の 2 つの定量値によって線形に決定されます。

I(P)=a*IB(P) β*IL(P)

平均リンク深度は幅優先探索ルールによって保証されるため、重要度評価の指標としては使用されません。クロール機能が制限されている場合、重要な Web ページをできるだけ多くクロールすることが合理的かつ科学的です。ユーザーが最終的に検索する Web ページは、多くの場合、重要度の高いページです。

これは十分に完璧に思えますが、実際には、依然として重要な要素である時間を無視しています。時間の経過と共に、ワールド ワイド ウェブは動的かつ変化する側面を持つようになりました。新しく追加された Web ページをクロールするにはどうすればよいでしょうか?変更された Web ページを再度訪問するにはどうすればよいでしょうか?削除されたWebページを見つけるにはどうすればいいですか? World Wide Web ページの変化に対応するには、ページ再訪問戦略が必要です。この戦略は、Web ページの追加、変更、削除という 3 種類の Web ページの変更を識別するために使用できます。

元のタイトル: Web クローリングの優先戦略

キーワード:

<<:  ブラックハットSEOとグレーハットSEOについて少し説明します

>>:  SEO: 権威の高いドメイン名を有効活用する

推薦する

トラフィック急増を促す3種類の外部リンク構築の分析

トラフィックの急増は、外部リンクの構築だけではなく、コンテンツのリリースも含まれます。トラフィックの...

華雲データ、2019年広東省、香港、マカオ情報技術・セキュリティ技術セミナーでスマートキャンパスソリューションを展示

5月11日、2019年広東省・香港・マカオ情報技術・セキュリティ技術セミナーと広東省サイバースペース...

最適なクラウド バックアップ ソリューションを選択する方法

ますます多くの企業が、主要なグローバル クラウド コンピューティング プロバイダーを利用して実稼働ア...

SEOブログの現状:話し手は真剣だが聞き手は無関心

話し手は真剣だが、聞き手は無関心である(発音が分からない場合は、ピンインの URL を参照してくださ...

ウェブサイトの直帰率は無視できない

弊社では、トラフィック、キーワードランキング、掲載数など、ウェブサイトのさまざまなデータを日々注視し...

KubernetesはITスキルの価値を高める

Kubernetes は、プラットフォーム間での開発、テスト、および生産プロセスの一貫性の向上を目指...

FaaS(Function as a Service)市場は急速な成長を遂げる

[[431780]] FaaS は、大規模な IT チームを持たない企業に、サーバーのサポートを必要...

デジタル変革を背景とした銀行におけるプライベートクラウドの構築に関する簡単な議論

01. 銀行におけるクラウドコンピューティングの発展の背景クラウド コンピューティングは、金融業界の...

2012 年の SEO 業務経験のレビュー

時が経つのは早いもので、2012年も静かに終わりを迎えました。 SEO会社員にとって、2012年の年...

インケライブが軌道変更

生放送トラックにおける「斗魚と虎牙」の二強パターンはなかなか破れず、変革を求める英客は社交分野に根を...

2022年ペットフード市場レポート

近年、ペット市場は爆発的な成長を遂げ、ペットフードを主産業とし、医療、サービスなどの産業を補助産業と...

Google、航空券やホテルの有料検索のテストを開始

Google が有料検索に対して常に非常に消極的であったことは誰もが知っています。 Google は...

サイト上の記事を編集するための一般的な最適化原則

私は過去に SEO に関する記事をいくつか書きました。SEO を行う際には、キーワードを中心に記事を...

vpsnet-lt、2 ドル / 1g メモリ / 10g SSD / 50m 無制限トラフィック

vpsnet.lt (2007 年に設立、UAB「Esnet」と提携) は、リトアニアのデータ セン...

BuyVMはどうですか? 10Gbps帯域幅にアップグレードした後のラスベガスデータセンターVPSの評価

buyvm は、すべてのデータ センターのすべての VPS を、無制限のトラフィックで 10 Gbp...