検索エンジンが最も重要な Web ページを最初にクロールする方法を分析します。

膨大な量のウェブページに直面した場合、検索エンジンはすべてのウェブページを並行してクロールしません。検索エンジンのデータベースがどれだけ拡張しても、ウェブページの成長率に追いつくことができないためです。検索エンジンは、最も重要なウェブページのクロールを優先します。一方では、データベースを節約し、他方では、一般ユーザーにとっても役立ちます。ユーザーにとって、大量の結果ではなく、最も重要な結果だけが必要だからです。したがって、重要な Web ページの収集を優先して、最も重要な Web ページを最短時間でキャプチャできるようにするのが、優れた収集戦略です。

では、検索エンジンはどのようにして最も重要なページを最初にクロールするのでしょうか?

検索エンジンは、多数の Web ページの特性を分析することで、重要な Web ページには次のような基本的な特性があると判断します。完全に正確ではない場合もありますが、ほとんどの場合は当てはまります。

1) ウェブページは他のウェブページからリンクされています。何度もリンクされていたり、重要なウェブページからリンクされていたりする場合は、重要なウェブページです。

2) ウェブページの親ページは、何度もリンクされているか、重要なウェブページからリンクされています。たとえば、ウェブページがウェブサイトの内部ページであるが、そのホームページが何度もリンクされており、ホームページもこのウェブページにリンクしている場合、このウェブページも比較的重要であることを意味します。

3) ウェブページの内容が広く転載され配布される。

4) Web ページのディレクトリの深さが浅いため、ユーザーが閲覧しやすい。ここでの「URL ディレクトリの深さ」の定義は、ドメイン名部分を除いた Web ページ URL 内のディレクトリレベルです。つまり、URL が http://www.domain.com の場合、ディレクトリの深さは 0、http://www.domain.com/cs の場合、ディレクトリの深さは 1 というようになります。 URL ディレクトリの深さが小さい Web ページが必ずしも重要であるとは限らず、ディレクトリの深さが大きい Web ページがまったく重要でないというわけでもないことに注意してください。一部の学術論文には、ディレクトリの深さが非常に長い Web ページ URL が記載されています。重要な Web ページのほとんどは、上記の 4 つの特性を同時に備えています。

5) ウェブサイトのホームページの収集を優先し、ホームページに高い重みを割り当てます。ウェブサイトの数はウェブページの数に比べてはるかに少なく、重要なウェブページはこれらのウェブサイトのホームページからリンクされている必要があります。したがって、収集作業では、できるだけ多くのウェブサイトのホームページを取得することを優先する必要があります。

ここで問題が発生します。検索エンジンが Web ページのクロールを開始すると、その Web ページがリンクされているか、複製されているかがわからない場合があります。つまり、最初の 3 つの項目の特性を最初から知ることはできません。これらの要素は、Web ページまたはほぼすべての Web リンク構造を取得した後にのみ知ることができます。では、この問題をどのように解決するのでしょうか。つまり、機能 4 と 5 はクロール中に知ることができます。機能 4 のみ、URL が「重要」基準を満たしているかどうかを判断するために、Web ページの内容 (Web ページをクロールする前) を知る必要がありません。また、Web ページの URL ディレクトリの深さの計算は、文字列の処理です。統計結果によると、一般的な URL の長さは 256 文字未満であるため、URL ディレクトリの深さを簡単に判断できます。したがって、収集戦略を決定する際には、特性 4 と 5 が考慮すべき最も重要な指針となります。

ただし、リンクの深さでは Web ページの重要性を完全に示すことができないため、機能 4 と 5 には制限があります。では、この問題をどのように解決するのでしょうか? 検索エンジンは次の方法を使用します。

1) URL の重みの設定: URL のディレクトリの深さに応じて決定されます。深さが増すにつれて重みは減少し、最小の重みは 0 です。

2) 初期 URL の重みを固定値に設定します。

3) URL 内に「/」、「?」、または「&」の文字が 1 つ出現すると、重みが 1 つ減ります。

「search」、「proxy」、または「gate」が 1 回使用されると、重みは 1 つの値だけ減少します。最大で 0 まで減少します。（含む"？"、

「&」を含む URL はパラメータの形式であり、Web ページを取得するには要求されたプログラムサービスを通過する必要があります。検索エンジンシステムが注目するのは静的 Web ページではないため、それに応じて重みが軽減されます。「検索」、「プロキシ」、または「ゲート」が含まれている場合、Web ページは検索エンジンの結果ページまたはプロキシページである可能性が高いため、重みを下げる必要があります。

4) 未アクセスの URL に対するポリシーを選択します。重量が小さいということは必ずしも重要ではないということではないので、

小さな重みを持つ未訪問の URL を収集する機会を一定量与えます。未訪問の URL を選択する戦略は、重み付けソートによる 1 回の、ランダム選択による 1 回の、またはランダム選択による N 回のローテーション方式で実装できます。

検索エンジンが大量のウェブページをクロールすると、ウェブページの最初の 3 つの特徴を判断する段階に入り、多数のアルゴリズムを使用してウェブページの品質を決定し、相対的なランキングを付けます。

この記事は51 Heye Tea http://www.51heyecha.com/ より提供されています。

元のタイトル: 検索エンジンが最も重要な Web ページを最初にクロールする方法を分析しますか?

キーワード: クロール、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: ウェブサイト最適化診断とSEO監査業務

Webmaster.com からの毎日のレポート: Robin Li と Zhang Jindong が、Hubo と Vancl に Chuke の買収を提案

検索エンジンが最も重要な Web ページを最初にクロールする方法を分析します。

Webmaster.com からの毎日のレポート: Robin Li と Zhang Jindong が、Hubo と Vancl に Chuke の買収を提案

企業はネットワークマーケティングをどのように選択すべきか

広東省初の国産「クラウドコンピューティング」プラットフォームが政府を欺いたと非難される

ファーウェイクラウドオンライン教育イノベーションシーズンが開始、365イノベーションアップグレードパッケージが5G時代の教育アップグレードを全面的にサポート

「2014年インターネット浄化」特別キャンペーンが始まり、オンライン文学界に動揺を引き起こし、いくつかの文学サイトがメンテナンスと修正を受けている。

Baidu 検索の右側の「他のユーザーも検索」に表示されるウェブサイトはどれですか

昆山農村商業銀行とテンセントクラウドは、新たな銀行インフラと新たな接続を共同で構築するための戦略的協定を締結した。

外部リンク: 史上最も包括的な外部リンクの説明

SEO の技術的なハードルが非常に低い場合でも、この方法でコンテンツを作成しますか?

ユーラシアクラウドはどうですか？ロサンゼルス聯通AS9929回線のクラウドサーバーの評価、TikTok/Netflixのブロック解除

推薦する

ramnode-VPS 5.8% オフ/128M メモリ/5g SSD/500g トラフィック/G ポート/年間支払い $13.92

ramnode-2月は全VPSが5.8%割引/IPv4が1つ追加

#おすすめ# VPSNET - イースター VPS、35% オフ、その後 15% オフ、24 のデータセンター

Yalo-2.5 USD / 512M RAM / 100G HDD / 10Tフロー

エッジコンピューティングの仕事に必須の 5 つのスキル

Baidu シェア最適化実践分析

Baidu ウェブマスタープラットフォームサロン: Baidu Lee が新世代の検索エンジンを発表

HarmonOS 分散アプリケーションのインテリジェントトライアングル警告サインの解釈

記事をすぐに掲載してもらう方法

百度の有名人検索の刷新後のユーザー体験の簡単な分析

サイトマップを使用する際に注意すべき 6 つの誤解

エッジコンピューティングと5Gの連携方法

2022年第17回中国企業年次選考リストが発表されました。VMware Cross-Cloud™ Servicesが2022年IT業界先進クロスクラウドサービスソリューション賞を受賞しました。

friendhosting: 明けましておめでとうございます。8 つのデータセンターで無制限の VPS、45% 割引、半年あたり 7.18 ユーロから

friendhosting: 夏季限定で無制限 VPS が 45% オフ、オプションのデータセンター 8 か所、月額 1.42 ユーロから