検索エンジンが最も重要な Web ページを最初にクロールする方法を分析します。

検索エンジンが最も重要な Web ページを最初にクロールする方法を分析します。

膨大な量のウェブページに直面した場合、検索エンジンはすべてのウェブページを並行してクロールしません。検索エンジンのデータベースがどれだけ拡張しても、ウェブページの成長率に追いつくことができないためです。検索エンジンは、最も重要なウェブページのクロールを優先します。一方では、データベースを節約し、他方では、一般ユーザーにとっても役立ちます。ユーザーにとって、大量の結果ではなく、最も重要な結果だけが必要だからです。したがって、重要な Web ページの収集を優先して、最も重要な Web ページを最短時間でキャプチャできるようにするのが、優れた収集戦略です。

では、検索エンジンはどのようにして最も重要なページを最初にクロールするのでしょうか?

検索エンジンは、多数の Web ページの特性を分析することで、重要な Web ページには次のような基本的な特性があると判断します。完全に正確ではない場合もありますが、ほとんどの場合は当てはまります。

1) ウェブページは他のウェブページからリンクされています。何度もリンクされていたり、重要なウェブページからリンクされていたりする場合は、重要なウェブページです。

2) ウェブページの親ページは、何度もリンクされているか、重要なウェブページからリンクされています。たとえば、ウェブページがウェブサイトの内部ページであるが、そのホームページが何度もリンクされており、ホームページもこのウェブページにリンクしている場合、このウェブページも比較的重要であることを意味します。

3) ウェブページの内容が広く転載され配布される。

4) Web ページのディレクトリの深さが浅いため、ユーザーが閲覧しやすい。 ここでの「URL ディレクトリの深さ」の定義は、ドメイン名部分を除いた Web ページ URL 内のディレクトリ レベルです。つまり、URL が http://www.domain.com の場合、ディレクトリの深さは 0、http://www.domain.com/cs の場合、ディレクトリの深さは 1 というようになります。 URL ディレクトリの深さが小さい Web ページが必ずしも重要であるとは限らず、ディレクトリの深さが大きい Web ページがまったく重要でないというわけでもないことに注意してください。一部の学術論文には、ディレクトリの深さが非常に長い Web ページ URL が記載されています。重要な Web ページのほとんどは、上記の 4 つの特性を同時に備えています。

5) ウェブサイトのホームページの収集を優先し、ホームページに高い重みを割り当てます。ウェブサイトの数はウェブページの数に比べてはるかに少なく、重要なウェブページはこれらのウェブサイトのホームページからリンクされている必要があります。したがって、収集作業では、できるだけ多くのウェブサイトのホームページを取得することを優先する必要があります。

ここで問題が発生します。検索エンジンが Web ページのクロールを開始すると、その Web ページがリンクされているか、複製されているかがわからない場合があります。つまり、最初の 3 つの項目の特性を最初から知ることはできません。これらの要素は、Web ページまたはほぼすべての Web リンク構造を取得した後にのみ知ることができます。では、この問題をどのように解決するのでしょうか。つまり、機能 4 と 5 はクロール中に知ることができます。機能 4 のみ、URL が「重要」基準を満たしているかどうかを判断するために、Web ページの内容 (Web ページをクロールする前) を知る必要がありません。また、Web ページの URL ディレクトリの深さの計算は、文字列の処理です。統計結果によると、一般的な URL の長さは 256 文字未満であるため、URL ディレクトリの深さを簡単に判断できます。したがって、収集戦略を決定する際には、特性 4 と 5 が考慮すべき最も重要な指針となります。

ただし、リンクの深さでは Web ページの重要性を完全に示すことができないため、機能 4 と 5 には制限があります。では、この問題をどのように解決するのでしょうか? 検索エンジンは次の方法を使用します。

1) URL の重みの設定: URL のディレクトリの深さに応じて決定されます。深さが増すにつれて重みは減少し、最小の重みは 0 です。

2) 初期 URL の重みを固定値に設定します。

3) URL 内に「/」、「?」、または「&」の文字が 1 つ出現すると、重みが 1 つ減ります。

「search」、「proxy」、または「gate」が 1 回使用されると、重みは 1 つの値だけ減少します。最大で 0 まで減少します。 (含む"?"、

「&」を含む URL はパラメータの形式であり、Web ページを取得するには要求されたプログラム サービスを通過する必要があります。検索エンジン システムが注目するのは静的 Web ページではないため、それに応じて重みが軽減されます。 「検索」、「プロキシ」、または「ゲート」が含まれている場合、Web ページは検索エンジンの結果ページまたはプロキシ ページである可能性が高いため、重みを下げる必要があります。

4) 未アクセスの URL に対するポリシーを選択します。重量が小さいということは必ずしも重要ではないということではないので、

小さな重みを持つ未訪問の URL を収集する機会を一定量与えます。未訪問の URL を選択する戦略は、重み付けソートによる 1 回の、ランダム選択による 1 回の、またはランダム選択による N 回のローテーション方式で実装できます。

検索エンジンが大量のウェブページをクロールすると、ウェブページの最初の 3 つの特徴を判断する段階に入り、多数のアルゴリズムを使用してウェブページの品質を決定し、相対的なランキングを付けます。

この記事は51 Heye Tea http://www.51heyecha.com/ より提供されています。

元のタイトル: 検索エンジンが最も重要な Web ページを最初にクロールする方法を分析しますか?

キーワード: クロール、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブサイト最適化診断とSEO監査業務

>>:  ウェブサイトのおすすめ: Airtime は、「友達の友達」と出会えるソーシャル ウェブサイトです

推薦する

ramnode-VPS 5.8% オフ/128M メモリ/5g SSD/500g トラフィック/G ポート/年間支払い $13.92

Ramnode の今回のプロモーションはかなり強力です。128M メモリ搭載の VPS の年間料金が...

ramnode-2月は全VPSが5.8%割引/IPv4が1つ追加

Ramnode の VPS は、生涯 48% の割引を提供しています。アムステルダム、シアトル、アト...

#おすすめ# VPSNET - イースター VPS、35% オフ、その後 15% オフ、24 のデータセンター

20年の歴史を持つイギリスのUK2グループ傘下の専門VPSブランドであるvps.netは、イースター...

Yalo-2.5 USD / 512M RAM / 100G HDD / 10Tフロー

yalo.io は、2009 年に設立されたと主張しています (実際の状況は確認できません)。Goo...

エッジコンピューティングの仕事に必須の 5 つのスキル

IT トレンドの成長を追跡する 1 つの方法は、採用を注意深く監視することです。ある用語が求人市場の...

Baidu シェア最適化実践分析

Baidu は最近、独自の共有ツールである Baidu Share をリリースしました。同時に、同社...

Baidu ウェブマスター プラットフォーム サロン: Baidu Lee が新世代の検索エンジンを発表

「百度ナイト」百度ウェブマスタープラットフォームハイエンドサロン ▪ 上海駅記録A5ウェブマスターネ...

HarmonOS 分散アプリケーションのインテリジェント トライアングル警告サインの解釈

[[439635]]詳細については、以下をご覧ください。 51CTOとHuaweiが共同で構築したH...

記事をすぐに掲載してもらう方法

最近、私はブログを書くのに忙しく、ブログのランキングにも気を配っています。毎日定期的にブログ記事を更...

百度の有名人検索の刷新後のユーザー体験の簡単な分析

今日、百度で有名人を検索したところ、百度がユーザー体験を向上させるために検索結果に新たな改善を加えた...

サイトマップを使用する際に注意すべき 6 つの誤解

1. サイトマップを送信すると、Googleはウェブページをインデックスに登録し、フォーラムでは、「...

エッジコンピューティングと5Gの連携方法

エッジコンピューティングとは正確には何でしょうか? 5G および関連するテクノロジー スタックとどの...

friendhosting: 夏季限定で無制限 VPS が 45% オフ、オプションのデータセンター 8 か所、月額 1.42 ユーロから

friendhosting は先月 12 周年を迎えました。今月は夏のプロモーションとして、8 か国...