膨大な量のウェブページに直面した場合、検索エンジンはすべてのウェブページを並行してクロールしません。検索エンジンのデータベースがどれだけ拡張しても、ウェブページの成長率に追いつくことができないためです。検索エンジンは、最も重要なウェブページのクロールを優先します。一方では、データベースを節約し、他方では、一般ユーザーにとっても役立ちます。ユーザーにとって、大量の結果ではなく、最も重要な結果だけが必要だからです。したがって、重要な Web ページの収集を優先して、最も重要な Web ページを最短時間でキャプチャできるようにするのが、優れた収集戦略です。 では、検索エンジンはどのようにして最も重要なページを最初にクロールするのでしょうか? 検索エンジンは、多数の Web ページの特性を分析することで、重要な Web ページには次のような基本的な特性があると判断します。完全に正確ではない場合もありますが、ほとんどの場合は当てはまります。 1) ウェブページは他のウェブページからリンクされています。何度もリンクされていたり、重要なウェブページからリンクされていたりする場合は、重要なウェブページです。 2) ウェブページの親ページは、何度もリンクされているか、重要なウェブページからリンクされています。たとえば、ウェブページがウェブサイトの内部ページであるが、そのホームページが何度もリンクされており、ホームページもこのウェブページにリンクしている場合、このウェブページも比較的重要であることを意味します。 3) ウェブページの内容が広く転載され配布される。 4) Web ページのディレクトリの深さが浅いため、ユーザーが閲覧しやすい。 ここでの「URL ディレクトリの深さ」の定義は、ドメイン名部分を除いた Web ページ URL 内のディレクトリ レベルです。つまり、URL が http://www.domain.com の場合、ディレクトリの深さは 0、http://www.domain.com/cs の場合、ディレクトリの深さは 1 というようになります。 URL ディレクトリの深さが小さい Web ページが必ずしも重要であるとは限らず、ディレクトリの深さが大きい Web ページがまったく重要でないというわけでもないことに注意してください。一部の学術論文には、ディレクトリの深さが非常に長い Web ページ URL が記載されています。重要な Web ページのほとんどは、上記の 4 つの特性を同時に備えています。 5) ウェブサイトのホームページの収集を優先し、ホームページに高い重みを割り当てます。ウェブサイトの数はウェブページの数に比べてはるかに少なく、重要なウェブページはこれらのウェブサイトのホームページからリンクされている必要があります。したがって、収集作業では、できるだけ多くのウェブサイトのホームページを取得することを優先する必要があります。 ここで問題が発生します。検索エンジンが Web ページのクロールを開始すると、その Web ページがリンクされているか、複製されているかがわからない場合があります。つまり、最初の 3 つの項目の特性を最初から知ることはできません。これらの要素は、Web ページまたはほぼすべての Web リンク構造を取得した後にのみ知ることができます。では、この問題をどのように解決するのでしょうか。つまり、機能 4 と 5 はクロール中に知ることができます。機能 4 のみ、URL が「重要」基準を満たしているかどうかを判断するために、Web ページの内容 (Web ページをクロールする前) を知る必要がありません。また、Web ページの URL ディレクトリの深さの計算は、文字列の処理です。統計結果によると、一般的な URL の長さは 256 文字未満であるため、URL ディレクトリの深さを簡単に判断できます。したがって、収集戦略を決定する際には、特性 4 と 5 が考慮すべき最も重要な指針となります。 ただし、リンクの深さでは Web ページの重要性を完全に示すことができないため、機能 4 と 5 には制限があります。では、この問題をどのように解決するのでしょうか? 検索エンジンは次の方法を使用します。 1) URL の重みの設定: URL のディレクトリの深さに応じて決定されます。深さが増すにつれて重みは減少し、最小の重みは 0 です。 2) 初期 URL の重みを固定値に設定します。 3) URL 内に「/」、「?」、または「&」の文字が 1 つ出現すると、重みが 1 つ減ります。 「search」、「proxy」、または「gate」が 1 回使用されると、重みは 1 つの値だけ減少します。最大で 0 まで減少します。 (含む"?"、 「&」を含む URL はパラメータの形式であり、Web ページを取得するには要求されたプログラム サービスを通過する必要があります。検索エンジン システムが注目するのは静的 Web ページではないため、それに応じて重みが軽減されます。 「検索」、「プロキシ」、または「ゲート」が含まれている場合、Web ページは検索エンジンの結果ページまたはプロキシ ページである可能性が高いため、重みを下げる必要があります。 4) 未アクセスの URL に対するポリシーを選択します。重量が小さいということは必ずしも重要ではないということではないので、 小さな重みを持つ未訪問の URL を収集する機会を一定量与えます。未訪問の URL を選択する戦略は、重み付けソートによる 1 回の、ランダム選択による 1 回の、またはランダム選択による N 回のローテーション方式で実装できます。 検索エンジンが大量のウェブページをクロールすると、ウェブページの最初の 3 つの特徴を判断する段階に入り、多数のアルゴリズムを使用してウェブページの品質を決定し、相対的なランキングを付けます。 この記事は51 Heye Tea http://www.51heyecha.com/ より提供されています。 元のタイトル: 検索エンジンが最も重要な Web ページを最初にクロールする方法を分析しますか? キーワード: クロール、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
>>: ウェブサイトのおすすめ: Airtime は、「友達の友達」と出会えるソーシャル ウェブサイトです
今日の技術的に進歩した社会では、データセンターは現在の IT インフラストラクチャの不可欠な部分にな...
ブランドはビリビリへの投資をしないことを選択しているのでしょうか、それとも密かにビリビリで「競争」し...
みなさんこんにちは。私はネット民の朱偉坤です。記事を書く目的は客観的に書くことです。個人攻撃はしない...
デスクトップクラウドの進化と、世代から世代へと受け継がれてきたさまざまなデスクトップ管理技術は、「デ...
5G時代では、基本的なネットワークアーキテクチャに大きな変化が起こります。最も重要な機能の 1 つは...
SEO(検索エンジン最適化)、または検索エンジン最適化とは、簡単に言えば、適切な手段を使用してウェブ...
1. Inspektor Gadget とは何ですか? Inspektor Gadget は、Kub...
微博の実名制がカウントダウンに入りつつある。昨日、新浪、捜狐、網易、騰訊の4大ポータルサイトが3月1...
[[377711]] 5G の 3 つの主要なアプリケーション シナリオは、eMBB (拡張モバイル...
ウェブサイトの最適化手法に関しては、インターネット上にさまざまな意見がありますが、抽出できる有用な情...
資本市場はビリビリの前四半期の財務報告に失望した。ユーザー規模(MAUとDAU)は前月比で増加しなか...
今はインターネットの時代です。インターネットマーケティングは企業に徐々に認知されてきました。インター...
デジタルオーシャンはどうですか? DigitalOcean のネットワークの現在の状況はどうですか?...
Digital-vmは、中国市場の「11.11」と欧米の「ブラックフライデー」に対応して、11月中、...
uuuvps は、米国ロサンゼルスで China Unicom の AS9929 ハイエンド回線上に...