検索エンジンが最も重要な Web ページを最初にクロールする方法を分析します。

検索エンジンが最も重要な Web ページを最初にクロールする方法を分析します。

膨大な量のウェブページに直面した場合、検索エンジンはすべてのウェブページを並行してクロールしません。検索エンジンのデータベースがどれだけ拡張しても、ウェブページの成長率に追いつくことができないためです。検索エンジンは、最も重要なウェブページのクロールを優先します。一方では、データベースを節約し、他方では、一般ユーザーにとっても役立ちます。ユーザーにとって、大量の結果ではなく、最も重要な結果だけが必要だからです。したがって、重要な Web ページの収集を優先して、最も重要な Web ページを最短時間でキャプチャできるようにするのが、優れた収集戦略です。

では、検索エンジンはどのようにして最も重要なページを最初にクロールするのでしょうか?

検索エンジンは、多数の Web ページの特性を分析することで、重要な Web ページには次のような基本的な特性があると判断します。完全に正確ではない場合もありますが、ほとんどの場合は当てはまります。

1) ウェブページは他のウェブページからリンクされています。何度もリンクされていたり、重要なウェブページからリンクされていたりする場合は、重要なウェブページです。

2) ウェブページの親ページは、何度もリンクされているか、重要なウェブページからリンクされています。たとえば、ウェブページがウェブサイトの内部ページであるが、そのホームページが何度もリンクされており、ホームページもこのウェブページにリンクしている場合、このウェブページも比較的重要であることを意味します。

3) ウェブページの内容が広く転載され配布される。

4) Web ページのディレクトリの深さが浅いため、ユーザーが閲覧しやすい。 ここでの「URL ディレクトリの深さ」の定義は、ドメイン名部分を除いた Web ページ URL 内のディレクトリ レベルです。つまり、URL が http://www.domain.com の場合、ディレクトリの深さは 0、http://www.domain.com/cs の場合、ディレクトリの深さは 1 というようになります。 URL ディレクトリの深さが小さい Web ページが必ずしも重要であるとは限らず、ディレクトリの深さが大きい Web ページがまったく重要でないというわけでもないことに注意してください。一部の学術論文には、ディレクトリの深さが非常に長い Web ページ URL が記載されています。重要な Web ページのほとんどは、上記の 4 つの特性を同時に備えています。

5) ウェブサイトのホームページの収集を優先し、ホームページに高い重みを割り当てます。ウェブサイトの数はウェブページの数に比べてはるかに少なく、重要なウェブページはこれらのウェブサイトのホームページからリンクされている必要があります。したがって、収集作業では、できるだけ多くのウェブサイトのホームページを取得することを優先する必要があります。

ここで問題が発生します。検索エンジンが Web ページのクロールを開始すると、その Web ページがリンクされているか、複製されているかがわからない場合があります。つまり、最初の 3 つの項目の特性を最初から知ることはできません。これらの要素は、Web ページまたはほぼすべての Web リンク構造を取得した後にのみ知ることができます。では、この問題をどのように解決するのでしょうか。つまり、機能 4 と 5 はクロール中に知ることができます。機能 4 のみ、URL が「重要」基準を満たしているかどうかを判断するために、Web ページの内容 (Web ページをクロールする前) を知る必要がありません。また、Web ページの URL ディレクトリの深さの計算は、文字列の処理です。統計結果によると、一般的な URL の長さは 256 文字未満であるため、URL ディレクトリの深さを簡単に判断できます。したがって、収集戦略を決定する際には、特性 4 と 5 が考慮すべき最も重要な指針となります。

ただし、リンクの深さでは Web ページの重要性を完全に示すことができないため、機能 4 と 5 には制限があります。では、この問題をどのように解決するのでしょうか? 検索エンジンは次の方法を使用します。

1) URL の重みの設定: URL のディレクトリの深さに応じて決定されます。深さが増すにつれて重みは減少し、最小の重みは 0 です。

2) 初期 URL の重みを固定値に設定します。

3) URL 内に「/」、「?」、または「&」の文字が 1 つ出現すると、重みが 1 つ減ります。

「search」、「proxy」、または「gate」が 1 回使用されると、重みは 1 つの値だけ減少します。最大で 0 まで減少します。 (含む"?"、

「&」を含む URL はパラメータの形式であり、Web ページを取得するには要求されたプログラム サービスを通過する必要があります。検索エンジン システムが注目するのは静的 Web ページではないため、それに応じて重みが軽減されます。 「検索」、「プロキシ」、または「ゲート」が含まれている場合、Web ページは検索エンジンの結果ページまたはプロキシ ページである可能性が高いため、重みを下げる必要があります。

4) 未アクセスの URL に対するポリシーを選択します。重量が小さいということは必ずしも重要ではないということではないので、

小さな重みを持つ未訪問の URL を収集する機会を一定量与えます。未訪問の URL を選択する戦略は、重み付けソートによる 1 回の、ランダム選択による 1 回の、またはランダム選択による N 回のローテーション方式で実装できます。

検索エンジンが大量のウェブページをクロールすると、ウェブページの最初の 3 つの特徴を判断する段階に入り、多数のアルゴリズムを使用してウェブページの品質を決定し、相対的なランキングを付けます。

この記事は51 Heye Tea http://www.51heyecha.com/ より提供されています。

元のタイトル: 検索エンジンが最も重要な Web ページを最初にクロールする方法を分析しますか?

キーワード: クロール、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブサイト最適化診断とSEO監査業務

>>:  ウェブサイトのおすすめ: Airtime は、「友達の友達」と出会えるソーシャル ウェブサイトです

推薦する

短期賃貸サイト「Airbnb」の評価額は30億ドル。なぜ中国にはまだ登場しないのか?

Airbnbのような短期賃貸住宅のアイデアがどこから来たかご存知ですか?Airbnbは実はAirBe...

#11.11# MoeCloud: US cn2 gia VPS、299元/年、512Mメモリ/1コア/10gSSD/500Gトラフィック/1Gbps帯域幅

MoeCloudはダブルイレブンのプロモーションを逃しましたが、遅くてもやらないよりはましです。公式...

海外のオンライン購入代理店が締め付け強化:加盟店は不安で撤退を希望

ナンドゥコミックス:チェン・ティン専門家は、購買代理店の数が膨大であると考えています。これまでの法律...

入札自体は悪いことではないが、360度は合理的であるべきだ

草の根ウェブマスターとして、私は検索業界の変化に対して無力感を感じています。大手企業間の検索紛争によ...

#11.11# kuroit: 年間 11.11 ポンド、2G メモリ/1 コア/22G SSD/22T データ転送、英国/米国

kuroitはインド人によって設立され、9月に英国で登録されました(ここをクリック)。主な事業はホス...

検索エンジンにK-edされないようにするには、次の3つのことを行ってください。

ウェブマスターの成長には常に紆余曲折があります。継続的な探求の過程で、自分のウェブサイトが K アウ...

Baidu 検索研究開発部: インデックスページリンク補完メカニズムの手法

インデックスページリンク補完メカニズムの手法1. 背景スパイダーは、検索エンジンのデータ フローの最...

Alibaba Cloudデータセンターのアップグレードにより、きめ細かなシナリオが深まり、新しい小売業のデジタル化が加速

9月18日、2020年雲奇カンファレンスにおいて、アリババクラウドのデータミドルウェア製品が全面的に...

グループ購入ウェブサイトを成功に導くための簡単な例

共同購入ネットワークモデルが国内で普及した後、その発展は止められなくなり、共同購入ウェブサイトの数は...

Alibaba Cloud PolarDB データベースはクラウド ネイティブを極限まで高めます。業界初の3層プーリング

10月20日、アリババクラウドは2021年雲旗大会において、自社開発のクラウドネイティブリレーショナ...

【ネットワークが眩しすぎて見れない】: globalfrag-CN2ネットワークのKVM仮想VPSの簡単なレビュー

テスト用に globalfrag.com の CN2 ネットワーク ライン KVM 仮想 VPS を...

トラフィック競争に勝つための 2014 年の SEO の 3 つの主要トレンド

最近、オンライン マーケティング スタートアップ企業 Ranky.co の共同設立者兼 CEO であ...

パブリッククラウドのセキュリティについてお話ししましょう

[[432310]]みなさんこんにちは、ミン兄弟です!クラウドセキュリティは現在注目されている話題で...

販売の観点からeコマースの本質を語る

電子商取引をどのように行うかに関係なく、最終的に確認するデータは売上です。誰もがこの公式を知っていま...

Google が Flash ページのインデックスを停止

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスGoogle 検索は F...