膨大な量のウェブページに直面した場合、検索エンジンはすべてのウェブページを並行してクロールしません。検索エンジンのデータベースがどれだけ拡張しても、ウェブページの成長率に追いつくことができないためです。検索エンジンは、最も重要なウェブページのクロールを優先します。一方では、データベースを節約し、他方では、一般ユーザーにとっても役立ちます。ユーザーにとって、大量の結果ではなく、最も重要な結果だけが必要だからです。したがって、重要な Web ページの収集を優先して、最も重要な Web ページを最短時間でキャプチャできるようにするのが、優れた収集戦略です。 では、検索エンジンはどのようにして最も重要なページを最初にクロールするのでしょうか? 検索エンジンは、多数の Web ページの特性を分析することで、重要な Web ページには次のような基本的な特性があると判断します。完全に正確ではない場合もありますが、ほとんどの場合は当てはまります。 1) ウェブページは他のウェブページからリンクされています。何度もリンクされていたり、重要なウェブページからリンクされていたりする場合は、重要なウェブページです。 2) ウェブページの親ページは、何度もリンクされているか、重要なウェブページからリンクされています。たとえば、ウェブページがウェブサイトの内部ページであるが、そのホームページが何度もリンクされており、ホームページもこのウェブページにリンクしている場合、このウェブページも比較的重要であることを意味します。 3) ウェブページの内容が広く転載され配布される。 4) Web ページのディレクトリの深さが浅いため、ユーザーが閲覧しやすい。 ここでの「URL ディレクトリの深さ」の定義は、ドメイン名部分を除いた Web ページ URL 内のディレクトリ レベルです。つまり、URL が http://www.domain.com の場合、ディレクトリの深さは 0、http://www.domain.com/cs の場合、ディレクトリの深さは 1 というようになります。 URL ディレクトリの深さが小さい Web ページが必ずしも重要であるとは限らず、ディレクトリの深さが大きい Web ページがまったく重要でないというわけでもないことに注意してください。一部の学術論文には、ディレクトリの深さが非常に長い Web ページ URL が記載されています。重要な Web ページのほとんどは、上記の 4 つの特性を同時に備えています。 5) ウェブサイトのホームページの収集を優先し、ホームページに高い重みを割り当てます。ウェブサイトの数はウェブページの数に比べてはるかに少なく、重要なウェブページはこれらのウェブサイトのホームページからリンクされている必要があります。したがって、収集作業では、できるだけ多くのウェブサイトのホームページを取得することを優先する必要があります。 ここで問題が発生します。検索エンジンが Web ページのクロールを開始すると、その Web ページがリンクされているか、複製されているかがわからない場合があります。つまり、最初の 3 つの項目の特性を最初から知ることはできません。これらの要素は、Web ページまたはほぼすべての Web リンク構造を取得した後にのみ知ることができます。では、この問題をどのように解決するのでしょうか。つまり、機能 4 と 5 はクロール中に知ることができます。機能 4 のみ、URL が「重要」基準を満たしているかどうかを判断するために、Web ページの内容 (Web ページをクロールする前) を知る必要がありません。また、Web ページの URL ディレクトリの深さの計算は、文字列の処理です。統計結果によると、一般的な URL の長さは 256 文字未満であるため、URL ディレクトリの深さを簡単に判断できます。したがって、収集戦略を決定する際には、特性 4 と 5 が考慮すべき最も重要な指針となります。 ただし、リンクの深さでは Web ページの重要性を完全に示すことができないため、機能 4 と 5 には制限があります。では、この問題をどのように解決するのでしょうか? 検索エンジンは次の方法を使用します。 1) URL の重みの設定: URL のディレクトリの深さに応じて決定されます。深さが増すにつれて重みは減少し、最小の重みは 0 です。 2) 初期 URL の重みを固定値に設定します。 3) URL 内に「/」、「?」、または「&」の文字が 1 つ出現すると、重みが 1 つ減ります。 「search」、「proxy」、または「gate」が 1 回使用されると、重みは 1 つの値だけ減少します。最大で 0 まで減少します。 (含む"?"、 「&」を含む URL はパラメータの形式であり、Web ページを取得するには要求されたプログラム サービスを通過する必要があります。検索エンジン システムが注目するのは静的 Web ページではないため、それに応じて重みが軽減されます。 「検索」、「プロキシ」、または「ゲート」が含まれている場合、Web ページは検索エンジンの結果ページまたはプロキシ ページである可能性が高いため、重みを下げる必要があります。 4) 未アクセスの URL に対するポリシーを選択します。重量が小さいということは必ずしも重要ではないということではないので、 小さな重みを持つ未訪問の URL を収集する機会を一定量与えます。未訪問の URL を選択する戦略は、重み付けソートによる 1 回の、ランダム選択による 1 回の、またはランダム選択による N 回のローテーション方式で実装できます。 検索エンジンが大量のウェブページをクロールすると、ウェブページの最初の 3 つの特徴を判断する段階に入り、多数のアルゴリズムを使用してウェブページの品質を決定し、相対的なランキングを付けます。 この記事は51 Heye Tea http://www.51heyecha.com/ より提供されています。 元のタイトル: 検索エンジンが最も重要な Web ページを最初にクロールする方法を分析しますか? キーワード: クロール、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
>>: ウェブサイトのおすすめ: Airtime は、「友達の友達」と出会えるソーシャル ウェブサイトです
「百度鉄破 - 世界最大の中国コミュニティ」、これは鉄破のタイトル部分であり、確かに最大です。中国最...
ストレージ大手の EMC と IBM は、企業の IT 購入モデルの複雑さを簡素化する第一歩として、...
moonvm は 2017 年 3 月から台湾 VPS サービスを提供しています。デフォルトで動的 ...
Lisahost は、台湾 ISP IP/台湾住宅 IP/台湾ネイティブ IP、純粋な IP、Sca...
みなさんこんにちは。私はハルビン仮想および現実ウェブサイト設計です。最近、いくつかの新しいウェブサイ...
Hostodo は、前回のプロモーション [hostodo - 30% オフ (KVM)/Windo...
自己紹介をさせてください。私はニューメディア業界で3年間働いてきました。最初の1年間はニューメディア...
Hostcat は、QN データセンターが所有するブランドである Pacificrack から最新の...
ウェブサイトのフレンドリー リンクについては、ほとんどのウェブマスターが知っているはずです。なぜなら...
徐州整形外科ネットワークは運営開始から3年が経ちましたが、6月28日の大幅な降格後、トラフィックはほ...
全能の Google によると、直帰率とは、ウェブサイトにアクセスし、1 ページだけ閲覧した後に離脱...
昨今、「新しいインフラ」があらゆる方面から注目を集めていることは間違いありません。各業界における「新...
どれくらいの人が Taobao ストアを運営し始めたのかはわかりません。私の友人や同僚の多くが Ta...
中国で最も人気のあるウェブマスターフォーラムの1つであるA5は、情報、取引、フォーラムを統合し、大多...
長い期間の思考と計画を経て、私はついに ZhanBang.com の構築を開始することを決定しました...