検索エンジンによるページインデックスの原理と方法を分析する

検索エンジンに含まれるページは、実際にはインターネット上のデータ収集です。これは検索エンジンの最も基本的な作業です。検索エンジンのコンテンツは、バックグラウンドにある膨大な URL リストから取得されます。これらの URL を通じて、コンテンツは継続的に収集、保存、維持されます。検索エンジン収集のプロセス、原則、および方法を学ぶことで、検索エンジンに含まれる Web サイトの数を効果的に増やすことができます。

1. ページ収集プロセス、

インターネットでは、URL は各ページのエントリアドレスです。「スパイダープログラム」は、これらの URL リストを通じてページをクロールします。「スパイダー」は、これらのページから URL リソースとストレージページを継続的に取得し、URL リストに追加します。この継続的なサイクルで、検索エンジンはインターネットから十分なページを取得できます。

URL はページへの入り口であり、ドメイン名はウェブサイトへの入り口です。検索エンジンはドメイン名を通じてウェブサイトに入り、URL リソースをマイニングします。言い換えれば、インターネット上のページをクロールする検索エンジンの主なタスクは、ドメイン名の膨大なリストを持ち、ドメイン名を通じてウェブサイトに絶えず入り、ウェブサイト上のページをクロールすることです。

私たちにとって、検索エンジンに含まれたい場合、最初の条件は検索エンジンのドメイン名リストを追加することです。検索エンジンのドメイン名リストを追加するには、2 つの一般的な方法があります。

検索エンジンが提供するウェブサイトログインポータルを使用して、ウェブサイトのドメイン名を検索エンジンに送信します。たとえば、Baidu の: http://www.baidu.com/search/url_submit.html。ここで独自のウェブサイトドメイン名を送信できます。ただし、この方法では、検索エンジンは定期的にクロールして更新するだけです。このアプローチは比較的受動的であり、ドメイン名送信ウェブサイトが含まれるまでに長い時間がかかります。

質の高い「外部リンク」にリンクすることで、検索エンジンは「他人」のウェブサイトページをクロールする際に当社のウェブサイトを見つけ、ウェブサイトの組み込みを達成することができます。この方法は、（十分な「外部リンク」がある限り）主導権を当社に握らせ、組み込み速度は最初の方法よりも速くなります。外部リンクの数と品質の関連性に応じて、通常は2〜7日以内に検索エンジンに組み込まれます。

2. ページ収集の原則

「ページインクルードプロセス」を学ぶことで、ウェブサイトのインクルードを高速化する手法を習得できます。次に、ページインクルードの原則を学習して、検索エンジンにインクルードされるページ数を増やしましょう。

ウェブサイトのページを有向グラフと見なすと、指定されたページから開始し、特定の戦略に従ってページ内のリンクに沿ってウェブサイト内のページを移動します。アクセスした URL を URL リストから継続的に削除し、元のページを保存し、元のページの URL 情報を抽出します。次に、URL をドメイン名と内部 URL の 2 つのカテゴリに分割し、URL がアクセスされたかどうかを判断し、アクセスされていない URL を URL リストに追加します。すべての URL リソースが使い果たされるまで、URL リストを再帰的にスキャンします。これを実行すると、検索エンジンはドメイン名、ページ URL の膨大なリストを構築し、十分な数の元のページを保存できるようになります。

3. ページ収集方法

「ページ収集プロセス」と「ページ収集の原則」を理解していても、検索エンジンで比較的重要なページを取得するには、検索エンジンのページ収集方法が関係します。

ページ収集法とは、検索エンジンがページをクロールする際に使用する戦略を指します。その目的は、インターネット上の比較的重要な情報をフィルタリングすることです。ページ収集法の策定は、検索エンジンのネットワーク構造の理解に依存します。同じクロール戦略を使用すると、検索エンジンは同じ時間内にウェブサイトからより多くのページリソースをクロールでき、ウェブサイトに長く滞在するため、含まれるページ数も自然に増加します。したがって、検索エンジンのページがどのようにインデックスされるかをより深く理解することで、Web サイトの使いやすい構造を確立し、インデックスされるページの数を増やすことができます。

検索エンジンがページをインデックスする方法には、主に「幅優先」、「深さ優先」、「ユーザーサブミッション」(ユーザーサブミッションについてはここでは説明しません) の 3 つがあります。これら 3 つのページインデックス作成方法と、それぞれの利点と欠点を理解しましょう。

幅広さ優先

ウェブサイト全体を木と考えると、ホームページが根であり、各ページが葉になります。幅優先クロールは、ツリーの浅い層からページのクロールを開始し、同じレベルのすべてのページをクロールした後にのみ次の層に移動する水平ページクロール方法です。したがって、Web サイトを最適化するときは、比較的浅い階層のページに比較的重要な情報を表示する必要があります (たとえば、ホームページで人気のあるコンテンツを推奨するなど)。逆に、幅優先クロール方式では、検索エンジンはウェブサイトの比較的重要なページを最初にクロールすることができます。

まず、スパイダーはウェブサイトのホームページから開始し、ホームページ上のリンクが指すすべてのページをクロールしてページセット A を形成し、A 内のすべてのページのリンクを分析します。次に、これらのリンクを追跡して次のレイヤーのページをクロールし、ページセット B を形成します。このようにして、特定の設定条件が満たされるまで、浅いページから深いページへのリンクを再帰的に解析し、その後クロールプロセスを停止します。

深さ優先

幅優先クロール方式とは対照的に、深さ優先クロール方式は、最初に浅いページのリンクを追跡し、次に深いページを徐々にクロールして、最も深いページをクロールします。その後、浅いページに戻り、別のリンクを追跡して深いページへのクロールを続けます。これは垂直ページクロール方式です。深さ優先クロール方式を使用すると、検索エンジンはウェブサイト上のより隠れた人気のないページをクロールできるため、より多くのユーザーのニーズを満たすことができます。

まず、検索エンジンはウェブサイトのホームページをクロールし、ホームページ内のリンクを抽出します。次に、リンクの 1 つに沿ってページ A-1 までクロールし、A-1 内のリンクを取得してページ B-1 をクロールし、B-1 内の着信リンクを取得してページ C-1 をクロールし、このプロセスを継続的に繰り返します。特定の条件が満たされると、ページとリンクは A-2 からクロールされます。

次号では、「ページの検索エンジンインデックス作成（パート 2）」を紹介します。China Webmaster Station と Damin のブログをフォローしてください。

要点:

4. 検索エンジンによる重複インデックスを回避する方法

①検索エンジン転載ページの判定

②検索エンジンミラーページ判定

5. ページメンテナンス方法

① 定期的なクローリング

②増分クロール

③分類と位置合わせクローリング

6. ページストレージ

原題: 検索エンジンによるページインデックスの原理と方法の分析

キーワード: 検索エンジン