検索エンジンによるページインデックスの原理と方法を分析する

検索エンジンによるページインデックスの原理と方法を分析する

検索エンジンに含まれるページは、実際にはインターネット上のデータ収集です。これは検索エンジンの最も基本的な作業です。検索エンジンのコンテンツは、バックグラウンドにある膨大な URL リストから取得されます。これらの URL を通じて、コンテンツは継続的に収集、保存、維持されます。検索エンジン収集のプロセス、原則、および方法を学ぶことで、検索エンジンに含まれる Web サイトの数を効果的に増やすことができます。

1. ページ収集プロセス、

インターネットでは、URL は各ページのエントリ アドレスです。「スパイダー プログラム」は、これらの URL リストを通じてページをクロールします。「スパイダー」は、これらのページから URL リソースとストレージ ページを継続的に取得し、URL リストに追加します。この継続的なサイクルで、検索エンジンはインターネットから十分なページを取得できます。

URL はページへの入り口であり、ドメイン名はウェブサイトへの入り口です。検索エンジンはドメイン名を通じてウェブサイトに入り、URL リソースをマイニングします。言い換えれば、インターネット上のページをクロールする検索エンジンの主なタスクは、ドメイン名の膨大なリストを持ち、ドメイン名を通じてウェブサイトに絶えず入り、ウェブサイト上のページをクロールすることです。

私たちにとって、検索エンジンに含まれたい場合、最初の条件は検索エンジンのドメイン名リストを追加することです。検索エンジンのドメイン名リストを追加するには、2 つの一般的な方法があります。

検索エンジンが提供するウェブサイトログインポータルを使用して、ウェブサイトのドメイン名を検索エンジンに送信します。たとえば、Baidu の: http://www.baidu.com/search/url_submit.html。ここで独自のウェブサイトドメイン名を送信できます。ただし、この方法では、検索エンジンは定期的にクロールして更新するだけです。このアプローチは比較的受動的であり、ドメイン名送信ウェブサイトが含まれるまでに長い時間がかかります。

質の高い「外部リンク」にリンクすることで、検索エンジンは「他人」のウェブサイトページをクロールする際に当社のウェブサイトを見つけ、ウェブサイトの組み込みを達成することができます。この方法は、(十分な「外部リンク」がある限り)主導権を当社に握らせ、組み込み速度は最初の方法よりも速くなります。外部リンクの数と品質の関連性に応じて、通常は2〜7日以内に検索エンジンに組み込まれます。

2. ページ収集の原則

「ページインクルードプロセス」を学ぶことで、ウェブサイトのインクルードを高速化する手法を習得できます。次に、ページインクルードの原則を学習して、検索エンジンにインクルードされるページ数を増やしましょう。

ウェブサイトのページを有向グラフと見なすと、指定されたページから開始し、特定の戦略に従ってページ内のリンクに沿ってウェブサイト内のページを移動します。アクセスした URL を URL リストから継続的に削除し、元のページを保存し、元のページの URL 情報を抽出します。次に、URL をドメイン名と内部 URL の 2 つのカテゴリに分割し、URL がアクセスされたかどうかを判断し、アクセスされていない URL を URL リストに追加します。すべての URL リソースが使い果たされるまで、URL リストを再帰的にスキャンします。これを実行すると、検索エンジンはドメイン名、ページ URL の膨大なリストを構築し、十分な数の元のページを保存できるようになります。

3. ページ収集方法

「ページ収集プロセス」と「ページ収集の原則」を理解していても、検索エンジンで比較的重要なページを取得するには、検索エンジンのページ収集方法が関係します。

ページ収集法とは、検索エンジンがページをクロールする際に使用する戦略を指します。その目的は、インターネット上の比較的重要な情報をフィルタリングすることです。ページ収集法の策定は、検索エンジンのネットワーク構造の理解に依存します。同じクロール戦略を使用すると、検索エンジンは同じ時間内にウェブサイトからより多くのページ リソースをクロールでき、ウェブサイトに長く滞在するため、含まれるページ数も自然に増加します。 したがって、検索エンジンのページがどのようにインデックスされるかをより深く理解することで、Web サイトの使いやすい構造を確立し、インデックスされるページの数を増やすことができます。

検索エンジンがページをインデックスする方法には、主に「幅優先」、「深さ優先」、「ユーザー サブミッション」(ユーザー サブミッションについてはここでは説明しません) の 3 つがあります。これら 3 つのページ インデックス作成方法と、それぞれの利点と欠点を理解しましょう。

幅広さ優先

ウェブサイト全体を木と考えると、ホームページが根であり、各ページが葉になります。幅優先クロールは、ツリーの浅い層からページのクロールを開始し、同じレベルのすべてのページをクロールした後にのみ次の層に移動する水平ページクロール方法です。したがって、Web サイトを最適化するときは、比較的浅い階層のページに比較的重要な情報を表示する必要があります (たとえば、ホームページで人気のあるコンテンツを推奨するなど)。逆に、幅優先クロール方式では、検索エンジンはウェブサイトの比較的重要なページを最初にクロールすることができます。

まず、スパイダーはウェブサイトのホームページから開始し、ホームページ上のリンクが指すすべてのページをクロールしてページセット A を形成し、A 内のすべてのページのリンクを分析します。次に、これらのリンクを追跡して次のレイヤーのページをクロールし、ページセット B を形成します。このようにして、特定の設定条件が満たされるまで、浅いページから深いページへのリンクを再帰的に解析し、その後クロール プロセスを停止します。

深さ優先

幅優先クロール方式とは対照的に、深さ優先クロール方式は、最初に浅いページのリンクを追跡し、次に深いページを徐々にクロールして、最も深いページをクロールします。その後、浅いページに戻り、別のリンクを追跡して深いページへのクロールを続けます。これは垂直ページクロール方式です。深さ優先クロール方式を使用すると、検索エンジンはウェブサイト上のより隠れた人気のないページをクロールできるため、より多くのユーザーのニーズを満たすことができます。

まず、検索エンジンはウェブサイトのホームページをクロールし、ホームページ内のリンクを抽出します。次に、リンクの 1 つに沿ってページ A-1 までクロールし、A-1 内のリンクを取得してページ B-1 をクロールし、B-1 内の着信リンクを取得してページ C-1 をクロールし、このプロセスを継続的に繰り返します。特定の条件が満たされると、ページとリンクは A-2 からクロールされます。

次号では、「ページの検索エンジンインデックス作成(パート 2)」を紹介します。China Webmaster Station と Damin のブログをフォローしてください。

要点:

4. 検索エンジンによる重複インデックスを回避する方法

①検索エンジン転載ページの判定

②検索エンジンミラーページ判定

5. ページメンテナンス方法

① 定期的なクローリング

②増分クロール

③分類と位置合わせクローリング

6. ページストレージ

原題: 検索エンジンによるページインデックスの原理と方法の分析

キーワード: 検索エンジン

<<:  ウェブサイト検索エンジン最適化プログラムの分析例

>>:  BaiduによってウェブサイトがKになった理由を分析する

推薦する

フレンドリーリンクでのマーキー要素の使用が欺瞞的かどうかを分析する

HTML コードで marquee 要素を使用すると、スクロールするテキスト サブタイトルを作成でき...

強みリンクビジョンTik Tokが2018釜山広告祭最大のサプライズに

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますインターネ...

デジタル変革の視点: ソフトウェアインテリジェンスがなければ、企業は真の意味でデジタル経済を受け入れることはできない

歴史の車輪は前へ前へと転がり、時代の流れはうねりをみせています。現在、デジタル経済は前例のない形で世...

高品質なフレンドリーリンクの3つの評価基準

どの業界にも独自の基準があり、フレンドリーリンク業界でも同様です。高品質のフレンドリーリンクは、ウェ...

オンライン学習サイトUdemyが3200万ドルを調達

サンフランシスコ発のオンライン学習ウェブサイトUdemyは本日、3,200万ドルのシリーズC資金調達...

Baidu の画像を宣伝するにはどうすればいいですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています多くの人が...

ハイブリッドクラウド変革のための3つの重要な質問

現在、クラウドベースではないデジタル変革イニシアチブを実施している企業はほとんどありません。実際、ほ...

コミュニティ 3.0: O2O への扉を開く黄金の鍵

さらに読む:モバイルインターネットの革新の課題を救うのはコミュニティ3.0の目の前、BATは震えるO...

大学生が宣伝するのに最適なスキル:人人宣伝

現在、中国の贅沢品消費は米国を上回り、世界最大の贅沢品消費国となっている。その中で、中国の大学生が贅...

2013年に内部リンクを構築する方法

SEOの基本的な作業には、外部リンク構築とサイト内編集に加えて、内部リンク構築も含まれます。当初はオ...

Kウェブサイトを保存する方法を教えます

みなさんこんにちは。私はHongtu Internetです。最近、私たちのクライアントのウェブサイト...

Kafka エキスパートになるためのヒント: プロデューサーの詳細な実践概要

著者についてZhang Jinwei 氏は、Tencent Cloud のメッセージ キュー特別サポ...

割れた口紅と青ショウマの事件からブランドのマーケティングを分析

誤って彼女の口紅を40本以上壊してしまったら、間違いなく死刑宣告です(絶望の笑み)。敬虔な気持ちで三...

毛偉:新しいトップレベルドメイン名の申請が開始され、自分でドメイン名を作成する時代が始まるかもしれない

この日は、第43回ICANN会議が開催された。世界的に新しいトップレベルドメインが開設されたことと重...

海外のサーバーを低価格でレンタルするとリスクが高まる可能性がある

近年、国際インターネットデータセンターの急速な発展に伴い、海外のIDCが中国に進出し、急速に一定の市...