検索エンジンのスパイダーはどのようにしてページをクロールするのでしょうか?

2018年最もホットなプロジェクト：テレマーケティングロボットがあなたの参加を待っています

検索エンジンスパイダーは、検索エンジンシステムでは「スパイダー」または「ロボット」とも呼ばれ、Web ページをクロールしてアクセスするために使用されるプログラムです。

今日、Xiaoxiaoketang.com は「検索エンジンスパイダーがページをクロールしてスクレイピングする仕組み」に関するチュートリアルをお届けします。これが皆さんのお役に立てば幸いです。

1. 検索エンジンスパイダーの紹介

① クローリング原理

検索エンジンのスパイダーが Web ページにアクセスするプロセスは、ユーザーが使用するブラウザに似ています。

検索エンジンのスパイダーはページにアクセス要求を送信し、ページのサーバーはページの HTML コードを返します。

検索エンジンスパイダーは、受信した HTML コードを検索エンジンの元のページデータベースに保存します。

② クロールのやり方

検索エンジンスパイダーの作業効率を向上させるために、通常は複数のスパイダーを同時に使用してクロールします。

同時に、分散クロールには深さ優先と幅優先の 2 つのモードがあります。

深さ優先: リンクがなくなるまで、見つかったリンクに沿ってクロールします。

幅優先: このページのすべてのリンクがクロールされた後、第 2 レベルのページに沿ってクロールが続行されます。

③ クモが守らなければならない規則

ウェブサイトにアクセスする前に、検索エンジンのスパイダーはまずウェブサイトのルートディレクトリにある robots.txt ファイルにアクセスします。

検索エンジンのスパイダーは、robots.txt ファイルでクロールが禁止されているファイルやディレクトリをクロールしません。

④ 一般的な検索エンジンスパイダー

百度スパイダー: Baiduspider

Google スパイダー: Googlebot

360スパイダー: 360スパイダー

ソソグモ：ソソグモ

Youdao スパイダー: YoudaoBot、YodaoBot

ソゴウニューススパイダー

Bing スパイダー: bingbot

アレクサスパイダー: ia_archiver

2. 検索エンジンスパイダーをもっと惹きつける方法

インターネット情報は非常に人気があり、検索エンジンのスパイダーがすべてのウェブサイトのすべてのリンクをクロールすることは不可能です。そのため、より多くの検索エンジンのスパイダーにウェブサイトをクロールしてもらうことが非常に重要です。

① インバウンドリンク

外部リンクであろうと内部リンクであろうと、インポートがある場合にのみ、検索エンジンのスパイダーはページの存在を認識できます。したがって、外部リンクを増やすと、より多くのスパイダーが訪問しやすくなります。

② ページ更新頻度

ページが頻繁に更新されるほど、検索エンジンのスパイダーがそのページを訪問する回数が増えます。

③ ウェブサイトとページの権威

ウェブサイト全体の重みと特定のページ（ページでもあるホームページを含む）の重みは、スパイダーの訪問頻度に影響します。重みが高く、権威が強いウェブサイトは、一般的に検索エンジンスパイダーの好感度が高まります。

④ホームページからの距離

ホームページ > 第 1 レベルディレクトリ > 第 2 レベルディレクトリ > 第 3 レベルディレクトリ > 第 4 レベルディレクトリ... 当然のことながら、ディレクトリが深くなるほど、スパイダーの訪問の可能性と頻度は低くなります。これは、外部リンクが一般にホームページを指しているためであり、ホームページが下へ進むにつれて、スパイダーの訪問数は減少するだけです。

外部リンクを作る際は、ホームページだけではなく、コラムや集計ページへの外部リンクもたまに作ると良いと思います。

場合によっては、URL が短く、スパイダーがこのリンクの重みを感じることもあるため、第 1 レベルの列のみを作成し、次に記事ページを作成するのが最適です。

3. 検索エンジンスパイダーアドレスデータベース

検索エンジンスパイダーには、検出された URL (検出された URL であれば、クロールされた URL とクロールされていない URL の両方) を保存するための特別なアドレスライブラリがあるため、ページのクロールが繰り返されることはありません。

① アドレスライブラリ URL ソース

スパイダーによってクロールされたページで見つかった新しい URL。

バックエンドでウェブマスターによって送信された URL。

ウェブマスターバックエンドによって送信された XML マップ内の URL。

ウェブマスターがバックエンドで送信したウェブサイトの URL。

②クロールされていないURLの場合

クロールされていない URL については、取得方法に関係なく、検索エンジンスパイダー自体によって検出された場合でも、最初にアドレスライブラリに格納され、その後均一にクロールされます。

4. ページデータの保存

検索エンジンスパイダーは、キャプチャしたページデータを検索エンジンの元のページデータベースに保存します。実際には、スナップショットに表示されるページデータはユーザーが見るものと同じであり、各ページの URL アドレスには一意の番号が付いていることがわかります。

5. 重複コンテンツの検出

検索エンジンのスパイダーは、クロールプロセス中にある程度の重複コンテンツの検出を実行します。低負荷のウェブサイトに大量の転載または盗用されたコンテンツが見つかった場合、クロールが停止され、これらのページはクロールされず、含まれない場合があります。

しかし、ウェブサイトが転載できないということではありません。たとえば、権威の高いプラットフォームの中には、古いニュースを転載しても上位にランクされるものがあります。検索エンジンのスパイダーは、古いニュースでも質が高いと考える可能性があるからです。

上記は、Xiaoxiaoketang.com が提供した「検索エンジンスパイダーがページをクロールおよびスクレイピングする方法」に関するチュートリアルです。ご視聴ありがとうございました。

気に入っていただけましたら、ぜひ「いいね！」と「報酬」をお忘れなく。 Xiaoxiaoketang.com では毎日オリジナルの SEO ビデオとグラフィックチュートリアルを公開していますので、ぜひフォローしてください。

その他の SEO チュートリアルについては、Xiaoxiao Classroom を検索してください。

<<: 企業ウェブサイトの最適化アイデアの共有

>>: ECサイト構築時に注意すべきこと

検索エンジンのスパイダーはどのようにしてページをクロールするのでしょうか?

U-Mailメールマーケティングプラットフォームにはスパムを避けるコツがある

SEO 再考: CMS で異なる最適化スタイルを作成する方法

百度に降格された後の思い

評価システムとユーザーエクスペリエンスは同じソースとフローであり、2つの要素がB2Cウェブサイトの運用をサポートします

Douban CEO ヤン・ボー: テクノロジーはニーズを解決し、多目的ネットワークを構築する

クラウド市場が盛り上がっています! Google Cloud、クラウド移行のデータ転送料金の廃止を発表

ワンストップ統合移行、ファーウェイクラウドリソース検出ツールRDAの新機能がリリース

Rushmail: 一括メールプラットフォームを使用してサービス品質を向上させる方法

alphavps.bg-4 USD/KVM/2 GB RAM/50 GB HDD/1 TB トラフィック

どのようなウェブサイトがユーザーを惹きつけ、クリックしてもらい、維持できるのでしょうか?

推薦する

ウェブサイトの運営は独創性を重視しますが、適度に行う必要があります。不適切な独創性は逆効果になります。

推奨:backupsy-7 knife/KVM/512mメモリ/500Gハードディスク

常に変化する状況にも変わらないウェブサイト最適化戦略

LeTaoのブランドeコマース垂直B2Cへの転換は徐々に「ニッチ市場」になる

外部リンクの性質を理解し、ウェブサイトのプロモーションを心配する必要はありません

将来に影響を与える戦略的テクノロジートレンドトップ10

ビットコイン国内取引プラットフォームが手数料徴収を開始：収益が数千万ドル増加する可能性

クラウドネイティブ時代の機会と課題: DevOps で打開する方法

タオバオのコンバージョン率に影響を与える最も重要な5つの要因の簡単な分析

Meituanライブストリーミングは本当に効果的ですか?

工業情報化省は虚偽申告を是正するための特別行動会議を開催した。

ライカクラウド：春節特別キャンペーン、香港/韓国/アメリカ/紹興/宿遷/鎮江、クラウドサーバー9.9元トライアル、わずか249元/年-4G/4C/40G/20M、複数の専用サーバーがプロモーションに参加

V.PS の東京、日本パフォーマンス KVM VPS の簡単なレビュー (高速/高性能/バックアップ付き/トラフィックが使い果たされてもダウンタイムなし)

Google が 2013 年のベスト Android アプリとゲームのリストを発表

若者へ！あなた専用のクラウド卒業年鑑をワンクリックで起動