無視されている SEO ツール robots.txt についての簡単な説明

Zhuying Qingfeng は、何年にもわたって Web サイトを作成してきました。Web マスターの友人からのリクエストにより、今日は私の経験の一部を皆さんと共有したいと思います。今日のトピックは robots.txt に焦点を当てます。ウェブマスターの友人は robots.txt にあまり注意を払わないかもしれませんが、robots.txt をうまく活用すれば、ウェブサイトに間違いなく利益をもたらし、害はありません。

免責事項：この記事は初心者向けです。ベテランの方は読み飛ばしてください。

トピック 1: robots.txt とは何ですか?

ここで、Baidu からの回答を引用します。robots.txt は、ルートディレクトリに配置する必要のあるプレーンテキストファイルです。ファイル名はすべて小文字で構成されている必要があります (例: 「robots.txt」)。このファイルでは、ロボットによるアクセスを禁止する Web サイトの部分を宣言します。これにより、Web サイトのコンテンツの一部またはすべてが検索エンジンに含まれないようにしたり、検索エンジンが特定のコンテンツのみを含むように指定したりできます。

トピック 2: robots.txt の使い方

機能 1: 検索スパイダーを誘導して SEO のサイトマップをクロールし、Web サイトのページのインデックス作成を改善します。

現在、Google や Yahoo などの海外の検索エンジンでは、robots.txt ファイルでサイトマップファイルのリンクを指定することがすでにサポートされています。これにより、スパイダーが robots.txt にアクセスしたときに Web サイトマップの場所が通知され、スパイダーが Web サイトのページをより適切に含めることができるようになります。使用される構文は、サイトマップ: http://www.##.com/sitemap です。

機能 2: すべての検索スパイダーが Web サイトまたは指定されたディレクトリのすべてのコンテンツをクロールするのを防ぎます。実際の Web サイトの構築には、いくつかの一般的な特定の状況があります。

最初のケースは、すべての検索スパイダーが Web サイト上のコンテンツをクロールすることを禁止することです。

自分の Web サイトがデバッグのためにサーバーまたは仮想ホストにアップロードされたばかりで、Web サイトのページのタイトルやキーワードが最適化されておらず、Web サイトへの外部リンクがあるものの、検索エンジンにそのリンクを含めさせたくない場合は、すべての検索エンジンでページを含めないように禁止できます。

悪い例を挙げましょう。2006 年に、私はコンテンツ管理プログラム Dreamweaver を使用して Web サイトを構築しました。初めてテンプレートを適用し、コンテンツを追加して、さまざまな検索エンジンに興奮しながら送信しました。翌日には検索エンジンに含まれ、数日後には数百の記事が公開されました。しかし、その後、より美しく新鮮なテンプレートを見つけ、それを修正して、すべてのページを再生成しました。このような変更を何度も行いました。検索スパイダーはすべて女性だったため、ウェブサイトのページ、特にタイトルなどの重要な属性の変更が頻繁に行われ、彼女は非常に不安を感じ、ウェブサイトに対する信頼が著しく低下しました。その結果、私のウェブサイトのページが回復するまでに 1 ～ 2 か月かかりました。したがって、ウェブマスターはウェブサイトを検索エンジンに公開する前にウェブサイトの位置づけを正確に特定する必要があり、最適化した後で検索エンジンに公開しても遅くはありません。

たとえば、あなたのウェブサイトはあなたとあなたの恋人のための、あなた自身の娯楽のための愛の家であり、クロールされたくない、またはあなたのウェブサイトはスパイダーによるクロールを必要としない完全に機密性の高いコンテンツを含む社内ウェブサイトである、または検索エンジンによるクロールを禁止する必要があるその他の特定の状況がある、などです。

すべての検索エンジンがウェブサイトのどのページもインデックスしないように禁止する構文は次のとおりです。

ユーザーエージェント: *
許可しない: /

2 番目の状況は、すべての検索エンジンが Web サイト上の特定のディレクトリをクロールすることを禁止する必要があることです。

（1）ウェブサイト上の一部のディレクトリはプログラムディレクトリであり、クロールする必要はありません。サーバーのパフォーマンスを向上させ、検索とクロール中にサーバーリソースを消費しないようにするために、すべての検索エンジンがこれらのディレクトリのクロールを禁止することができます。（２）ウェブサイト上の一部のディレクトリには、会員情報や機密性の高いプライベートコンテンツが含まれており、検索エンジンによるクロールが禁止されています。（３）特定のディレクトリ以下のコンテンツは、すべて変更せずに収集されます。この部分のコンテンツは、コンテンツを充実させるためのものであり、検索エンジンに含めることを意図したものではありません。この場合、検索エンジンのクロールを禁止する必要があります。 (たとえば、以前作成した Web サイトの一部は完全にオリジナルのコンテンツで、検索とクロールに使用されます。コンテンツの一部は、Web サイトのコンテンツを充実させ、ユーザーエクスペリエンスを向上させるためだけに収集されますが、検索エンジンにスパムとして含められ、Web サイトのランクが下げられるのは望ましくありません。この場合、ディレクトリのこの部分から検索スパイダーをブロックする必要があります。) その他の状況もあります。

すべての検索エンジンによる特定のディレクトリまたは特定のページのクロールを禁止するための構文の例は次のとおりです。

ユーザーエージェント: *
禁止: /plus/count.php
許可しない: /include
禁止: /news/old

ご興味がございましたら、新しく開設された dianzhu2.com にアクセスして、具体的な例がいくつか記載されている robots.txt を確認してください。

機能 3: 特定のスパイダーが Web サイトのすべてのコンテンツをクロールするのを防ぎます。

いくつかの状況があります: (1) Baidu によってひどく降格されたり、軽蔑されたり、屈辱を受けたりした場合、または反 Baidu 同盟のメンバーであり、Baidu 同盟との関係を断ち切り、Web サイトのコンテンツを Baidu がクロールすることを禁止したい場合。（2）あなたのウェブサイトはすでにTaobaoと同じくらい素晴らしいので、Baiduによるページのインデックス作成を完全に禁止する必要があります。タオバオのrobots.txtを確認してください。タオバオは商業的利益やその他の要因により百度をブロックしました。しかし、Baiduspiderは女性であり、ジャック・マーがETのようにハンサムであることから、恥ずかしげもなくタオバオの記事約1,060件を含めました。確認するには、Baidu の検索バーに site: (taobao.com) と入力してください。（3）検索エンジンがウェブサイト上のすべてのコンテンツをインデックスすることを禁止したいその他の状況。

特定の検索エンジンによる Web サイト上のコンテンツのクロールを禁止するための構文は次のとおりです。

ユーザーエージェント: baiduspider
許可しない: /

機能 4: 指定された検索スパイダーのみが Web サイトのコンテンツをクロールできるようにします。

当社のウェブサイトのトラフィックは主にいくつかの主要な検索エンジンから来ているため、他の海外または国内の検索スパイダーや不正なスパイダーがサーバーからウェブサイトのコンテンツをクロールして、サーバーのリソースを消費することは望ましくありません。このとき、この構文が役立ちます。

指定された検索スパイダーのみが Web サイトのコンテンツをクロールできるようにするための構文は次のとおりです。

ユーザーエージェント: baiduspider
許可しない:

ユーザーエージェント: *
許可しない: /

その中で、User-agent: baiduspider Disallow: は許可する主要な検索スパイダーをリストできます。ウェブサイトに不要な損害を与えないようにするには、robots.txt を正しく記述する必要があることに特に注意してください。 Baidu のスパイダー: baiduspiderGoogle のスパイダー: GooglebotTencentSoso: SosospiderYahoo のスパイダー: Yahoo SlurpMsn のスパイダー: Msnbot

機能 5: すべての検索エンジンが Web サイト上のすべてのファイルまたは特定のディレクトリ内の特定の種類のファイルをクロールするのを防ぎます。

すべての検索エンジンは、Web ページのみをクロールし、画像をクロールすることは禁止されています。構文は次のとおりです。

ユーザーエージェント: *
許可しない: .jpg$
許可しない: .jpeg$
許可しない: .gif$
許可しない: .png$
許可しない: .bmp$

特定の検索エンジンのみを禁止したい場合は、上記の方法に従って、ワイルドカード * を特定のスパイダー名に変更できます。

機能 6: 検索エンジンが検索結果に Web ページのスナップショットを表示しないようにし、Web ページのみをインデックスします。

使用方法は次のとおりです。

Baidu は、Web ページのメタを設定することで、検索エンジンが Web サイトのスナップショットを表示しないようにすることをサポートしています。方法は次のとおりです。

すべての検索エンジンがサイトのスナップショットを表示しないようにするには、Web ページの <HEAD> セクションに次のメタタグを配置します: <meta name="robots" content="noarchive">他の検索エンジンがスナップショットを表示できるようにし、Baidu のみがスナップショットを表示できないようにするには、次のタグを使用します: <meta name="Baiduspider" content="noarchive">注: このタグは、Baidu が Web ページのスナップショットを表示することを禁止するだけです。Baidu は引き続き Web ページのインデックスを作成し、検索結果に Web ページのスニペットを表示します。 Googleの場合は、<META NAME="googlebot" CONTENT="index,follow,noarchive">です。

最後の注意: スパイダーのクローリングとユーザーアクセスを分析するために、ウェブマスターログ機能を有効にしている友人もいるかもしれません。スパイダーが robots.txt ファイルを探すときに見つからない場合、サーバーはログに 404 エラーも記録します。ログファイルを減らして無駄な情報を削除するには、空の robots.txt ファイルであっても、Web サイトのルートディレクトリに robots.txt を追加することをお勧めします。

他にも実際の実践に基づいてゆっくりまとめる必要のある用途はたくさんあります。

元のタイトル: 無視されている SEO ツール robots.txt についての簡単な説明

キーワード: seo

<<: 小規模サイトが検索エンジンの検索結果で上位にランクされる理由を分析する

>>: サイト内検索の役割を理解する