Robots.txt プロトコル標準の概要

Robots.txt プロトコル標準の概要

最近、多くのウェブマスターから「robots.txt」ファイルを正しく設定する方法について質問を受けています。ウェブマスターの友人たちの質問に答えるために、「Robots.txt プロトコル標準」を翻訳しました。この翻訳によって、皆さんが「robots.txt」ファイルについてより深く理解できるようになることを願っています。

Robots.txt は、サイトのルート ディレクトリに保存されるプレーン テキスト ファイルです。設定はシンプルですが、効果は強力です。検索エンジン スパイダーが指定されたコンテンツのみをクロールするように指定したり、検索エンジン スパイダーが Web サイトのコンテンツの一部またはすべてをクロールすることを禁止したりできます。

ここではその使い方を詳しく紹介します。

Robots.txt ファイルは、Web サイトのルート ディレクトリに配置し、インターネットからアクセスできるようにする必要があります。

例えば:

ウェブサイトのアドレスがhttp://www.yourdomain.com/の場合

次に、ファイルを http://www.yourdomain.com/robots.txt 経由で開き、その内容を確認できる必要があります。

形式:

ユーザーエージェント:

検索エンジン スパイダーの名前を記述するために使用されます。「Robots.txt」ファイルに複数の User-agent レコードがある場合、複数の検索エンジン スパイダーがこのプロトコルによって制限されることを意味します。このファイルには、少なくとも 1 つの User-agent レコードが必要です。この項目の値が * に設定されている場合、プロトコルはすべての検索エンジン スパイダーに対して有効です。「Robots.txt」ファイルには、「User-agent:*」などのレコードが 1 つだけ存在できます。

許可しない:

アクセスされたくない URL を記述するために使用されます。この URL は完全なパスでも部分的なパスでもかまいません。Disallow で始まる URL は、Robot によってアクセスされません。

例:

例 1: 「Disallow:/help」

つまり、検索エンジンのスパイダーは /help.html と /help/index.html をクロールできません。

例 2: 「Disallow:/help/」

つまり、検索エンジンのスパイダーは /help.html をクロールできますが、/help/index.html はクロールできません。

例3: レコードが空の場合の禁止

これは、Web サイトのすべてのページが検索エンジンによるクロールを許可されており、「/robots.txt」ファイルに少なくとも 1 つの Disallow レコードが存在する必要があることを意味します。

「/robots.txt」が空のファイルの場合、Web サイトはすべての検索エンジン スパイダーによるクローラーに公開されます。

#:
Robots.txt プロトコルのコメント記号。

例:

例 1: 「/robots.txt」を使用して、すべての検索エンジン スパイダーが「/bin/cgi/」ディレクトリ、「/tmp/」ディレクトリ、および /foo.html ファイルをクロールすることを禁止します。設定方法は次のとおりです。

引用内容は以下のとおりです。
ユーザーエージェント: *
許可しない: /bin/cgi/
許可しない: /tmp/
許可しない: /foo.html

例 2: 「/robots.txt」を使用して、1 つの検索エンジンのみのクロールを許可し、他の検索エンジンのクロールを禁止します。

たとえば、「slurp」という名前の検索エンジンスパイダーのみクロールを許可し、他の検索エンジンスパイダーが「/cgi/」ディレクトリ以下のコンテンツをクロールすることを拒否する場合の設定方法は次のとおりです。

引用内容は以下のとおりです。

ユーザーエージェント: *
禁止: /cgi/

ユーザーエージェント: slurp
許可しない:

元のタイトル: Robots.txt プロトコル標準の概要

キーワード:

<<:  ブログの内部リンクを改善する10の方法

>>:  ウェブサイト再構築後にトラフィックが減少した場合の対処方法

推薦する

SEO 担当者は、オリジナルではない記事の影響をどのように軽減できるでしょうか?

友人がXinchenに不満を漏らしました。「上司から与えられた仕事が多すぎて、毎日オリジナルの記事を...

小規模なウェブサイト構築会社は競争の中でどのように生き残ることができるでしょうか?

筆者は最近、広く流布している「ウェブサイト構築会社が儲からない理由」という記事を読み、深く感動した。...

クラウドネイティブコンピューティングは技術的負債を排除できますか?

[[415169]] [51CTO.com クイック翻訳]クラウド ネイティブ コンピューティングは...

vpsdimeはどうですか?英国VPSの簡単なレビュー

vpsdime は英国で VPS サービスを展開しており、大容量メモリ、マルチコア、広帯域幅、Ope...

クラウドテナントセキュリティ構築に関するアイデアの共有

企業がクラウド コンピューティングに深く関与するにつれて、セキュリティ戦略は、クラウド上に構築する際...

ウェブサイトをより良く発展させたいなら、ユーザーエクスペリエンスに重点を置くべきです

どの業界のウェブマスターも、SEO最適化の重要性をよく知っています。これらの業界の中で、タオバオのS...

imidc日本データセンターCN2+高品質BGPネットワークの独立サーバーの簡易評価

日本は中国本土に最も近い隣国の一つであり、ネットワークが発達しています。中国、ヨーロッパ、アメリカへ...

Douban CEO ヤン・ボー: テクノロジーはニーズを解決し、多目的ネットワークを構築する

Abei は楊波(Weibo)の Douban でのオンライン ニックネームであり、Douban の...

マルチクラウドはメリットをもたらすが、ITはより複雑になる

レポートによると、COVID-19パンデミックの間、世界中の多くの企業がオンプレミスアプリケーション...

WaveCom が VPS プロバイダー TorqHost を買収

大切な Torqhost のお客様へ。11 月 19 日に、WaveCom LTD と TORQho...

著作権法改正案が発表され、著作権侵害に対する賠償金は最大100万元となる。

著作権法改正案では、インターネットに関するいくつかの規定が定められている。侵害に対する賠償金は最大1...

ウェブ開発における文化の違い: 機能は中国特有のものではないので、ニッチにならないようにしてください

ウェブデザインと開発は大変な仕事なので、少数の人だけのためにデザインするのではなくこれは外国人が書い...

エンタープライズ ネットワーク構築における 3 つの「やってはいけないこと」

昨今、多種多様なウェブサイトが存在する中、企業ウェブサイトは、宣伝やプロモーションを目的としているも...

kvmla - 日本の独立サーバー/ソフトバンク+KDDI/80%割引+300元のギフト

1 か月以上のテストを経て、kvmla の Equinix OS1 データ センターが日本大阪で正式...