Robots.txt プロトコル標準の概要

最近、多くのウェブマスターから「robots.txt」ファイルを正しく設定する方法について質問を受けています。ウェブマスターの友人たちの質問に答えるために、「Robots.txt プロトコル標準」を翻訳しました。この翻訳によって、皆さんが「robots.txt」ファイルについてより深く理解できるようになることを願っています。

Robots.txt は、サイトのルートディレクトリに保存されるプレーンテキストファイルです。設定はシンプルですが、効果は強力です。検索エンジンスパイダーが指定されたコンテンツのみをクロールするように指定したり、検索エンジンスパイダーが Web サイトのコンテンツの一部またはすべてをクロールすることを禁止したりできます。

ここではその使い方を詳しく紹介します。

Robots.txt ファイルは、Web サイトのルートディレクトリに配置し、インターネットからアクセスできるようにする必要があります。

例えば：

ウェブサイトのアドレスがhttp://www.yourdomain.com/の場合

次に、ファイルを http://www.yourdomain.com/robots.txt 経由で開き、その内容を確認できる必要があります。

形式：

ユーザーエージェント:

検索エンジンスパイダーの名前を記述するために使用されます。「Robots.txt」ファイルに複数の User-agent レコードがある場合、複数の検索エンジンスパイダーがこのプロトコルによって制限されることを意味します。このファイルには、少なくとも 1 つの User-agent レコードが必要です。この項目の値が * に設定されている場合、プロトコルはすべての検索エンジンスパイダーに対して有効です。「Robots.txt」ファイルには、「User-agent:*」などのレコードが 1 つだけ存在できます。

許可しない:

アクセスされたくない URL を記述するために使用されます。この URL は完全なパスでも部分的なパスでもかまいません。Disallow で始まる URL は、Robot によってアクセスされません。

例：

例 1: 「Disallow:/help」

つまり、検索エンジンのスパイダーは /help.html と /help/index.html をクロールできません。

例 2: 「Disallow:/help/」

つまり、検索エンジンのスパイダーは /help.html をクロールできますが、/help/index.html はクロールできません。

例3: レコードが空の場合の禁止

これは、Web サイトのすべてのページが検索エンジンによるクロールを許可されており、「/robots.txt」ファイルに少なくとも 1 つの Disallow レコードが存在する必要があることを意味します。

「/robots.txt」が空のファイルの場合、Web サイトはすべての検索エンジンスパイダーによるクローラーに公開されます。

#:
Robots.txt プロトコルのコメント記号。

例：