Robots.txt プロトコル標準の概要

Robots.txt プロトコル標準の概要

最近、多くのウェブマスターから「robots.txt」ファイルを正しく設定する方法について質問を受けています。ウェブマスターの友人たちの質問に答えるために、「Robots.txt プロトコル標準」を翻訳しました。この翻訳によって、皆さんが「robots.txt」ファイルについてより深く理解できるようになることを願っています。

Robots.txt は、サイトのルート ディレクトリに保存されるプレーン テキスト ファイルです。設定はシンプルですが、効果は強力です。検索エンジン スパイダーが指定されたコンテンツのみをクロールするように指定したり、検索エンジン スパイダーが Web サイトのコンテンツの一部またはすべてをクロールすることを禁止したりできます。

ここではその使い方を詳しく紹介します。

Robots.txt ファイルは、Web サイトのルート ディレクトリに配置し、インターネットからアクセスできるようにする必要があります。

例えば:

ウェブサイトのアドレスがhttp://www.yourdomain.com/の場合

次に、ファイルを http://www.yourdomain.com/robots.txt 経由で開き、その内容を確認できる必要があります。

形式:

ユーザーエージェント:

検索エンジン スパイダーの名前を記述するために使用されます。「Robots.txt」ファイルに複数の User-agent レコードがある場合、複数の検索エンジン スパイダーがこのプロトコルによって制限されることを意味します。このファイルには、少なくとも 1 つの User-agent レコードが必要です。この項目の値が * に設定されている場合、プロトコルはすべての検索エンジン スパイダーに対して有効です。「Robots.txt」ファイルには、「User-agent:*」などのレコードが 1 つだけ存在できます。

許可しない:

アクセスされたくない URL を記述するために使用されます。この URL は完全なパスでも部分的なパスでもかまいません。Disallow で始まる URL は、Robot によってアクセスされません。

例:

例 1: 「Disallow:/help」

つまり、検索エンジンのスパイダーは /help.html と /help/index.html をクロールできません。

例 2: 「Disallow:/help/」

つまり、検索エンジンのスパイダーは /help.html をクロールできますが、/help/index.html はクロールできません。

例3: レコードが空の場合の禁止

これは、Web サイトのすべてのページが検索エンジンによるクロールを許可されており、「/robots.txt」ファイルに少なくとも 1 つの Disallow レコードが存在する必要があることを意味します。

「/robots.txt」が空のファイルの場合、Web サイトはすべての検索エンジン スパイダーによるクローラーに公開されます。

#:
Robots.txt プロトコルのコメント記号。

例:

例 1: 「/robots.txt」を使用して、すべての検索エンジン スパイダーが「/bin/cgi/」ディレクトリ、「/tmp/」ディレクトリ、および /foo.html ファイルをクロールすることを禁止します。設定方法は次のとおりです。

引用内容は以下のとおりです。
ユーザーエージェント: *
許可しない: /bin/cgi/
許可しない: /tmp/
許可しない: /foo.html

例 2: 「/robots.txt」を使用して、1 つの検索エンジンのみのクロールを許可し、他の検索エンジンのクロールを禁止します。

たとえば、「slurp」という名前の検索エンジンスパイダーのみクロールを許可し、他の検索エンジンスパイダーが「/cgi/」ディレクトリ以下のコンテンツをクロールすることを拒否する場合の設定方法は次のとおりです。

引用内容は以下のとおりです。

ユーザーエージェント: *
禁止: /cgi/

ユーザーエージェント: slurp
許可しない:

元のタイトル: Robots.txt プロトコル標準の概要

キーワード:

<<:  ブログの内部リンクを改善する10の方法

>>:  ウェブサイト再構築後にトラフィックが減少した場合の対処方法

推薦する

クラウドサービスはIT企業に希望をもたらし、モバイルデバイスは新たなエコロジカルチェーンを形成する

北京時間7月1日、海外メディアの報道によると、2012年6月はテクノロジー業界にとって新しい時代の始...

クリシック、アジア最適化ルートを採用 PCCW

Crissicがどのようなルートを取っているか、これまであまり気にしたことがありませんでした。昨夜、...

SEOをする際に広く転載されるソフトな記事の書き方

タイトルが示すように、この記事で共有されている方法と経験は、ウェブマスターが SEO を行う際にソフ...

ガートナー: 中国におけるハイブリッド クラウドのコストを最適化および管理する 3 つの方法

クラウドの導入はほとんどの中国組織にとって重要な取り組みであり、規制、データ主権、レイテンシーの要件...

SDNクラウドデータセンターにおける異常なネットワーク動作のインテリジェント処理の実践

概要:クラウド データ センターでの異常なネットワーク動作は、ネットワーク デバイスに重大なビジネス...

レポートによると、クラウド事業は2024年に1兆ドルを超える可能性がある

10月20日のニュースによると、企業が新しい常態に適応しようと奮闘する中、COVID-19の流行によ...

ピンドゥオドゥオの「内部論理」は変化した

明らかな認識の一つは、私たちがよく知っているPinduoduoが変化しているということです。 Pin...

簡単な議論: 関係のない業界でオリジナル記事を書く方法

現在、SEO 業界の多くの人々がユーザー エクスペリエンスと高品質の外部リンクについて語っています。...

SEO実践共有:302はBaiduによってウェブサイトの価値を下げる原因となる

302 ステータス コードは、一般的な HTTP ステータス コードの 1 つです。302 は一時的...

クリック広告の単価を上げるための新たな考え方

広告のクリック単価をいかに高めるかは、多くのウェブマスターが考えている問題です。短期間で収益をもたら...

簡単に解説:おばあちゃんでもわかるビッグデータ分散コンピューティング

この記事はポピュラーサイエンス記事です。ビッグデータ分散コンピューティング技術を、わかりやすい例を通...

desivps: desivps がどのように機能するかを説明する「インド」データセンターの VPS の簡単なレビュー

desivps はアジアにもデータセンターを持っており、インドのアーンドラ・プラデーシュ州にあります...

SEOとPPCの相互補完について

近年、検索エンジン マーケティングに取り組む企業がますます増えています。SEO を選択する企業もあれ...

クラウド停止の原因と損失、クラウド停止による損失を減らす方法について詳しく説明します。

クラウド コンピューティングは、効率性を高め、データのセキュリティを強化し、利益を増やす機会を提供し...