Robots.txt プロトコル標準の概要

Robots.txt プロトコル標準の概要

最近、多くのウェブマスターから「robots.txt」ファイルを正しく設定する方法について質問を受けています。ウェブマスターの友人たちの質問に答えるために、「Robots.txt プロトコル標準」を翻訳しました。この翻訳によって、皆さんが「robots.txt」ファイルについてより深く理解できるようになることを願っています。

Robots.txt は、サイトのルート ディレクトリに保存されるプレーン テキスト ファイルです。設定はシンプルですが、効果は強力です。検索エンジン スパイダーが指定されたコンテンツのみをクロールするように指定したり、検索エンジン スパイダーが Web サイトのコンテンツの一部またはすべてをクロールすることを禁止したりできます。

ここではその使い方を詳しく紹介します。

Robots.txt ファイルは、Web サイトのルート ディレクトリに配置し、インターネットからアクセスできるようにする必要があります。

例えば:

ウェブサイトのアドレスがhttp://www.yourdomain.com/の場合

次に、ファイルを http://www.yourdomain.com/robots.txt 経由で開き、その内容を確認できる必要があります。

形式:

ユーザーエージェント:

検索エンジン スパイダーの名前を記述するために使用されます。「Robots.txt」ファイルに複数の User-agent レコードがある場合、複数の検索エンジン スパイダーがこのプロトコルによって制限されることを意味します。このファイルには、少なくとも 1 つの User-agent レコードが必要です。この項目の値が * に設定されている場合、プロトコルはすべての検索エンジン スパイダーに対して有効です。「Robots.txt」ファイルには、「User-agent:*」などのレコードが 1 つだけ存在できます。

許可しない:

アクセスされたくない URL を記述するために使用されます。この URL は完全なパスでも部分的なパスでもかまいません。Disallow で始まる URL は、Robot によってアクセスされません。

例:

例 1: 「Disallow:/help」

つまり、検索エンジンのスパイダーは /help.html と /help/index.html をクロールできません。

例 2: 「Disallow:/help/」

つまり、検索エンジンのスパイダーは /help.html をクロールできますが、/help/index.html はクロールできません。

例3: レコードが空の場合の禁止

これは、Web サイトのすべてのページが検索エンジンによるクロールを許可されており、「/robots.txt」ファイルに少なくとも 1 つの Disallow レコードが存在する必要があることを意味します。

「/robots.txt」が空のファイルの場合、Web サイトはすべての検索エンジン スパイダーによるクローラーに公開されます。

#:
Robots.txt プロトコルのコメント記号。

例:

例 1: 「/robots.txt」を使用して、すべての検索エンジン スパイダーが「/bin/cgi/」ディレクトリ、「/tmp/」ディレクトリ、および /foo.html ファイルをクロールすることを禁止します。設定方法は次のとおりです。

引用内容は以下のとおりです。
ユーザーエージェント: *
許可しない: /bin/cgi/
許可しない: /tmp/
許可しない: /foo.html

例 2: 「/robots.txt」を使用して、1 つの検索エンジンのみのクロールを許可し、他の検索エンジンのクロールを禁止します。

たとえば、「slurp」という名前の検索エンジンスパイダーのみクロールを許可し、他の検索エンジンスパイダーが「/cgi/」ディレクトリ以下のコンテンツをクロールすることを拒否する場合の設定方法は次のとおりです。

引用内容は以下のとおりです。

ユーザーエージェント: *
禁止: /cgi/

ユーザーエージェント: slurp
許可しない:

元のタイトル: Robots.txt プロトコル標準の概要

キーワード:

<<:  ブログの内部リンクを改善する10の方法

>>:  ウェブサイト再構築後にトラフィックが減少した場合の対処方法

推薦する

asmallorange - 全品 34% オフ/cpanel ライセンス無料/kvm/メモリ 2g/ハード ドライブ 50g/トラフィック 1T

有名な海外ホスティング会社 asmallorange.com では、夏のプロモーションを実施していま...

Weiboを使ってウェブサイトを宣伝する際の利点と注意点について簡単に説明します。

一般的なニュースを広める手段として、Weibo のインタラクティブな形式はネットユーザーの間で人気が...

アリババクラウドとインテルが共同で「TOP Games」クラウドエコシステム育成計画を開始し、高品質なゲームエコシステムを共同で構築

10月11日、アリババグループ主催の「2017年杭州雲棲カンファレンス」が杭州雲棲鎮で盛大に開催され...

ウェブサイトのSEO最適化: 顧客第一

現在、ウェブサイトの最適化を行う人員は絶えず変化しており、Baiduアルゴリズムはどのような方向に進...

詳細な分析: ユーザー エクスペリエンスがランキングとトラフィックにどのように影響するか

ウェブマスターは、ユーザー エクスペリエンスが Web サイトのランキングにどのように影響するかにつ...

すべてのプロジェクトに影響を与える3つの主要なVDIの課題

ベンダーが示唆するほど簡単に構築および保守できるテクノロジーベースのプロジェクトは多くなく、VDI ...

エッジコンピューティング: 古いものは捨て、新しいものを導入する

調査会社MarketsandMarketsによると、モノのインターネットとクラウドコンピューティング...

魏無慧:ビッグデータ時代の構造と抵抗

デジタル世界の発展はハッカーと密接に関係していることを多くの人が知っています。たとえば、マイクロソフ...

スナップショットクロール例外、タイトル説明のない URL のみの解決プロセス

Baidu スナップショットに関して言えば、ウェブマスターは皆その重要性を知っています。これは Ba...

stablebox-Win/$6.95/768m メモリ/30g ハードドライブ/2T トラフィック/G ポート

stableboxがホストモ​​デムに登場したのは今回で2回目です。2月17日に「stablebox...

NSX + Kubernetes: ビジネスに DevOps の俊敏性をもたらす

[[204001]] Kubernetes はコンテナ オーケストレーションの事実上の標準となり、コ...

聖パトリックの日 - tinykvm 128M メモリ KVM 年間支払い 20 ドル

聖パトリックデーを記念して、tinykvm は最小限のメモリを搭載した KVM を年間 20 ドルで...

A5 Webmaster Networkの第7回ソフトコピーライティングとソフトコピーマーケティングトレーニングの申し込み受付を開始しました

企業向けでもウェブサイトマーケティング向けでも、ソフトテキストマーケティングは欠かせないマーケティン...

VDIとIDVは単なる文字の組み合わせではありません

コンピュータ仮想技術の継続的な成熟と仮想技術のより現実的な運用により、クラウド教室は広く普及し、小中...

ユーザーエクスペリエンスと収益性の調和とバランスを実現する方法

ウェブサイトで優れたユーザー エクスペリエンスを提供することは、検索エンジンの高要件ですが、ウェブサ...