Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

以前、robots.txt ファイルの書き方について記事を書きましたが、実際に観察してみると、一部の友人はまだ robots.txt ファイルのルールについて誤解しているようです。

たとえば、多くの人が次のように書いています。

ユーザーエージェント: *
許可する: /
禁止: /mulu/

このルールが実際には効果がないということに気付いたかどうかはわかりません。最初の文 Allow: / はスパイダーがすべてのコンテンツをクロールすることを許可することを意味し、2 番目の文 Disallow: /mulu/ は /mulu/ の下にあるすべてのコンテンツを禁止することを意味します。

表面的には、このルールの目的は、スパイダーが /mulu/ を除く Web サイトのすべてのページをクロールできるようにすることです。

ただし、検索エンジンのスパイダーはルールを上から下に実行するため、2 番目のコマンドは無効になります。

正しいルールは次のようになります。

ユーザーエージェント: *
禁止: /mulu/
許可する: /

つまり、まず禁止コマンドを実行し、その後に許可コマンドを実行することで無効にならないようにします。

さらに、Baidu スパイダーが犯すもう 1 つの一般的な間違いは、Disallow コマンドと Allow コマンドがスラッシュ / で始まる必要があるため、次のように記述する人がいることです: Disallow: *.html これは Baidu スパイダーでは間違っており、次のように記述する必要があります: Disallow: /*.html 。

こうしたルールを記述するときに、気づかない問題が発生することがあります。Baidu Webmaster Tools (zhanzhang.baidu.com) と Google Webmaster Tools を使って、これらのルールをテストできるようになりました。

比較的言えば、Baidu Webmaster Tools のロボット ツールは比較的シンプルです。

Baidu Robots ツールは、各コマンド行が文法規則に準拠しているかどうかを検出することしかできず、実際の効果やクロール ロジック ルールは検出できません。

比較すると、図に示すように、Google の Robots ツールの方がはるかに使いやすいです。

Google ウェブマスター ツールではクローラ権限と呼ばれ、Google がサイトのページをクロールするときにブロックされる URL の数を報告します。

Robots の変更の効果をオンラインでテストすることもできます。もちろん、ここでの変更はテスト用です。問題がなければ、robots.txt ファイルを生成するか、コマンド コードを robots.txt テキスト ドキュメントにコピーして、Web サイトのルート ディレクトリにアップロードすることができます。

Google のテストは Baidu のテストとは大きく異なります。1 つ以上の URL を入力して、Google スパイダーがこれらの URL をクロールできるかどうかをテストできます。

テスト結果は、Google スパイダーによるこれらの URL のクロール状況です。このテストは、Robots ファイルのルールが特定の URL に対して有効かどうかを確認するためのものです。

もちろん、2 つのツールを組み合わせる方がよいでしょう。これで、ロボットの書き方を完全に理解できたはずです。

転載の際は、小夜ブログの記事であることを明記してください。この記事のアドレスは、http://liboseo.com/1170.html です。

特に指定がない限り、Xiaoyao Blog のすべての記事はオリジナルです。転載する場合は出典とリンクを明記してください。

元のタイトル: Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

キーワード: 分析、Robots.txt、誤解、Baidu、Googlerobo、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  1か月でウェブサイトのキーワードをランク​​付けする方法

>>:  SEOは最も基本的なマーケティング手法です

推薦する

初心者のためのウェブサイトのBaiduの重みを改善する方法

実際、この記事のタイトルを見ると、初心者のウェブマスターとして、Baidu ウェイトとは何なのか疑問...

学生マーケティングで注文が戻ってくる

長沙には、あらゆる規模のウェブサイト構築および最適化会社やスタジオが 500 社以上あります。従来の...

同じページ上のスナップショットが一致しない理由の分析例

ウェブサイトの最適化において、キーワードランキングを自分で照会すると、ホームページでもこのような現象...

Virtovo-Miami/$7/KVM/6 コア/2g メモリ/100g ハードディスク/4T トラフィック

Virtovo は設立されてまだ日が浅く、事業者が高構成でローエンド市場に参入するのはリスクがありま...

raksmartクラウドサーバーはどうですか? Raksmart 韓国ブティックネットワーククラウドサーバーシンプルレビュー

raksmartはどうですか? raksmartクラウドサーバーはどうですか? raksmart韓国...

張有成、南京易進志、航空宇宙科学産業公司:クラウドとサービスへの変革はInspurクラウドベースに頼ることができます

南京易進志情報技術有限公司(以下、「CASIC 南京易進志」という)は、中国航天科技集団の上場企業で...

新しいフォーラムモデレーターの選出に関する簡単な議論

多くの友人が A5 で自分の経験を共有しているのをよく見かけます。私は長い間 Web サイトを運営し...

gfrack: 香港サーバー、e3+20M 帯域幅 399 元、50M 帯域幅 599、8C 香港クラスター 1000 元

gfrack は香港独立サーバー事業(8C 香港クラスターサーバーを含む)を開始しました。マシンは香...

タオバオの化粧品販売業者のうち利益を上げているのはわずか5%だが、大手企業は依然として電子商取引市場に参入している。

ジュメイ・ヨウピンは最近、偽造品販売のスキャンダルに巻き込まれた。同社はハッキングされたと主張してい...

新年のマーケティング戦争

要点春節が近づくにつれ、消費者ブランドはペプシとのマーケティング戦争を開始し、王老吉はマーケティング...

Googleは昨年、検索アルゴリズムを450回調整した。

Google は社内の仕組みについて口を閉ざしていることで知られているが、うっかり漏れてしまうような...

機電ホームが1000万ドルを投じて尚国インターネットB2B業界ポータルサイトを買収、合併と買収の波を引き起こす?

A5ウェブマスターネットワーク(admin5.com)は3月20日に報道しました:最近、国内の有名な...

外部リンクを構築するにはリスクが伴います。リスクを回避する方法

外部リンクの構築にどのようなリスクがあるのか​​​​は、特に過去数年間、外部リンクの構築が非常に粗雑...

クラウドで新しい交通手段を実現

運輸は基礎的かつ先駆的かつ戦略的な産業であり、経済と社会の発展にとって重要な支えと強力な保証です。過...

Semoweb - 月額 5.99 ドル - 2GB RAM/2.5GB VSWAP/100GB HDD - QuadraNet データ センター

Semoweb は 2009 年に設立されたホスティング プロバイダーです。その事業には、仮想ホステ...