ロボットのルールに関するよくある誤解と、Google と Baidu のロボット ツールの使い方

ロボットのルールに関するよくある誤解と、Google と Baidu のロボット ツールの使い方

誰もがウェブサイト上の robots.txt ファイルの役割を知っていますが、観察してみると、一部の友人が robots.txt ファイルのルールについてまだ誤解していることがわかります。

たとえば、多くの人が次のように書いています。

ユーザーエージェント: *

許可する: /

禁止: /mulu/

このルールが実際には効果がないということに気付いたかどうかはわかりません。最初の文 Allow: / はスパイダーがすべてのコンテンツをクロールすることを許可することを意味し、2 番目の文 Disallow: /mulu/ は /mulu/ の下にあるすべてのコンテンツを禁止することを意味します。

表面的には、このルールの目的は、スパイダーが /mulu/ を除く Web サイトのすべてのページをクロールできるようにすることです。ただし、検索エンジンのスパイダーはルールを上から下に実行するため、2 番目のコマンドは無効になります。

正しいルールは次のようになります。

ユーザーエージェント: *

禁止: /mulu/

許可する: /

つまり、まず禁止コマンドを実行し、その後に許可コマンドを実行することで無効にならないようにします。さらに、Baidu スパイダーが犯すもう 1 つの一般的な間違いは、Disallow コマンドと Allow コマンドがスラッシュ / で始まる必要があるため、次のように記述する人がいることです: Disallow: *.html これは Baidu スパイダーでは間違っており、次のように記述する必要があります: Disallow: /*.html 。

こうしたルールを記述するときに、気づかない問題が発生することがあります。Baidu Webmaster Tools (zhanzhang.baidu.com) と Google Webmaster Tools を使って、これらのルールをテストできるようになりました。比較的言えば、Baidu Webmaster Tools のロボット ツールは比較的シンプルです。

Baidu Robots ツールは、各コマンド行が文法規則に準拠しているかどうかを検出することしかできず、実際の効果やクロール ロジック ルールは検出できません。

比較すると、図に示すように、Google の Robots ツールの方がはるかに使いやすいです。

Google ウェブマスター ツールではクローラ権限と呼ばれ、Google がサイトのページをクロールするときにブロックされる URL の数を報告します。

Robots の変更の効果をオンラインでテストすることもできます。もちろん、ここでの変更はテスト用です。問題がなければ、robots.txt ファイルを生成するか、コマンド コードを robots.txt テキスト ドキュメントにコピーして、Web サイトのルート ディレクトリにアップロードすることができます。

Google のテストは Baidu のテストとは大きく異なります。1 つ以上の URL を入力して、Google スパイダーがこれらの URL をクロールできるかどうかをテストできます。

テスト結果は、Google スパイダーによるこれらの URL のクロール状況です。このテストは、Robots ファイルのルールが特定の URL に対して有効かどうかを確認するためのものです。もちろん、2 つのツールを組み合わせる方がよいでしょう。これで、ロボットの書き方を完全に理解できたはずです。

転載の際は、Xiaoyao Blogからの転載であることを明記してください。この記事のアドレスは、http://liboseo.com/1170.htmlです。転載の際は、出典とリンクを明記してください。

元のタイトル: ロボットのルールと Google および Baidu ロボット ツールの使用に関するよくある誤解

キーワード: ロボット、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  高品質なコンテンツと外部リンクを構築するときに注意すべき点

>>:  内部 SEO で独創性と独自性を強化するためのパーソナライズされた方法

推薦する

マルチクラウド戦略はあなたの会社に適していますか?

過去数年間でクラウドの導入が加速しており、多くの組織が従来のデータセンターをクラウドホスト型インフラ...

1000マイルのダムがアリの穴で破壊される。ウェブサイトのセキュリティメンテナンスが緊急に

現在、ほとんどのウェブマスターは、外部リンクの構築方法、ウェブサイトのコンテンツを公開する方法、自分...

新世代のクラウドネイティブログアーキテクチャの設計と実践 - Loggie

オープンソースの詳細については、以下をご覧ください。 51CTO オープンソース基本ソフトウェアコミ...

AI 導入の謎を解明: クラウドとエッジ

現在、ディープラーニング テクノロジーを展開できる方法としては、デバイス上への直接展開、クラウド内へ...

北京に拠点を置く仮想通貨取引所Vircurexが次のMt. Goxになる

3月24日現在、ビットコイン取引所マウントゴックスの破産危機はまだ収まっていないが、最近苦境に陥った...

あなたのウェブサイトを愛して、Baidu Spiderをペットとして飼ってください

最近、多くの友人が私に相談してきて、新しいサイトを素早くインデックスしてランキングを生成する方法を知...

WeChat以外にソーシャル分野で戦争はありません!

ソーシャルの世界では、WeChatは2位だと言っていますが、誰も立ち上がって1位だと言う勇気がないの...

#Shark High Defense Server# sharktech-$99/E3-1270v2/16g メモリ/2T ハードディスク/10T トラフィック

Sharktech は、優れた構成、低価格、高コストパフォーマンスを備えたロサンゼルス高防御サーバー...

onetechcloud: 完全に最適化されたライン VPS、64 元/四半期、米国 CN2/ネイティブ/高防御 + 香港 CN2/CMI ライン

onetechcloud は今月、新たな 20% オフのプロモーションを開始しました。米国 VPS ...

淘宝網を生態学的災害から救うのは誰か?

BATの3大巨頭のうち、百度はテクノロジーに力を入れており、テンセントはソーシャルネットワーキングに...

Kubernetesを素早く導入する方法

Kubernetes とは何ですか? Kubernetes という単語はギリシャ語に由来し、操舵手...

ウェブサイト間の共同改善を促進するため、中国で初のウェブサイト診断会議が開催されました

2012年5月3日15:00~16:00、世界管理グループウェブサイト諮問委員会主催の第1回ウェブサ...

常熟農村商業銀行とアリババクラウドが金融コアシステムの再構築を推進する戦略的協力協定を締結

5月28日、本日開催されたアリババクラウド北京サミットにおいて、常熟農村商業銀行とアリババクラウドは...

rumahhosting: インドネシア クラウド サーバー/インドネシア VPS、月額 14 ドル、1G メモリ/1 コア/20g SSD/無制限トラフィック

インドネシア企業(インドネシア)であるrumahhostingは2004年に設立され、主にインドネシ...

Huaban.com、ソーシャル電子商取引サービスへの参入に向けて「Huaban Market」をテスト

国内のPinterestのようなウェブサイトHuaban.comは「Huaban Market」をひ...