Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

以前、robots.txt ファイルの書き方について記事を書きましたが、実際に観察してみると、一部の友人はまだ robots.txt ファイルのルールについて誤解しているようです。

たとえば、多くの人が次のように書いています。

ユーザーエージェント: *
許可する: /
禁止: /mulu/

このルールが実際には効果がないということに気付いたかどうかはわかりません。最初の文 Allow: / はスパイダーがすべてのコンテンツをクロールすることを許可することを意味し、2 番目の文 Disallow: /mulu/ は /mulu/ の下にあるすべてのコンテンツを禁止することを意味します。

表面的には、このルールの目的は、スパイダーが /mulu/ を除く Web サイトのすべてのページをクロールできるようにすることです。

ただし、検索エンジンのスパイダーはルールを上から下に実行するため、2 番目のコマンドは無効になります。

正しいルールは次のようになります。

ユーザーエージェント: *
禁止: /mulu/
許可する: /

つまり、まず禁止コマンドを実行し、その後に許可コマンドを実行することで無効にならないようにします。

さらに、Baidu スパイダーが犯すもう 1 つの一般的な間違いは、Disallow コマンドと Allow コマンドがスラッシュ / で始まる必要があるため、次のように記述する人がいることです: Disallow: *.html これは Baidu スパイダーでは間違っており、次のように記述する必要があります: Disallow: /*.html 。

こうしたルールを記述するときに、気づかない問題が発生することがあります。Baidu Webmaster Tools (zhanzhang.baidu.com) と Google Webmaster Tools を使って、これらのルールをテストできるようになりました。

比較的言えば、Baidu Webmaster Tools のロボット ツールは比較的シンプルです。

Baidu Robots ツールは、各コマンド行が文法規則に準拠しているかどうかを検出することしかできず、実際の効果やクロール ロジック ルールは検出できません。

比較すると、図に示すように、Google の Robots ツールの方がはるかに使いやすいです。

Google ウェブマスター ツールではクローラ権限と呼ばれ、Google がサイトのページをクロールするときにブロックされる URL の数を報告します。

Robots の変更の効果をオンラインでテストすることもできます。もちろん、ここでの変更はテスト用です。問題がなければ、robots.txt ファイルを生成するか、コマンド コードを robots.txt テキスト ドキュメントにコピーして、Web サイトのルート ディレクトリにアップロードすることができます。

Google のテストは Baidu のテストとは大きく異なります。1 つ以上の URL を入力して、Google スパイダーがこれらの URL をクロールできるかどうかをテストできます。

テスト結果は、Google スパイダーによるこれらの URL のクロール状況です。このテストは、Robots ファイルのルールが特定の URL に対して有効かどうかを確認するためのものです。

もちろん、2 つのツールを組み合わせる方がよいでしょう。これで、ロボットの書き方を完全に理解できたはずです。

転載の際は、小夜ブログの記事であることを明記してください。この記事のアドレスは、http://liboseo.com/1170.html です。

特に指定がない限り、Xiaoyao Blog のすべての記事はオリジナルです。転載する場合は出典とリンクを明記してください。

元のタイトル: Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

キーワード: 分析、Robots.txt、誤解、Baidu、Googlerobo、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  1か月でウェブサイトのキーワードをランク​​付けする方法

>>:  SEOは最も基本的なマーケティング手法です

推薦する

ホストユンはどうですか?韓国データセンターの高帯域幅韓国VPSの簡単な評価

ホストユンはどうですか? hostyun 韓国 VPS はどうですか? Hostyun は、月額 1...

データに基づいてSEO監視を適切に行う

みなさんこんにちは。私の名前はLiang Lei、オンライン名はStoneです。最近、百度は多くのウ...

エッジ コンピューティングとは何ですか? また、高等教育でどのように活用できますか?

今後 18 か月以内にエッジ コンピューティング ソリューションを導入し、モノのインターネット (I...

第2回全国インテリジェント製造イノベーション・起業家コンテスト決勝が北京で開催されました

2017年12月11日、第2回全国インテリジェント製造(中国製造2025)イノベーション・起業家コン...

偽名を使った結婚・出会い系サイト「Jiayuan.com」が詐欺師の天国に

出会い系サイトを利用するときは、注意が必要です。 写真:張志記者 陳瓊克上海の女性、シャオリンさん(...

photonvps-$5.48/windows/512m メモリ/20g SSD/2T トラフィック/ロサンゼルス/DDoS 保護

皆さんはphotonvpsをご存知でしょうか?それが、みんながFantong VPS(KVM仮想化ベ...

クラウドネイティブの次の開発方向は何でしょうか?

最近、関係省庁や委員会は、デジタル変革やその他の関連業務をガイドするための文書を集中的に発行していま...

アマゾン ウェブ サービスが生成型 AI 技術の普及を促進する 4 つの主要なイノベーションを発表

今日、AIGC は間違いなく最もホットな話題の 1 つです。国内外の大手テクノロジー企業もこれに追随...

Weiboマーケティングの6つのヒント: 楽しいだけじゃない

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスWeiboマーケティング...

ステーションK

当初、多くの部下から「シャオ・ジャンはどうやってSEOをすればいいの?」と聞かれました。本当に毎日い...

ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

このシリーズ: 「Webクローラー作成ガイド(1):NetEase Cloud Musicプレイリス...

SEO 担当者は、コンバージョン率を向上させるために統計ツールを有効活用すべき - A5 Webmaster Network

著者は現在、医療ウェブサイトを最適化しており、医療業界のウェブサイトについていくつかの意見を持ってい...

#Black5#+#Cyber​​Monday# Hostgator: 80% オフ、仮想ホスティング\VPS\サーバー

ホスティング業界で有名なブランドであるHostgatorが、「ブラックフライデー」と「サイバーマンデ...