Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

以前、robots.txt ファイルの書き方について記事を書きましたが、実際に観察してみると、一部の友人はまだ robots.txt ファイルのルールについて誤解しているようです。

たとえば、多くの人が次のように書いています。

ユーザーエージェント: *
許可する: /
禁止: /mulu/

このルールが実際には効果がないということに気付いたかどうかはわかりません。最初の文 Allow: / はスパイダーがすべてのコンテンツをクロールすることを許可することを意味し、2 番目の文 Disallow: /mulu/ は /mulu/ の下にあるすべてのコンテンツを禁止することを意味します。

表面的には、このルールの目的は、スパイダーが /mulu/ を除く Web サイトのすべてのページをクロールできるようにすることです。

ただし、検索エンジンのスパイダーはルールを上から下に実行するため、2 番目のコマンドは無効になります。

正しいルールは次のようになります。

ユーザーエージェント: *
禁止: /mulu/
許可する: /

つまり、まず禁止コマンドを実行し、その後に許可コマンドを実行することで無効にならないようにします。

さらに、Baidu スパイダーが犯すもう 1 つの一般的な間違いは、Disallow コマンドと Allow コマンドがスラッシュ / で始まる必要があるため、次のように記述する人がいることです: Disallow: *.html これは Baidu スパイダーでは間違っており、次のように記述する必要があります: Disallow: /*.html 。

こうしたルールを記述するときに、気づかない問題が発生することがあります。Baidu Webmaster Tools (zhanzhang.baidu.com) と Google Webmaster Tools を使って、これらのルールをテストできるようになりました。

比較的言えば、Baidu Webmaster Tools のロボット ツールは比較的シンプルです。

Baidu Robots ツールは、各コマンド行が文法規則に準拠しているかどうかを検出することしかできず、実際の効果やクロール ロジック ルールは検出できません。

比較すると、図に示すように、Google の Robots ツールの方がはるかに使いやすいです。

Google ウェブマスター ツールではクローラ権限と呼ばれ、Google がサイトのページをクロールするときにブロックされる URL の数を報告します。

Robots の変更の効果をオンラインでテストすることもできます。もちろん、ここでの変更はテスト用です。問題がなければ、robots.txt ファイルを生成するか、コマンド コードを robots.txt テキスト ドキュメントにコピーして、Web サイトのルート ディレクトリにアップロードすることができます。

Google のテストは Baidu のテストとは大きく異なります。1 つ以上の URL を入力して、Google スパイダーがこれらの URL をクロールできるかどうかをテストできます。

テスト結果は、Google スパイダーによるこれらの URL のクロール状況です。このテストは、Robots ファイルのルールが特定の URL に対して有効かどうかを確認するためのものです。

もちろん、2 つのツールを組み合わせる方がよいでしょう。これで、ロボットの書き方を完全に理解できたはずです。

転載の際は、小夜ブログの記事であることを明記してください。この記事のアドレスは、http://liboseo.com/1170.html です。

特に指定がない限り、Xiaoyao Blog のすべての記事はオリジナルです。転載する場合は出典とリンクを明記してください。

元のタイトル: Robots.txt ルールの誤解と Baidu および Google ロボット ツールの使用に関する分析

キーワード: 分析、Robots.txt、誤解、Baidu、Googlerobo、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  1か月でウェブサイトのキーワードをランク​​付けする方法

>>:  SEOは最も基本的なマーケティング手法です

推薦する

velocihost: 米国のプロフェッショナル GPU サーバー サプライヤー。多数の GPU グラフィック カード モデルから選択可能

velocihost は 2009 年に設立されたアメリカの会社です。主に米国のマイアミとニューヨー...

企業ウェブサイトのトラフィックコンバージョン率を向上させる方法

企業のウェブサイトは他の種類のウェブサイトとは異なります。まず、企業のウェブサイトは、大量のトラフィ...

キーワードのランキングを決定する2つの要素

検索エンジンでキーワードの順位が変わるのはよくあることで、ウェブマスターなら誰でもよく目にするもので...

SEO は負けるわけにはいかない: 今後の道は不透明

SEO は非常に複雑な業界です。一方では、検索エンジンによって奨励されており、優れた Web サイト...

クラウド トラフィックを監視するための 7 つの QoS ベスト プラクティス

最近では、高性能マルチコア CPU、仮想化、高速でユビキタスなインターネット アクセスなどのテクノロ...

百度の青大根アルゴリズムが再び始動、リンクの売買行動に影響

2013年2月19日、Baiduのアルゴリズムが再び調整されました。Baiduのウェブ検索不正対策チ...

A5最適化チーム: 間違った301タ​​ーゲティングによる災害を回避する

ドメイン名をリダイレクトするための統一された URL 標準化は、Web サイトのさまざまなドメイン名...

オラクル、顧客のクラウドへの移行を加速させるOracle Support Rewardsプログラムを開始

Oracle Cloud Infrastructure に費やす 1 ドルごとに、Oracle テク...

クラウドネイティブ時代のエンタープライズマルチアクティブ災害復旧システムを構築するためのアイデアとベストプラクティス

[[409884]]クラウド ネイティブの概念を解釈するときに、マイクロサービスやコンテナについてよ...

フォレスター:パブリッククラウド市場規模は2026年までに1兆ドルを超える

Forrester の最近のレポートによると、パブリック クラウド市場は 2022 年の 4,466...

エスコートフォーラムマーケティングの7つのポイント

現在、オンラインマーケティングは徐々にWeiboマーケティングの基盤となり、毎日携帯電話を見つめて笑...

bluehost、40% 割引コード、cpanel 仮想ホスティング、月額 2.95 ドルから、2 日間限定

Bluehost からプロモーション メールを送信しました: 夏季限定プロモーション、期間は 2 日...