Baidu が robots.txt で禁止されているファイルをクロールするのはなぜですか?

Baidu が robots.txt で禁止されているファイルをクロールするのはなぜですか?

少し前に、インターネットコミュニティは360がrobots.txtファイルに準拠していないと批判し、Baiduもrobots.txtプロトコルに準拠していることを強調しました。しかし、あるウェブサイトの最近の分析によると、Baidu の robots.txt ファイルへの準拠は完全とは程遠いようです。 11 月 15 日に、さまざまな検索スパイダーが robots.txt ファイルの変更にどのように反応するかについて記事を書きました。これは、11 月 13 日頃に、作業中の Web サイトに robots.txt ファイルを配置し、検索エンジンによる特定のディレクトリのクロールを明示的に禁止したためです。 robots.txt ファイルが設置された後、Baidu を含むすべての検索エンジンが反応しました。

これは私の robots.txt テキストのスクリーンショットです:

1週間以上経過しましたが、Baiduの検索結果には依然として禁止されたディレクトリが多数あることがわかりました。 11月21日のログを見ると、他の検索エンジンは禁止されたディレクトリのクロールを完全に停止しているのに対し、Baiduは依然として多数の禁止されたディレクトリのクロールを続けていることがわかりました。

Baidu が robots.txt で禁止されたディレクトリをクロール

禁止されたディレクトリをクロールしているのはBaiduだけであることは明らかである

事実、robots.txt ファイルによって特定のディレクトリが禁止されてから 7 日後、他の検索エンジンは禁止されたディレクトリをクロールしなくなりましたが、Baidu は依然としてこれらのディレクトリをクロールしています。では、Baidu は robots.txt プロトコルに準拠していないと言えるのでしょうか?今のところ答えはノーです。まず、Baidu が従わなかった理由を見てみましょう。 13 日の robots.txt ファイルの設定から始まり、11 月 13 日、11 月 14 日、11 月 15 日のログを見ると、Baidu が robots.txt ファイルにアクセスしたのは 14 日の 2 回のみでした。(ここで述べておくと、私の Web サイトは毎日 30,000 のインデックスとスナップショットが更新される Web サイトです)

11月13日のさまざまな検索スパイダーによるrobots.txtファイルのクロール

11月14日、さまざまな検索スパイダーがrobots.txtファイルをクロールしました。Baiduはrobots.txtを2回クロールしました。

11月15日の検索スパイダーによるrobots.txtファイルのクロール

11月21日の検索スパイダーによるrobots.txtファイルのクロール

なんと、中国最大の検索エンジンである Baidu が、ウェブサイトの robots.txt ファイルをチェックすることはほとんどないことがわかります。これは、Baidu が robots.txt ファイルで要求されている禁止ディレクトリのクロールをまだ継続していない理由でもあります。 robots.txt ファイルは、Web マスターが Web サイト上の機密情報がインデックスに登録されないようにブロックするための重要な手段であることは誰もが知っています。 Baidu は、スパイダーに対するウェブサイトの認証をタイムリーに確認できませんでした。これは技術的なエラーだったのでしょうか、それとも意図的なものだったのでしょうか?

技術的なエラーの場合は、Baidu によって設定された robots.txt のアクセス時間間隔が長すぎる可能性があります。また、Baidu が robots.txt ファイルにアクセスしたときに、304 ステータス (Web ページに変更が表示された) になっていることがわかり、再クロールしなかった可能性もあります。長い間隔が確実になりました。ウェブサイト ログのスパイダー 304 テーブルに robos.txt の痕跡が見つからなかったため、304 が原因でクロールされない理由は除外されました。 Baidu ほどの巨大検索エンジンが robots.txt を時間通りにクロールしないといった低レベルのミスを犯す可能性は低いと考えるのが自然です。情報を更新するコストが高すぎるため、応答速度を遅くする必要があるのでしょうか。あるいは、陰謀論の観点から言えば、ルールを回避して他の検索エンジンよりも「偶然」多くの結果をクロールしたいのでしょうか。残念ながら、それは Baidu 自身にしかわかりません。

ウェブマスターとして、Baidu の非効率的な行為に対処する唯一の方法は、ウェブサイトの計画開始時にウェブサイトの SEO 構造を決定することを含め、ウェブサイト構造の安定性を維持するように努めることです。ウェブサイトの運用中に構造に調整がある場合は、robos.txt を使用して反映するだけでなく、Baidu のウェブマスターツールの Web ページの削除などのツールを使用して、禁止ファイルの削除申請を提出する必要があります。

無断転載禁止。転載の際はリンクの形で出典を明記してください: http://www.seolzl.com/2012-11-27/109


元のタイトル: Baidu が robots.txt で禁止されているファイルをクロールするのはなぜですか?

キーワード: Baidu、robots.txt、禁止、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  Baiduスナップショットの不完全なキャプチャ事例の分析

>>:  百度のサイトリンク機能の廃止はブランドプロモーションに支障をきたす恐れ

推薦する

ウェブサイト運営について(1)

インターネット業界の発展により、基本的にあらゆる分野に独自の競合相手が存在します。小さな会社として始...

Bilibili、Zhihu、Douban:同じ目的地への異なる道?

数年前まで遡ると、国内のインターネット市場は活況を呈し、多くの高品質なプラットフォームや企業が出現し...

ウェブマスターネットワークからの毎日のレポート:Facebookの株価が再び下落、オフシーズンではないにもかかわらずグループ購入が減少

民間の食品安全警告ネットワークは「窓から投げ出され」、政府の資金援助を拒否「Throw Out th...

2018年グローバルモバイルインターネット市場レポートII

アプリモバイルデバイスの人気が高まったため、モバイル体験は人々の生活、仕事、娯楽方法に影響を与えてい...

風水占いウェブサイトのSEOユーザーエクスペリエンスを向上させる方法の簡単な分析

占いや風水は特別な産業です。人々はこの言葉を聞くと、いつも宗教的な色合いを感じます。占いや風水は中国...

Kafka はメッセージ損失の問題をどのように解決しますか?

[[415220]]この記事はWeChatの公開アカウント「Micro Technology」から転...

公共サービス機関が適切なクラウドネイティブ プラットフォームを選択する方法

公共サービス機関は複雑で予測不可能な環境で運営されており、同時に複数の課題に直面しています。今後数年...

面接官は私に尋ねました。「分散トランザクションとは何ですか?」

[[403411]]取引トランザクションは、実際には誰にとっても、特にプログラマーにとっては馴染み深...

クラウドコンピューティング業界に関する詳細なレポート: 企業のデジタル変革が加速し、クラウドコンピューティングには大きな可能性があります

1. 市場レビュー: パンデミックにより海外のクラウドサービスプロバイダーの業績と評価が上昇1.1 ...

B2Cウェブサイトのユーザーエクスペリエンスに関する簡単な議論:TmallとJDホームページの分析

以前、「B2C Web サイトの開発と構築への切り替え」という記事でユーザー エクスペリエンスについ...

西安美利芳SEO会社の市場ポジショニング戦略の分析

今日の市場競争はますます熾烈になっています。市場シェアを獲得し、この主要な地位を獲得するために、企業...

ブランドかプラットフォームか:中小規模のインターネット起業家はどこへ向かうのか?

序文:紆余曲折を経ての思い昨年の3月から、私はいくつかの小さなウェブサイトを運営しています。いくつか...

hostodo-$4.8/4IP/1g メモリ/50g ハードディスク/1T トラフィック/1000M ポート/ロサンゼルス/マイアミ

Hostodo はプロモーションを実施しているようで、ロサンゼルスとマイアミの両方のデータセンターで...

高品質なタイトルと一般的なタイトルのトラフィックの差は10倍

先ほど、a5 フォーラムの投稿を見ました。正直に言うと、この投稿の内容はあまり良くありませんが、タイ...