少し前に、インターネットコミュニティは360がrobots.txtファイルに準拠していないと批判し、Baiduもrobots.txtプロトコルに準拠していることを強調しました。しかし、あるウェブサイトの最近の分析によると、Baidu の robots.txt ファイルへの準拠は完全とは程遠いようです。 11 月 15 日に、さまざまな検索スパイダーが robots.txt ファイルの変更にどのように反応するかについて記事を書きました。これは、11 月 13 日頃に、作業中の Web サイトに robots.txt ファイルを配置し、検索エンジンによる特定のディレクトリのクロールを明示的に禁止したためです。 robots.txt ファイルが設置された後、Baidu を含むすべての検索エンジンが反応しました。 これは私の robots.txt テキストのスクリーンショットです: 1週間以上経過しましたが、Baiduの検索結果には依然として禁止されたディレクトリが多数あることがわかりました。 11月21日のログを見ると、他の検索エンジンは禁止されたディレクトリのクロールを完全に停止しているのに対し、Baiduは依然として多数の禁止されたディレクトリのクロールを続けていることがわかりました。 Baidu が robots.txt で禁止されたディレクトリをクロール 禁止されたディレクトリをクロールしているのはBaiduだけであることは明らかである 事実、robots.txt ファイルによって特定のディレクトリが禁止されてから 7 日後、他の検索エンジンは禁止されたディレクトリをクロールしなくなりましたが、Baidu は依然としてこれらのディレクトリをクロールしています。では、Baidu は robots.txt プロトコルに準拠していないと言えるのでしょうか?今のところ答えはノーです。まず、Baidu が従わなかった理由を見てみましょう。 13 日の robots.txt ファイルの設定から始まり、11 月 13 日、11 月 14 日、11 月 15 日のログを見ると、Baidu が robots.txt ファイルにアクセスしたのは 14 日の 2 回のみでした。(ここで述べておくと、私の Web サイトは毎日 30,000 のインデックスとスナップショットが更新される Web サイトです) 11月13日のさまざまな検索スパイダーによるrobots.txtファイルのクロール 11月14日、さまざまな検索スパイダーがrobots.txtファイルをクロールしました。Baiduはrobots.txtを2回クロールしました。 11月15日の検索スパイダーによるrobots.txtファイルのクロール 11月21日の検索スパイダーによるrobots.txtファイルのクロール なんと、中国最大の検索エンジンである Baidu が、ウェブサイトの robots.txt ファイルをチェックすることはほとんどないことがわかります。これは、Baidu が robots.txt ファイルで要求されている禁止ディレクトリのクロールをまだ継続していない理由でもあります。 robots.txt ファイルは、Web マスターが Web サイト上の機密情報がインデックスに登録されないようにブロックするための重要な手段であることは誰もが知っています。 Baidu は、スパイダーに対するウェブサイトの認証をタイムリーに確認できませんでした。これは技術的なエラーだったのでしょうか、それとも意図的なものだったのでしょうか? 技術的なエラーの場合は、Baidu によって設定された robots.txt のアクセス時間間隔が長すぎる可能性があります。また、Baidu が robots.txt ファイルにアクセスしたときに、304 ステータス (Web ページに変更が表示された) になっていることがわかり、再クロールしなかった可能性もあります。長い間隔が確実になりました。ウェブサイト ログのスパイダー 304 テーブルに robos.txt の痕跡が見つからなかったため、304 が原因でクロールされない理由は除外されました。 Baidu ほどの巨大検索エンジンが robots.txt を時間通りにクロールしないといった低レベルのミスを犯す可能性は低いと考えるのが自然です。情報を更新するコストが高すぎるため、応答速度を遅くする必要があるのでしょうか。あるいは、陰謀論の観点から言えば、ルールを回避して他の検索エンジンよりも「偶然」多くの結果をクロールしたいのでしょうか。残念ながら、それは Baidu 自身にしかわかりません。 ウェブマスターとして、Baidu の非効率的な行為に対処する唯一の方法は、ウェブサイトの計画開始時にウェブサイトの SEO 構造を決定することを含め、ウェブサイト構造の安定性を維持するように努めることです。ウェブサイトの運用中に構造に調整がある場合は、robos.txt を使用して反映するだけでなく、Baidu のウェブマスターツールの Web ページの削除などのツールを使用して、禁止ファイルの削除申請を提出する必要があります。 無断転載禁止。転載の際はリンクの形で出典を明記してください: http://www.seolzl.com/2012-11-27/109 元のタイトル: Baidu が robots.txt で禁止されているファイルをクロールするのはなぜですか? キーワード: Baidu、robots.txt、禁止、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: Baiduスナップショットの不完全なキャプチャ事例の分析
>>: 百度のサイトリンク機能の廃止はブランドプロモーションに支障をきたす恐れ
コンテンツ マーケティングの目標は、潜在顧客との親しみと信頼を築くことであると多くの人が知っていると...
SAPと北京GigaDevice Technology Co., Ltd.(以下、「GigaDevi...
bluevm が最新の KVM VPS プロモーションをリリースした後、初心者の友人から使い方が分か...
8月25日から数日が経ちましたが、ウェブマスターグループでは依然として多くのウェブマスターが不満を漏...
ソフトな文章を書くことは、これまでずっとみんなの頭痛の種でした。なぜなら、あまりにも多くのウェブマス...
シュナイダーエレクトリックは2023年半ばに、エネルギー管理と自動化の専門知識をAIモデルに統合し、...
ソフトウェア・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、インフラストラクチャ・アズ・...
8月16日は360 Searchのリリース1周年となります。 360社は新しい検索製品「My Sea...
Licloud は新しいプロモーションを開始しました。新しい香港 VPS (e5-2680v4+NV...
1. Tmallが目指すもの:販売プラットフォームからつながりプラットフォームへ天猫にとって、201...
A5 Webmaster Network (www.admin5.com) は 12 月 24 日、...
「ポンジ・スキーム」の創始者、ポンジ。台湾海峡網、10月26日、揚子江晩報によると、1919年、イタ...
私は同じ分野のウェブマスターと友好的なリンクの問題について議論し、今日は暇な時間に記事を書くことにし...
Hosthink は、2010 年から運営されており、世界 50 の国と地域で独立サーバー (従来型...
編集者注: この記事の原著者である Charles Fitzgerald 氏は、シアトル地域のエンジ...