Baiduスパイダーがウェブサイトログに304ステータスコードを返す状況を分析する

Baiduスパイダーがウェブサイトログに304ステータスコードを返す状況を分析する

最近、Baidu スパイダーがホームページをクロールした後、Web サイトが大量の 304 ステータス コードを返すという問題に遭遇しました。 301 と 302 は以前に遭遇したことがありましたが、304 については聞いたことがありませんでした。 この問題の発生とその対処方法をより深く理解するために、この状況を分析して観察する良い機会でした。

Baidu Encyclopedia では、304 ステータス コードについて次のように説明しています。クライアントが条件付き GET リクエストを送信し、そのリクエストが許可され、ドキュメントの内容が変更されていない場合 (最後のアクセス以降、またはリクエストの条件に従って)、サーバーは 304 ステータス コードを返す必要があります。簡単に言えば、クライアントは GET を実行しましたが、ファイルは変更されていません。つまり、私たちが理解しているように、ページは更新されていないということです。

GET /index.html - 80 - 220.181.135.120 Sosospider+(+http://help.soso.com/webspider.htm) 304 0 0

GET /index.html - 80 - 123.129.209.113 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0

しかし、Web サイトには毎日大量のコンテンツが更新されているのに、なぜ「更新されていません」というステータス コードが返されるのでしょうか。過去数日間、Web サイトの IIS ログを確認したところ、過去数日間のホームページのクロールで 304 ステータス コードが返されていることがわかりました。一般的に、いくつかの可能性があります。

1. サーバーキャッシュの理由

キャッシュを設定する目的は、一般的にウェブサイトの初期読み込みを高速化することです。ブラウザでウェブサイトにアクセスする場合と同様に、キャッシュの問題が発生する可能性が高くなります。ウェブサイトを開くと、ウェブサイトが更新または変更されている場合、ホームページを直接クリックすると、以前にアクセスしたページがまだ表示され、Ctrl + F5で再読み込みすると新しいページが表示されます。これは実際にはキャッシュによるものです。さらに、大規模なウェブサイトとフレンドリーリンクを交換する場合、相手側がフレンドリーリンクを追加した直後にホームページが表示されないという問題が発生することがあります。キャッシュが原因で、表示に時間がかかることがあります。

2. ウェブサイトの構造の問題

ウェブサイトの構造により、スパイダーがスムーズにクロールできない場合、つまり、スパイダーがクロールしたにもかかわらず、ウェブサイトの構造の問題により、スパイダーが同じコンテンツを 2 回クロールしたり、ホームページをクロールするたびに固定のコンテンツのみをクロールしたりすると、スパイダーがホームページをクロールするときに 304 ステータス コードを返すことになります。

3. ウェブサイトの速度の問題

Google はウェブサイトの読み込み時間に基づいてアルゴリズムを更新し、ウェブサイトの読み込み時間をランキング要因に含めました。検索エンジンのランキングがこれを考慮しないとしても、ユーザー エクスペリエンスには大きな影響があります。読み込みに数十秒、あるいは数分もかかるウェブサイトに、これ以上時間を費やしたい人はいないでしょう。検索スパイダーについても同じことが言えます。ウェブサイトの読み込み速度も、スパイダーの正常なクロールに影響します。一般的に、ウェブサイトは上から下へ読み込まれますが、速度要因により、ウェブサイトはヘッダーのみを読み込み、残りは時間内に表示されないことがあります。また、スパイダーがヘッダーコンテンツのみをクロールする原因となることもあります。ほとんどのウェブサイトのヘッダーは同じであるため、クロールが更新されていないステータスコードを返すのは簡単です。

さらに、ネットワーク回線の相互接続も要因となります。

4. ウェブサイトのコンテンツの問題

304 ステータス コードに関する情報をオンラインで検索しました。多くの人は、ウェブサイト コンテンツの長期収集や疑似オリジナリティも、スパイダーがこのステータス コードを返す原因になると考えています。ウェブサイト コンテンツの収集や疑似オリジナリティは、確かにウェブサイトの品質を低下させ、Baidu に含まれなくなるなどの結果をもたらすためです。検索スパイダーも、ウェブサイト コンテンツを含める意味がないと考えるため、新しいコンテンツをクロールせず、更新なしのステータスを返します。

5. ステータスコードに注意する

304 ステータス コードは Web サイトが更新されていないことを意味するため、頻繁に表示される場合は深刻に受け止める必要があります。同時に、ステータス コードが表示されたときに Web サイト データのさまざまな側面の変化と傾向を観察し、ステータス コードの影響をよりよく理解することも必要です。

ウェブサイトは一時的に304ステータスコードを表示した後、Baiduのアップデート後にインデックス数が減少しました。数日前、ウェブサイトは断続的にアクセス不能になりました。翌日、ウェブサイトのホームページはKアウトされました。サーバーを交換した後、ウェブサイトは通常のアクセスに回復し、翌日にはホームページが回復しました。現時点では、ステータスコードをよりよく理解するために、観察と分析が必要です。

この記事は元々Xiao Junのブログからのもので、元のアドレスはhttp://xiaojunseo.com/seo-watch/235.htmlです(転載の際はリンクの形で出典を明記してください、ありがとうございます)

元のタイトル: Baidu スパイダーがウェブサイトのログに 304 ステータス コードを返す状況を分析する

キーワード: ウェブサイト ログ、Baidu スパイダー、304 ステータス コード、ウェブマスター、ウェブサイトのプロモーション、収益化

<<:  TudouとYoukuの合併後、「1234」ビデオウェブサイトのパターンが徐々に形作られる

>>:  他の山からの翡翠は石を磨くために使用することができますSEOの良い駅外部リンク分析

推薦する

コミュニティウェブサイト運営の収益性に関する考察

収益性の高いウェブサイト運営は、ウェブサイトを構築するすべてのウェブマスターの最終的な目標です。しか...

Office 365の中国でのビジネスは商用利用開始4年目で400%以上成長

2018 年 4 月 17 日、北京 - マイクロソフトは本日、21Vianet が運営する Off...

オンラインでの収入に自信を失ったウェブマスターへの手紙

オンラインでの収入に自信を失ったウェブマスターへの手紙これは、オンラインでお金を稼ぎ始めたばかりの初...

ついに誰かがクラウドコンピューティングとデータベースの関係を明らかにした

[[433700]] 2006年、Google CEOのエリック・シュミット氏が初めてクラウドコンピ...

dwidc: 200G 高防御/CC 攻撃無視、30 元/月 - 4G メモリ/4 コア/40g データ ディスク/10M 帯域幅、299 元/月 - 2*e5-2650v2/32g メモリ/480gSSD/50M 帯域幅

大多数のネットユーザーの要望に応えて、dwidc(大王IDC)はダブルイレブン特別プロモーションを1...

SEOと検索マーケティングは実際には回答マーケティングのゲームをしている

検索マーケティングの最大の欠点は、それが受動的なマーケティング手法であり、他の人があなたのところに来...

アリババクラウドは、従来のITアーキテクチャの置き換えを加速するために「金融コアパイオニアアライアンス」の設立を開始しました。

6月9日、アリババクラウドサミット2020において、アリババクラウドは「金融コアパイオニアアライアン...

推奨: colossuscloud - プロフェッショナル XP/Windows7/8/2003/2008/リモート VPS を含む VPS が 35% オフ

colossuscloud.com は、それほど昔に設立されたものではなく、serverpoint....

ASOは本当に難しいのか?ドロップダウン連想ワードを実行する時が来た

ASO は本当に難しいのでしょうか? たとえば、最近ある人が私に「 5,000 個のキーワードをカバ...

パーフェクトワールドがシャンダゲームズと提携:バックアッププランの可能性と「恨み」を晴らす意欲

2日前、パーフェクトワールドがシャンダゲームズの株式を買収するというニュースが出た時、私はその発表を...

【IDCC2017】ZOHO | SaaS と IT 運用・保守: 20 年間の並行開発

SaaS 分野には、非常に控えめなエンタープライズ ソフトウェア会社があります。同社は2つの点でHu...

小紅書ブロガーの抑制と傲慢さ!

張大宜、魏亜、李佳奇…次々と人気が出る神話が世間の注目を集める中、ネットセレブやKOL、ブロガーは「...

2023 年のマルチクラウドに関する 4 つの重要な考慮事項

NetApp のチーフ エバンジェリストである Matt Watts 氏は、マルチクラウド導入の進化...

マヤの予言が信頼できるなら、キーワードランキングはホームページにしっかりと定着するだろう

これから過ぎ去ろうとしている年は、残酷で寒い年だと思っています。6月、8月、11月の数字は、すべての...