最近、Baidu スパイダーがホームページをクロールした後、Web サイトが大量の 304 ステータス コードを返すという問題に遭遇しました。 301 と 302 は以前に遭遇したことがありましたが、304 については聞いたことがありませんでした。 この問題の発生とその対処方法をより深く理解するために、この状況を分析して観察する良い機会でした。 Baidu Encyclopedia では、304 ステータス コードについて次のように説明しています。クライアントが条件付き GET リクエストを送信し、そのリクエストが許可され、ドキュメントの内容が変更されていない場合 (最後のアクセス以降、またはリクエストの条件に従って)、サーバーは 304 ステータス コードを返す必要があります。簡単に言えば、クライアントは GET を実行しましたが、ファイルは変更されていません。つまり、私たちが理解しているように、ページは更新されていないということです。 GET /index.html - 80 - 220.181.135.120 Sosospider+(+http://help.soso.com/webspider.htm) 304 0 0 GET /index.html - 80 - 123.129.209.113 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0 しかし、Web サイトには毎日大量のコンテンツが更新されているのに、なぜ「更新されていません」というステータス コードが返されるのでしょうか。過去数日間、Web サイトの IIS ログを確認したところ、過去数日間のホームページのクロールで 304 ステータス コードが返されていることがわかりました。一般的に、いくつかの可能性があります。 1. サーバーキャッシュの理由 キャッシュを設定する目的は、一般的にウェブサイトの初期読み込みを高速化することです。ブラウザでウェブサイトにアクセスする場合と同様に、キャッシュの問題が発生する可能性が高くなります。ウェブサイトを開くと、ウェブサイトが更新または変更されている場合、ホームページを直接クリックすると、以前にアクセスしたページがまだ表示され、Ctrl + F5で再読み込みすると新しいページが表示されます。これは実際にはキャッシュによるものです。さらに、大規模なウェブサイトとフレンドリーリンクを交換する場合、相手側がフレンドリーリンクを追加した直後にホームページが表示されないという問題が発生することがあります。キャッシュが原因で、表示に時間がかかることがあります。 2. ウェブサイトの構造の問題 ウェブサイトの構造により、スパイダーがスムーズにクロールできない場合、つまり、スパイダーがクロールしたにもかかわらず、ウェブサイトの構造の問題により、スパイダーが同じコンテンツを 2 回クロールしたり、ホームページをクロールするたびに固定のコンテンツのみをクロールしたりすると、スパイダーがホームページをクロールするときに 304 ステータス コードを返すことになります。 3. ウェブサイトの速度の問題 Google はウェブサイトの読み込み時間に基づいてアルゴリズムを更新し、ウェブサイトの読み込み時間をランキング要因に含めました。検索エンジンのランキングがこれを考慮しないとしても、ユーザー エクスペリエンスには大きな影響があります。読み込みに数十秒、あるいは数分もかかるウェブサイトに、これ以上時間を費やしたい人はいないでしょう。検索スパイダーについても同じことが言えます。ウェブサイトの読み込み速度も、スパイダーの正常なクロールに影響します。一般的に、ウェブサイトは上から下へ読み込まれますが、速度要因により、ウェブサイトはヘッダーのみを読み込み、残りは時間内に表示されないことがあります。また、スパイダーがヘッダーコンテンツのみをクロールする原因となることもあります。ほとんどのウェブサイトのヘッダーは同じであるため、クロールが更新されていないステータスコードを返すのは簡単です。 さらに、ネットワーク回線の相互接続も要因となります。 4. ウェブサイトのコンテンツの問題 304 ステータス コードに関する情報をオンラインで検索しました。多くの人は、ウェブサイト コンテンツの長期収集や疑似オリジナリティも、スパイダーがこのステータス コードを返す原因になると考えています。ウェブサイト コンテンツの収集や疑似オリジナリティは、確かにウェブサイトの品質を低下させ、Baidu に含まれなくなるなどの結果をもたらすためです。検索スパイダーも、ウェブサイト コンテンツを含める意味がないと考えるため、新しいコンテンツをクロールせず、更新なしのステータスを返します。 5. ステータスコードに注意する 304 ステータス コードは Web サイトが更新されていないことを意味するため、頻繁に表示される場合は深刻に受け止める必要があります。同時に、ステータス コードが表示されたときに Web サイト データのさまざまな側面の変化と傾向を観察し、ステータス コードの影響をよりよく理解することも必要です。 ウェブサイトは一時的に304ステータスコードを表示した後、Baiduのアップデート後にインデックス数が減少しました。数日前、ウェブサイトは断続的にアクセス不能になりました。翌日、ウェブサイトのホームページはKアウトされました。サーバーを交換した後、ウェブサイトは通常のアクセスに回復し、翌日にはホームページが回復しました。現時点では、ステータスコードをよりよく理解するために、観察と分析が必要です。 この記事は元々Xiao Junのブログからのもので、元のアドレスはhttp://xiaojunseo.com/seo-watch/235.htmlです(転載の際はリンクの形で出典を明記してください、ありがとうございます) 元のタイトル: Baidu スパイダーがウェブサイトのログに 304 ステータス コードを返す状況を分析する キーワード: ウェブサイト ログ、Baidu スパイダー、304 ステータス コード、ウェブマスター、ウェブサイトのプロモーション、収益化 |
<<: TudouとYoukuの合併後、「1234」ビデオウェブサイトのパターンが徐々に形作られる
>>: 他の山からの翡翠は石を磨くために使用することができますSEOの良い駅外部リンク分析
収益性の高いウェブサイト運営は、ウェブサイトを構築するすべてのウェブマスターの最終的な目標です。しか...
2018 年 4 月 17 日、北京 - マイクロソフトは本日、21Vianet が運営する Off...
オンラインでの収入に自信を失ったウェブマスターへの手紙これは、オンラインでお金を稼ぎ始めたばかりの初...
[[433700]] 2006年、Google CEOのエリック・シュミット氏が初めてクラウドコンピ...
大多数のネットユーザーの要望に応えて、dwidc(大王IDC)はダブルイレブン特別プロモーションを1...
検索マーケティングの最大の欠点は、それが受動的なマーケティング手法であり、他の人があなたのところに来...
6月9日、アリババクラウドサミット2020において、アリババクラウドは「金融コアパイオニアアライアン...
colossuscloud.com は、それほど昔に設立されたものではなく、serverpoint....
ASO は本当に難しいのでしょうか? たとえば、最近ある人が私に「 5,000 個のキーワードをカバ...
2日前、パーフェクトワールドがシャンダゲームズの株式を買収するというニュースが出た時、私はその発表を...
SaaS 分野には、非常に控えめなエンタープライズ ソフトウェア会社があります。同社は2つの点でHu...
張大宜、魏亜、李佳奇…次々と人気が出る神話が世間の注目を集める中、ネットセレブやKOL、ブロガーは「...
NetApp のチーフ エバンジェリストである Matt Watts 氏は、マルチクラウド導入の進化...
IPLC としてスタートした hmbcloud (ハーフ ムーン ベイ) は、ロサンゼルスの DC5...
これから過ぎ去ろうとしている年は、残酷で寒い年だと思っています。6月、8月、11月の数字は、すべての...