偽のBaidu Spider? CDNと仮想ホストのユーザーは、

偽のBaidu Spider? CDNと仮想ホストのユーザーは、

SEO 担当者やウェブマスターは、本物の Baidu スパイダーと偽物の Baidu スパイダーを区別する明確な手段をすでに持っていると思います。 Baidu は、Baidu Spider を装ったクローラーを識別する方法も公式に発表しました。詳細については、こちらの記事を参照してください: http://www.baidu.com/search/spider.htm

偽のスパイダーは、次のような重大な損害を当社の Web サイトにもたらす可能性があります。

ウェブサイトの帯域幅を占有し、ウェブサイトのトラフィックとオーバーヘッドの増加をもたらします。帯域幅が限られているという前提の下で、通常のスパイダーのクローリングを妨げ、ウェブサイトでSEO作業を行う際に私たちの考えを誤解させます。偽のスパイダーを装った一部の収集ツールは、私たちの作業を盗用しています。インターネット上で多くの人が偽のスパイダーを「捕まえる」方法に関する記事を共有しているのを見てきましたが、これらの記事は偽のスパイダーを「捕まえる」プロセスと操作方法を定型的に説明しているだけです。しかし、クモが本物かどうかを実際に判断する方法を教えてくれる人は誰もいませんでした。

筆者自身も最近、電子商取引サイトの SEO 最適化を行っていたときに、このようなケースに遭遇し、本物のスパイダーを偽物のスパイダーと間違えそうになったことがあります。

1. 「偽の蜘蛛」を発見

SEO 最適化を実現するには多くの分析とデータが必要ですが、その中でもログ分析は最優先事項です。ログでは、通常の統計ツールでは確認できない多くのデータと事実を確認できます。

毎週水曜日に、電子商取引サイトの週次ログを分析して、前週の最適化効果をカウントしています。今週のウェブサイトログを分析して確認したところ、図に示すように、知らなかった「スパイダーIP」がいくつか見つかりました。

Baidu スパイダーは、一般的に 202.181.108.* と 123.125.71.* の 2 つの IP セグメントから来ることが分かっています (ちなみに、これら 2 つの IP セグメントには、いわゆる高重み付けの Baidu スパイダーと低重み付けの Baidu スパイダーは存在しません)。明らかに、「常識」によれば、これら 3 つの IP は、Baidu Spider が属する IP セグメントに属していません。 Baidu スパイダーが誤って終了されないようにするために、作成者は nslookup ip コマンドを使用して IP を逆順にし、次の情報を取得しました。

この時点で、IP は Baidu Spider の IP セグメントに属しておらず、「偽のスパイダー」であることが基本的に判断できます。占有されている帯域幅を解放するには、IP をブロックする必要があります。

2. 「偽のクモ」に対する誤解

上記の 3 つの IP をブロックしようとしていたとき、先週、この電子商取引 Web サイトから Anquanbao サービスを使用する予定であり、DNS を Anquanbao サーバーに解決する必要があると通知されたことを突然思い出しました。Anquanbao は、ユーザーのアクセス状況に基づいて、CDN アクセラレーションに最も近いノードを選択します。

前回の定期的な SEO チェックで、ウェブサイトの IP が陝西省の IP に解決され、このウェブサイトの IP が、今回ウェブサイトのログから見つけた 3 つの「偽のスパイダー」IP と同じ IP セグメントに属していることが分かりました。この推測を検証するために、ウェブサイトのログをもう一度注意深く確認したところ、Google スパイダーと Sogou スパイダーも以前の 3 つの IP から来ていることが分かりました (ウェブサイトが Baidu の SEO を行っていたため、以前にウェブサイトのログを分割し、Baidu の状況のみを確認していました)。

今では、これらの IP に属するスパイダーは偽のスパイダーではなく、本物の Baidu スパイダー、Google スパイダー、および他の検索エンジンのスパイダーであることがようやく明らかになりました。ただ、CDN ノードを一度通過しただけなので、送信元 IP アドレスは同じです。

3. 仮想ホストはどのようにして「偽のスパイダー」を生成するのか

これをきっかけに、以前関連記事を読んでいたときに、XX コンピュータ ルーム (コンピュータ ルームは 1 つか 2 つしかありません) から偽のスパイダーが見つかったとウェブマスターが不満を漏らしているのをよく目にしたことを思い出しました。

これはとても不思議なことです。この機械室で採取道具や偽の蜘蛛が作られたのでしょうか?もちろん事実はそうではありませんが、

偽のスパイダーを発見したウェブマスターの多くは、ホスティングプロバイダーが提供するクラスターホスト、または同様の性質の仮想ホストを使用しています。原理はCDNと同じで、顧客のスペースとサイト情報を同じグループ内のすべてのサーバーに同期します。スパイダーのソースは異なります。サイトに直接アクセスするものもあれば、外部リンクを介してサイトにアクセスするものもあります。外部リンク経由でサイトにアクセスするスパイダーは、近くのCDNノードにアクセスします。CDNノードは各社によって異なりますが、大まかに地域(省ではない)と通信・ネットコムに分かれています。CDNノード経由でウェブサイトにアクセスするスパイダーのソースIPは、当然北京本社から出発するときのIPではありません。

結局、問題はうまく解決され、最適化されて以来、eコマース ウェブサイトのパフォーマンスは良好です。CDN が使用されていましたが、CDN は検索エンジンに何の障害にもならず、むしろウェブサイトの速度とユーザー エクスペリエンスの向上に役立ったことが判明しました。

この SEO の事例は、オンライン SEO チュートリアルが時代遅れになることも示しています。インターネットの進歩に伴い、私たち SEO 担当者もチュートリアルや共有を合理的に扱い、疑問を持ち、実践する勇気を持つとともに、インターネットの基本的な技術知識をある程度理解する必要があります。

この記事はもともと、蘭州 SEO-Eastern Huifan Optimization Team の AimarYang によって執筆されました。転載の際はリンクをそのままにしてください: http://www.easthv.cc/blog/lanzhouseo/fake-baiduspider-cdn/

原題: 偽百度蜘蛛? CDNと仮想ホストのユーザーは、

キーワード: Baidu、スパイダー、CDN、仮想、ホスト、ユーザー、注意が必要、区別、真偽、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  Baidu の「Web 検索ランキングの投票モデルに関する簡単な説明」を読んだ感想

>>:  Baidu Webmaster Community が登録を開始、SEO が軌道に戻る可能性がある

推薦する

オンライン共同購入業界の死亡率はほぼ半分であり、専門家はモデルの突破口を模索する必要があると述べている

2012 年は、さまざまな共同購入 Web サイトにとって間違いなく暗い年でした。倒産、合併・買収、...

Kubernetes コンテナ ランタイム インターフェース CRI

私はずっと前に掘った穴を埋めるためにこの記事を書きました[1]。この記事で取り上げるコンポーネントの...

bluevm-3周年記念/4つの特別VPSプロモーション

bluevm(別名「Bu Lu」)は設立から3年目を迎え、bluevmが開発したFeathurオープ...

Evernote 8周年:CエンドとBエンドのレイアウトが完成し満足のいく結果に

(北京、2020年8月20日) 本日、ナレッジマネジメントプラットフォームEvernoteは創立8周...

キーワードランキングの最適化: K または降格されたウェブサイトを復活させる方法

月給5,000~50,000のこれらのプロジェクトはあなたの将来です百度検索が西遊アルゴリズムを導入...

B2Bプラットフォームを使用してステーショングループを構築する方法についての簡単な説明

SEO 担当者にとって、リソースはすべてであり、最高のリソースは自分の Web サイトです。しかし、...

VPS.net-512M メモリ/xen/onapp/G ポート/13 USD/月 (日本)

vps.net は、uk2 グループに所属する有名な VPS クラウド プロバイダーです。現在、世界...

FrontRangeHosting-768m メモリ KVM/44g ハードディスク/1500g フロー/6 USD

最近、frontrangehostingはONAPPを立ち上げ、新しい請求管理システムhostbil...

SEO ルールが頻繁に更新されるウェブマスターにとって、将来の希望は何でしょうか?

SEO ルールが頻繁に更新されるウェブマスターにとって、将来の希望は何でしょうか?今年5月に百度がル...

世界最大のビットコイン取引所Mt.Goxがログインを再開、ユーザーはビットコイン残高の閲覧のみ可能

Mt.Goxの復元されたログインでは、ユーザーはビットコインの残高のみを閲覧できる新浪科技報は北京時...

医療ウェブサイトの最適化のためのキーワードの選び方

以前、医療ウェブサイトを最適化する際に注意すべき10のポイントについて説明しました。今日は、医療ウェ...

SEOの詳細が成功と失敗を左右する

SEOの詳細が成功か失敗かを決め、新たな競争力で勝利ウェブサイトのSEO検索エンジン最適化とは、イン...

Autohome が独自に運営する垂直型 Web サイトはレッド オーシャンでしょうか、それともブルー オーシャンでしょうか?

8月末、盛拓メディアは、自動車とITという2つの事業分野に応じて、ウェブサイトグループを2つの独立し...

ウェブサイトがブロックされた後の最新の回復方法について簡単に説明します

今ウェブサイトに取り組んでいる友人は皆、Baiduが過去1年間に頻繁に調整を行っており、アルゴリズム...