実体験の共有: .htaccess ファイルで悪質なスパイダーをブロックする

実体験の共有: .htaccess ファイルで悪質なスパイダーをブロックする

1 週間前、著者は「SEO 診断: ログを通じて Web サイトのデッドロックを見つける」というタイトルの記事を共有し、最後に 2 つの改善提案を添付しました。客観的な条件により、ロボットブロッキング方式が最終的に採用されました。まずは1週間後のスパイダーの変化を見てみましょう。3大主流スパイダーの総クローリング量が大幅に減少しており、ロボットファイルが効果を発揮し始めたことが証明されています。グラフの訪問数、総滞在時間、総クロール量から判断すると、ある程度の進歩は見られますが、まだ道のりは長いです。

しかし、11日から、有名なロシアの検索エンジンスパイダーYandexbotや、正体不明の「飛行物体」AhrefsBotとezooms.botなど、多くの非主流の中国スパイダーがウェブサイトのログにアクセスし始めました。 私たちの頭の中にあるスパイダーをブロックする固定観念的な方法によると、私たちは本能的にRobots.txtファイルを通じて上記のすべてのスパイダー(中国のウェブサイトのSEOでは、上記のスパイダーはジャンクスパイダーです)を許可しません。これが解決策だと思ったのですが、今朝過去 3 日間のログを開くと、スパム スパイダー、特に ezooms.bot がより頻繁に、より積極的にクロールしていることがわかりました。

一般的に、検索エンジンでは Robots.txt ファイルの有効期間は 2 ~ 7 日程度です。しかし、ezooms.bot の急速な発展から、ロボット プロトコル違反の疑いが出てきます。

今日お伝えしたいのは、.htaccess ファイルを通じて悪質なスパイダーをブロックする方法です。

以下は14日のウェブサイトログです。これをExcelにインポートして精査・分析したところ、当日の全アクセスログ(実ユーザー、スパイダー含む)で342件ものアクセス記録があることがわかりました。 AhrefsBot と ezooms.bot が最も人気があります。

(注: この例では、フィルタリングに「Bot」と入力します。スパイダーは一般に海外では Bot、中国では Spider と呼ばれます)

Ezooms.bot とはいったい何者なのでしょうか? そこで、Baidu で関連レコードを検索してみましたが、うまくいきませんでした。Baidu には関連レコードがありませんでした。 Google に助けを求める以外に方法はありません。記事全体が英語で書かれていて、圧倒されてしまいました。歯を食いしばってゆっくり読まなければなりません。

ezooms.bot に関する海外のブログ記事を 7、8 件読んだのですが、このボットの明確な定義がありません。SEOMoz Bot だと考える人もいれば、記事コレクターだと考える人もいますが、皆さんの評価は非常に悪く、吸血鬼、ヒルなどとして描かれています。海外のコメントより抜粋:

私が学んだところによると、ezooms.bot はクロールされた Web サイトには何の役にも立たないので、ブロックすることにしました。 ezooms.bot は Robots.txt プロトコルに準拠していないため、htaccess ファイルを通じて IP セグメントをブロックすることを考えました。海外のブログでもこの方法は何度も紹介されています。

写真の IP セグメントは、基本的に、ウェブサイトによって記録された ezooms.bot クロール IP セグメントと一致しており、これが方法であるはずです。ただし、IP セグメント全体をブロックすると、誤検知が発生する可能性があります (結局のところ、すべての IP が ezooms.bot であるとは確認できません)。もっと信頼できる方法はありますか? 情報をもう一度調べたところ、最終的に .htaccess による解決策を見つけました。ルールは次のとおりです。

RewriteEngineオン

RewriteCond %{HTTP_USER_AGENT} ^Ezooms

書き換え条件 %{HTTP_USER_AGENT} ^Ezooms/1.0

書き換えルール ^(.*)$ http://getlostbadbot/

なぜこのように書かれているのでしょうか? Apache の RewriteCond ルール パラメータの詳細については、オンラインで確認できます。私も初心者で、まだ学習中です。

上記は、悪質なクモをブロックする方法に関する著者の個人的な経験です。皆様のお役に立てれば幸いです。 SEO とは継続的な学習と改善です。この記事は元々 www.shou68.net によって寄稿されたもので、転載は自由です。転載の際はこのリンクを残してください。ご協力ありがとうございます!

元のタイトル: 実体験の共有: .htaccess ファイルで悪質なスパイダーをブロックする

キーワード: htaccess、スパイダー、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ブランドプロモーションと SEO: どちらが優れているのでしょうか?

>>:  新しいサイトの外部リンクを構築し、促進する方法の簡単な分析

推薦する

Kubernetesコンテナの動作原理を1つの記事で理解する

1. Kubernetesコンテナの概要コンテナは、ホスト オペレーティング システム (またはカー...

SDKI: 世界のクラウド課金市場規模は2025年に65億ドルに達する

12月30日、市場調査会社SDKIは、世界のクラウド課金市場規模は2020年の30億米ドルから202...

「私は特殊部隊の兵士2: 国家の刃」のマーケティングハイライトを共有します

最近、江蘇衛星テレビのドラマ「私は特殊部隊の兵士2:国家の刃」が大人気で、筆者も最近このドラマを追い...

dohost-5$/winXp/7/256m メモリ/10g ハードディスク/500g フロー

dohost は 3 年の歴史があると主張しています。調べてみると、エジプト人が開設した VPS で...

ウェブサイトがブロックされたり、ダウングレードされたりするのは、幸運でしょうか、それとも災いでしょうか?

ご存知のとおり、不幸は往々にして幸運をもたらし、幸運は往々にして不幸をもたらします。2012 年、S...

League of Legendsを例に挙げると、Tencent Gamesはどのように運営されているのでしょうか?

テンセントゲームはテンセントの4大オンラインプラットフォームの一つであり、現在中国最大のオンラインゲ...

企業のクラウド変革を成功させる鍵:クラウドコスト最適化管理

近年、さまざまな業界の企業でクラウドの導入が急速に進んでおり、最小限の設備投資で迅速な俊敏性を実現し...

ウェブサイト運営=SEO?

はじめに: 新しい Web サイトが立ち上げられ、すべてのプログラムと機能が準備されると、Web マ...

ハッカー基地のリーダーであるローン・ソードマンは懲役5年の刑を宣告された

記者らは本日、Heiji.com(旧ハッカー基地)の代表である王先兵氏と講師の周林良氏が、コンピュー...

Baidu Q&A プラットフォームを使用してロングテールキーワードをすばやく簡単に抽出する方法

競争が激しいキーワードは、一般的にいくつかの大規模なサイトによってコントロールされています。中小規模...

外部リンクの性質を理解し、ウェブサイトのプロモーションを心配する必要はありません

ほとんどのウェブマスターにとって、外部リンクは非常に重要であると考えられています。アルゴリズムは何度...

ウェブサイトの運営にはオフラインとオンラインを組み合わせる必要がある

インターネットでお金を稼ぎたい個人ウェブマスターとして、私が毎日最も考えているのは、自分のウェブサイ...

Sina WeiboとTencent Weiboのそれぞれの特徴について簡単に説明します

昨日、私は2人の友人と新浪微博と騰訊微博についてチャットをしていました。そのうちの1人は、最初は新浪...

テンセントクラウドテクノハブテクノロジーツアー武漢駅を1つの記事で、クラウドネイティブの世界を深く解釈

[51CTO.com からのオリジナル記事] クラウド コンピューティング テクノロジーの開発は、2...

SEOスキルは頻繁に使う必要はない。程耀進になるための3つのコツ

実は、何かをするとき、すべてをうまくやる必要は必ずしもありません。核心をつかんでさえいれば、弱者で強...