IIS ログから検索エンジン スパイダーの活動の痕跡を見つけることについて議論する

IIS ログから検索エンジン スパイダーの活動の痕跡を見つけることについて議論する

サイト最適化のプロセスでは、サイトの問題をすべてウェブマスター ツールから直接取得できるわけではありません。多くの場合、ウェブマスター ツールから取得できる情報は、サイトで問題が発生した後でのみ検出できます。 SEO 担当者として、サイトの隠された情報についてさらに詳しく知る必要があります。たとえば、過去数日間に作成した外部リンクの結果はどうなっているか。コンテンツのどの側面が検索エンジン スパイダーに好まれる可能性が高いか。検索エンジン スパイダーはどの程度積極的にサイトをクロールしているか。など、これらはサイトのコンテンツ部門に隠された重要な情報です。ウェブマスターツールを通じてこの情報を分析することは困難です。この情報は当サイトの IIS ログで確認できます。

1: サイトの非表示情報を分析する上で IIS ログが重要な理由

1:この日記記録を通じて、スパイダーのクローリングルートやクローリング深度など、ウェブサイト上の検索エンジンスパイダーのクローリング情報をより明確に分析できます。このデータと情報を通じて、最近構築した外部リンクの有効性を分析できます。外部リンクは、クモが這うように導くクモの糸のようなものだということを私たちは知っているからです。外部リンクが適切に構築されていれば、クモは自然に這う頻度が高まり、クモが最も頻繁に入る「入り口」を記録できます。

2:ウェブサイトのコンテンツ更新とスパイダーのクロールには一定の関係があります。一般的に、安定して頻繁に更新する限り、スパイダーはより頻繁にクロールします。この目的のために、ログ内のスパイダー訪問頻度を使用して、Web サイトのコンテンツの更新頻度を微調整できます。

3: ログを通じて、一部のウェブマスター ツールでは検出されない可能性のある、スペース内のいくつかの障害を発見できます。例えば、最近人気のMeicheng Spaceは、技術者の誤操作によりBaidu Spiderをブロックしました。ウェブマスターが事前にスペースのログを分析していれば、このエラーを発見できたかもしれません。

2. ログファイルの取得方法と注意すべき事項

1: ログ ファイルを取得するには、当スペースに IIS ログ機能が必要です。当スペースにこの機能がある場合、ログ ファイルは通常、ウェブログ フォルダに記録されます。このフォルダから当サイトのログ ファイルを直接ダウンロードできます。

2: この機能を使用する場合、ログ生成時間の設定に注意する必要があります。作者の提案では、サイトが小規模な場合は 1 日に 1 回生成できます。大規模なサイトの場合は、生成されるファイルが大きくなりすぎないように、1 時間ごとに更新するようにすることができます。

3. クモの行動を分析し解釈する方法

サイトのログ ファイルをメモ帳で開き、メモ帳の検索機能を使用して、Baidu と Google のスパイダー (それぞれ BaiduSpider と Googlebot) を検索できます。

百度スパイダー

Googleスパイダー

以下のセクションに分けて分析することができます。

2012-04-5 00:47:10 この時点でクモがサイトに侵入したのです

116.255.109.63 このIPは当サイトを参照しています

GET の後に、スパイダーによってクロールされたページが続きます。ここから、どのページが最近クロールされたかを把握できます。 。

220.187.51.144 は IP 検索エンジン スパイダーの IP アドレスです。もちろん、ここには本物のアドレスと偽のアドレスが 2 つある可能性があります。では、このアドレスが本物のスパイダーなのか、偽装されたものなのかをどうやって見分けるのでしょうか。この記事では、著者が独自の小さな方法を紹介します。コマンド ウィンドウを開き、nslookup+ウィンドウ内のいわゆるスパイダーのアドレスを実行します。スパイダーが本物であれば、独自のサーバーを持っているはずですが、そうでなければ情報を見つけることができません。

本物の蜘蛛

偽の蜘蛛

では、なぜログに偽のスパイダーが存在するのでしょうか? その理由は、他のサイトが偽のスパイダーを装ってクロールし、サイトのコンテンツを取得するためです。これらの偽スパイダーが横行すると、サイトのサーバー消費に一定の影響が生じます。この方法を使用して、スパイダーを見つけてブロックすることができます。もちろん、慎重に扱う必要があります。そうしないと、実際のスパイダーを締め出すのに悪影響が出ます。

200 0 0 は、Web ページの通常のステータス コードを表します。もちろん、サーバーのタイムアウトを示す 500 など、異なる値を持つ他のステータス コードもあります。これらのステータス コードを使用して、サイト スペースの最近のパフォーマンスを分析できます。

スパイダーが最も頻繁にアクセスするページのログ ファイルを分析して記録し、スパイダーがそれらのページを好む内部的および外部的な理由を見つけることができます。

ウェブマスターとして、ほとんどの人はトラフィック、インクルージョン、バックリンクなどの直感的なデータの分析には慣れているかもしれませんが、ログ ファイルの分析には慣れていないかもしれません。ただし、ログはサイトにとって非常に重要です。この記事がログ ファイルの分析に役立つことを願っています。この記事は、Sanmianfans http://www.sanmianfans.com からの引用です。転載の際は出典を明記してください。


元のタイトル: IIS ログから検索エンジン スパイダーのアクティビティの痕跡を調査することについて話す

キーワード: トーク、iis、ログ、中潭、検索、インデックス、清珠、スパイダー活動、動的トレース、サイト、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブサイトには360°診断が必要

>>:  時代に合わせた製品はさらに進化できる

推薦する

ウェブサイトのランキングを安定させるには、6つの重要なポイントに注意する必要があります

ウェブサイト業界の競争がますます激しくなるにつれ、ランキングはすべてのウェブマスターにとって大きな問...

ウェブサイトの最適化は双方に利益のある協力が王道

現在、あらゆる分野でウィンウィンの協力が重視されています。インターネットが急速に発展する時代において...

ウェブサイトのBaiduの重みを向上させるための詳細を把握する

今日は鄭州SEO福生が、ウェブサイトのBaiduの重みを高めるために、詳細を把握する方法について皆さ...

ウィキペディアは猿の自撮り写真の削除を拒否、著作権は猿にあると主張

ハフィントンポストの最近のレポートによると、著作権のために戦うのは実は非常に退屈なことだそうだ。しか...

Google ツールバーの PR 更新とランキング変更に関する誤解

最近、Google ツールバー PR が再度更新されました。アップデートはまだ終わっていないような気...

ユーザーエクスペリエンス分析: インタラクティブビデオデザインに関する簡単な説明

レッド・ホット・チリ・ペッパーズは最近、ニューシングル「Look Around」をリリースしました。...

エッジコンピューティング主導の産業用アプリケーションのセキュリティリスクは何ですか?

過去 10 年間の IoT (モノのインターネット) の拡大、5G の導入、エッジ コンピューティン...

百度の外部リンクツールを使って百万ボリュームサイトのリンク戦略を解読する

SEO業界には昔から伝説が溢れています。近年、膨大なトラフィックを誇る多数のウェブサイトが絶えず私た...

ユーザーグループを正確にターゲットにして、リピーターを増やす

ユーザー グループを正確に特定し、信頼できる回答を提供して、ユーザーが再度アクセスするよう促します。...

lovevps-$7/KVM/2g メモリ/25gssd/1T トラフィック/フロリダ

lovevps は、SSD ハードドライブ、2G メモリ、25g SSD を使用する KVM vps...

世界のエッジセキュリティは2034年までに年平均成長率22%で成長する見込み

パートナーシップとコラボレーションにより、世界のエッジ セキュリティ市場は 2024 年までに 24...

中国の生鮮食品電子商取引に関する年次総合分析

生鮮食品電子商取引市場の取引量は2018年に着実に成長し、1兆1,875億元に達した。生鮮食品電子商...

DNSPodのWu HongshengがTencentの買収とオープンな協力について語る

テンセントのDNSPodは、アリババのHiChinaを抜いて中国でナンバーワンのドメイン名解決(DN...

racknerd: 6.89 ドル/四半期、KVM/1G メモリ/1 コア/25G ハードディスク/3T トラフィック、ロサンゼルス MC データセンター

Racknerd は、年間支払いを好まないユーザー向けに、四半期ごとまたは半年ごとに支払い可能な 3...

SEO診断: ランキングに載らないウェブサイトのキーワードにさよなら

どのようなタイプのビジネスでも、独自のウェブサイトを構築し、それを最適化するために専門家を雇った場合...