IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツをタイムリーに保護します。

ウェブマスターは、権威の高いウェブサイトがオリジナルコンテンツを収集し、そのオリジナルコンテンツが他のウェブサイトの所有物になってしまうことに不満を漏らすことがよくあります。今日は、例を挙げてこの問題を解決する方法をご紹介します。

最も単純なケースでは、雑誌で元の記事を公開し、変更せずに盗用し、他の雑誌に違反している場合は、Bedificififigs of Publus of Publus of（biention of bedific）に基づいて、Bedifice of shing ops on sightの出版物に基づいて、Bedが提示することができます。どちらのパーティー、特にバイドゥは、2つの異なるWebサイトで公開された記事の内容が同じであると判断したため、最初に公開されたことはありませんでした。 Baiduの前の私の記事はそれを含み、すぐにBaiduに含まれていたので、私の記事は本来ではありませんでした。

Baidu が Web コンテンツのインデックス作成に時間がかかる場合、どうすれば問題を解決できるでしょうか。Baidu に Web ページをできるだけ早くインデックスさせるには、一般的に 2 つの方法があります。1 つは PING サービスを使用することです。これは、記事を公開した直後に Baidu に PING して記事のアドレスを伝えるというものです (PING サービスの概要と使用方法については、Baidu Webmaster Platform を参照するか、著者にお問い合わせください)。これは通常、権威のあるニュースソースサイトを対象としています。Baidu は小規模なサイトを無視しているようです。2 つ目の方法は、この記事で焦点を当てている、公開する適切なタイミングを選択することです。

1. Baiduスパイダーのクロール間隔と規則性

Baidu Spider は、Baidu の単なるプログラムです。Web ページを自動的に訪問してコンテンツをクロールします。いわゆるニュース泥棒と同じ原理で動作しますが、この泥棒を歓迎する点が異なります。スパイダーはウェブサイトにずっといるわけではありません。大規模なウェブサイトでは、多くのスパイダーがさまざまなウェブページを訪問し、その結果、スパイダーが毎秒ウェブサイトで活動していることになります。しかし、そのような大規模なサイトであっても、特定のウェブページ（ウェブサイトのホームページなど）に関しては、スパイダーは通常、数秒から数時間、または数日に一度の間隔で訪問します。これがスパイダーのクローリング間隔です。

規則性についてお話ししましょう。私たちは、数分または数時間ごとに訪問するなど、比較的一定の周期で特定の Web サイト (Web ページ) をクロールします。これは例で説明できます (データは Web Log Explorer で分析され、分類と要約のために Excel にエクスポートされます)。

上の画像は、筆者が集計したウェブサイトのホームページのスパイダークローリングパターンです（当初は2日間の1時間ごとのデータをリストアップしたかったのですが、データが多すぎてまとめて公開できないことがわかったため、1日のうち午前8時から午後18時までのデータを選択して分析する必要がありました）。

上図の時間列は、スパイダーがホームページをクロールした実際の時間を示しており、概要列は、時間に基づいて作成者が作成した大まかな概要です（一部のデータは除外できます）。上図から、スパイダーの一般的なクロールルールがわかります。

午前中は、1 時間が一般的に 10 ～ 15 分、25 ～ 30 分、40 ～ 45 分、55 ～ 60 分の 4 つの期間に分けられます。

午後の各時間も4つの期間に分かれていますが、0分、15分、30分、45分という時間（またはそれくらい）で表されます。同時に、2日目のデータを分析しましたが、基本的に同じでした。これにより、クモの規則性に関する私の判断が強化されました。実際、過去10日間のデータを数え、同様のパターンを見つけました。

2. クモの規則性の実用化

クモの這うパターンを理解することで、事前に食料を準備することができます。私のテスト結果によると、17:43に記事を公開し、ホームページを更新することに成功しました。その結果、クモは17:44頃に予想通りにホームページをクロールし、関連する記事を含めました。

3. 要約:

この記事では、「インスタントコレクション」の概念について詳しく説明します。インスタントコレクションとは、公開された記事が特定の時間にスパイダーによってたまたまキャプチャされることを意味します。この意味では、スパイダーがまだウェブサイトをクロールしていて、コンテンツがオリジナルである限り、ウェブサイトの重みに関係なく、数秒で収集できます。スパイダーによってBaiduインデックスライブラリにドラッグされた後、後でどのように処理、精製、ランク付けするかについては、別のトピックです。この記事では、元の記事を書くことを主張するが、ホームページで独自の統計ツールを追加して、特定の検索エンジンのクロールを記録し、頻繁にパブリックを獲得するために頻繁に出版することができます。数秒で、著者によって示されたホームページのクモの時間間隔は基本的に約15分です。それを転載して、リンクを残して、すべてのウェブマスターが新しい年に実現し、Kステーションから離れてください。

元のタイトル: IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツを時間内に保護します。

キーワード: スパイダークローリング、インスタントコレクション、ウェブマスター、ウェブサイト、ウェブサイトプロモーション、収益化

<<: Yunyun Search は検索業界にどのような新しい要素をもたらすのでしょうか?

>>: 3大QQサイトが降格した理由を分析し、そこから何がわかりましたか？