IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツをタイムリーに保護します。

IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツをタイムリーに保護します。

ウェブマスターは、権威の高いウェブサイトがオリジナル コンテンツを収集し、そのオリジナル コンテンツが他のウェブサイトの所有物になってしまうことに不満を漏らすことがよくあります。今日は、例を挙げてこの問題を解決する方法をご紹介します。

最も単純なケースでは、雑誌で元の記事を公開し、変更せずに盗用し、他の雑誌に違反している場合は、Bedificififigs of Publus of Publus of(biention of bedific)に基づいて、Bedifice of shing ops on sightの出版物に基づいて、Bedが提示することができます。どちらのパーティー、特にバイドゥは、2つの異なるWebサイトで公開された記事の内容が同じであると判断したため、最初に公開されたことはありませんでした。 Baiduの前の私の記事はそれを含み、すぐにBaiduに含まれていたので、私の記事は本来ではありませんでした。

Baidu が Web コンテンツのインデックス作成に時間がかかる場合、どうすれば問題を解決できるでしょうか。Baidu に Web ページをできるだけ早くインデックスさせるには、一般的に 2 つの方法があります。1 つは PING サービスを使用することです。これは、記事を公開した直後に Baidu に PING して記事のアドレスを伝えるというものです (PING サービスの概要と使用方法については、Baidu Webmaster Platform を参照するか、著者にお問い合わせください)。これは通常、権威のあるニュース ソース サイトを対象としています。Baidu は小規模なサイトを無視しているようです。2 つ目の方法は、この記事で焦点を当てている、公開する適切なタイミングを選択することです。

1. Baiduスパイダーのクロール間隔と規則性

Baidu Spider は、Baidu の単なるプログラムです。Web ページを自動的に訪問してコンテンツをクロールします。いわゆるニュース泥棒と同じ原理で動作しますが、この泥棒を歓迎する点が異なります。スパイダーはウェブサイトにずっといるわけではありません。大規模なウェブサイトでは、多くのスパイダーがさまざまなウェブページを訪問し、その結果、スパイダーが毎秒ウェブサイトで活動していることになります。しかし、そのような大規模なサイトであっても、特定のウェブページ(ウェブサイトのホームページなど)に関しては、スパイダーは通常、数秒から数時間、または数日に一度の間隔で訪問します。これがスパイダーのクローリング間隔です。

規則性についてお話ししましょう。私たちは、数分または数時間ごとに訪問するなど、比較的一定の周期で特定の Web サイト (Web ページ) をクロールします。これは例で説明できます (データは Web Log Explorer で分析され、分類と要約のために Excel にエクスポートされます)。

上の画像は、筆者が集計したウェブサイトのホームページのスパイダークローリングパターンです(当初は2日間の1時間ごとのデータをリストアップしたかったのですが、データが多すぎてまとめて公開できないことがわかったため、1日のうち午前8時から午後18時までのデータを選択して分析する必要がありました)。

上図の時間列は、スパイダーがホームページをクロールした実際の時間を示しており、概要列は、時間に基づいて作成者が作成した大まかな概要です(一部のデータは除外できます)。上図から、スパイダーの一般的なクロールルールがわかります。

午前中は、1 時間が一般的に 10 ~ 15 分、25 ~ 30 分、40 ~ 45 分、55 ~ 60 分の 4 つの期間に分けられます。

午後の各時間も4つの期間に分かれていますが、0分、15分、30分、45分という時間(またはそれくらい)で表されます。同時に、2日目のデータを分析しましたが、基本的に同じでした。これにより、クモの規則性に関する私の判断が強化されました。実際、過去10日間のデータを数え、同様のパターンを見つけました。

2. クモの規則性の実用化

クモの這うパターンを理解することで、事前に食料を準備することができます。私のテスト結果によると、17:43に記事を公開し、ホームページを更新することに成功しました。その結果、クモは17:44頃に予想通りにホームページをクロールし、関連する記事を含めました。

3. 要約:

この記事では、「インスタントコレクション」の概念について詳しく説明します。インスタントコレクションとは、公開された記事が特定の時間にスパイダーによってたまたまキャプチャされることを意味します。この意味では、スパイダーがまだウェブサイトをクロールしていて、コンテンツがオリジナルである限り、ウェブサイトの重みに関係なく、数秒で収集できます。スパイダーによってBaiduインデックスライブラリにドラッグされた後、後でどのように処理、精製、ランク付けするかについては、別のトピックです。この記事では、元の記事を書くことを主張するが、ホームページで独自の統計ツールを追加して、特定の検索エンジンのクロールを記録し、頻繁にパブリックを獲得するために頻繁に出版することができます。数秒で、著者によって示されたホームページのクモの時間間隔は基本的に約15分です。それを転載して、リンクを残して、すべてのウェブマスターが新しい年に実現し、Kステーションから離れてください。


元のタイトル: IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツを時間内に保護します。

キーワード: スパイダークローリング、インスタントコレクション、ウェブマスター、ウェブサイト、ウェブサイトプロモーション、収益化

<<:  Yunyun Search は検索業界にどのような新しい要素をもたらすのでしょうか?

>>:  3大QQサイトが降格した理由を分析し、そこから何がわかりましたか?

推薦する

hmbcloud: 米国の 3 ネットワーク cn2 gia vps (BandwagonHost と同じ)、500Mbps の帯域幅、月額 4.99 ドルから

hmbcloud (ハーフムーンベイ) は、米国ロサンゼルスに 3 つのネットワーク cn2 gia...

ライブクイズやゲームのライブストリーミングは人気がありますが、eコマースのライブストリーミングのパフォーマンスがそれほど良くないのはなぜでしょうか?

最近、中国エンターテインメントシンクタンクが共同で発表した「2017年中国オンライン実績(生放送)発...

SEOの現状

SEOの悪い状況。今日、合肥SEOはSEOの悪い状況について皆さんと話し合います。SEOは今や人気で...

モバイルインターネット時代のSEO最適化戦略の分析

モバイルインターネットはすでに手の届くところにあり、今年に入ってモバイルインターネットに関わるオンラ...

4つの主要ソーシャルコメントツールの速度比較

この評価方法は、Youyan、Duoshuo、Dianzila、Login のコメント ツール コー...

マルチクラウドは、クラウド コンピューティングの発展において避けられない段階です。この記事を読むだけで十分です

1. クラウドコンピューティングの段階的な発展と動向クラウドコンピューティングは 10 年以上の開発...

Kubernetes デプロイメントを管理するための 15 個のツール

[51CTO.com クイック翻訳] Kubernetes は、コンテナ化されたアプリケーションを大...

中軟科技、「建雲エコシステム」構築に向けた金融テクノロジー戦略を発表

10月10日、ChinaSoft(002453.SZ)は北京で大戦略会議を開催し、金融技術発展戦略を...

アクセラレータは2014年の中国コンピュータネットワークセキュリティ年次会議で優勝し、大きな注目を集めました。

本日(5月28日)、3日間にわたる2014年中国コンピュータネットワークセキュリティ年次会議が開幕し...

百度は本当に「転換点」を迎えたのか?

2017年冬、ロビン・リーは母校である北京大学に珍しく戻り、大学での啓発やさまざまな経験を語りました...

プレビュー: Namecheap ドメイン移転 - $3.98/com/net/org/info

namecheap は長い間何も活動していなかったようですが、今回は EFF に寄付するドメイン名活...

OpenSSL「Heartbleed」の説明: これまでで最も危険な Web サイト セキュリティの脆弱性?

はじめに: 現在最も人気のある 2 つの Web サーバーである Apache と nginx は、...

ウェブサイト診断:小さな改善がトラフィックの大きな改善につながる

SEO について話すとき、最初に頭に浮かぶ要素は、キーワード、外部リンク、包含ステータスなどです。こ...

4399 曹正: 中国のインターネットを解読する

この記事の著者は曹正(4399 建築家)です。この記事は曹正の百度空間 Caoz の和音ブログから引...