IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツをタイムリーに保護します。

IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツをタイムリーに保護します。

ウェブマスターは、権威の高いウェブサイトがオリジナル コンテンツを収集し、そのオリジナル コンテンツが他のウェブサイトの所有物になってしまうことに不満を漏らすことがよくあります。今日は、例を挙げてこの問題を解決する方法をご紹介します。

最も単純なケースでは、雑誌で元の記事を公開し、変更せずに盗用し、他の雑誌に違反している場合は、Bedificififigs of Publus of Publus of(biention of bedific)に基づいて、Bedifice of shing ops on sightの出版物に基づいて、Bedが提示することができます。どちらのパーティー、特にバイドゥは、2つの異なるWebサイトで公開された記事の内容が同じであると判断したため、最初に公開されたことはありませんでした。 Baiduの前の私の記事はそれを含み、すぐにBaiduに含まれていたので、私の記事は本来ではありませんでした。

Baidu が Web コンテンツのインデックス作成に時間がかかる場合、どうすれば問題を解決できるでしょうか。Baidu に Web ページをできるだけ早くインデックスさせるには、一般的に 2 つの方法があります。1 つは PING サービスを使用することです。これは、記事を公開した直後に Baidu に PING して記事のアドレスを伝えるというものです (PING サービスの概要と使用方法については、Baidu Webmaster Platform を参照するか、著者にお問い合わせください)。これは通常、権威のあるニュース ソース サイトを対象としています。Baidu は小規模なサイトを無視しているようです。2 つ目の方法は、この記事で焦点を当てている、公開する適切なタイミングを選択することです。

1. Baiduスパイダーのクロール間隔と規則性

Baidu Spider は、Baidu の単なるプログラムです。Web ページを自動的に訪問してコンテンツをクロールします。いわゆるニュース泥棒と同じ原理で動作しますが、この泥棒を歓迎する点が異なります。スパイダーはウェブサイトにずっといるわけではありません。大規模なウェブサイトでは、多くのスパイダーがさまざまなウェブページを訪問し、その結果、スパイダーが毎秒ウェブサイトで活動していることになります。しかし、そのような大規模なサイトであっても、特定のウェブページ(ウェブサイトのホームページなど)に関しては、スパイダーは通常、数秒から数時間、または数日に一度の間隔で訪問します。これがスパイダーのクローリング間隔です。

規則性についてお話ししましょう。私たちは、数分または数時間ごとに訪問するなど、比較的一定の周期で特定の Web サイト (Web ページ) をクロールします。これは例で説明できます (データは Web Log Explorer で分析され、分類と要約のために Excel にエクスポートされます)。

上の画像は、筆者が集計したウェブサイトのホームページのスパイダークローリングパターンです(当初は2日間の1時間ごとのデータをリストアップしたかったのですが、データが多すぎてまとめて公開できないことがわかったため、1日のうち午前8時から午後18時までのデータを選択して分析する必要がありました)。

上図の時間列は、スパイダーがホームページをクロールした実際の時間を示しており、概要列は、時間に基づいて作成者が作成した大まかな概要です(一部のデータは除外できます)。上図から、スパイダーの一般的なクロールルールがわかります。

午前中は、1 時間が一般的に 10 ~ 15 分、25 ~ 30 分、40 ~ 45 分、55 ~ 60 分の 4 つの期間に分けられます。

午後の各時間も4つの期間に分かれていますが、0分、15分、30分、45分という時間(またはそれくらい)で表されます。同時に、2日目のデータを分析しましたが、基本的に同じでした。これにより、クモの規則性に関する私の判断が強化されました。実際、過去10日間のデータを数え、同様のパターンを見つけました。

2. クモの規則性の実用化

クモの這うパターンを理解することで、事前に食料を準備することができます。私のテスト結果によると、17:43に記事を公開し、ホームページを更新することに成功しました。その結果、クモは17:44頃に予想通りにホームページをクロールし、関連する記事を含めました。

3. 要約:

この記事では、「インスタントコレクション」の概念について詳しく説明します。インスタントコレクションとは、公開された記事が特定の時間にスパイダーによってたまたまキャプチャされることを意味します。この意味では、スパイダーがまだウェブサイトをクロールしていて、コンテンツがオリジナルである限り、ウェブサイトの重みに関係なく、数秒で収集できます。スパイダーによってBaiduインデックスライブラリにドラッグされた後、後でどのように処理、精製、ランク付けするかについては、別のトピックです。この記事では、元の記事を書くことを主張するが、ホームページで独自の統計ツールを追加して、特定の検索エンジンのクロールを記録し、頻繁にパブリックを獲得するために頻繁に出版することができます。数秒で、著者によって示されたホームページのクモの時間間隔は基本的に約15分です。それを転載して、リンクを残して、すべてのウェブマスターが新しい年に実現し、Kステーションから離れてください。


元のタイトル: IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツを時間内に保護します。

キーワード: スパイダークローリング、インスタントコレクション、ウェブマスター、ウェブサイト、ウェブサイトプロモーション、収益化

<<:  Yunyun Search は検索業界にどのような新しい要素をもたらすのでしょうか?

>>:  3大QQサイトが降格した理由を分析し、そこから何がわかりましたか?

推薦する

高可用性を備えた Kubernetes をインストールする最も簡単な方法です。

この記事では、HAProxy や Keepalived、Ansible に依存せずに、1 つのコマン...

Yichao EyewearのLi Changli氏との対話:オンラインアイウェアのO2Oの道をリードし、変革する

O2O は、正式名称を Online to Offline といい、オンラインからオフラインへのイン...

SEOブログの現状:話し手は真剣だが聞き手は無関心

話し手は真剣だが、聞き手は無関心である(発音が分からない場合は、ピンインの URL を参照してくださ...

重慶Jiansou G3クラウドプロモーションAI1万語が画面を独占プロモーションは7日間で1万語以上を保証

月収10万元の起業の夢を実現するミニプログラム起業支援プランインターネットの急速な革新の時代において...

ウェブサイト上の重複コンテンツに対する Google の 10 のヒント

検索エンジン戦略会議が最近、寒いシカゴで開催されました。 Google の参加者の多くは、重複コンテ...

yourlasthost - 新しいダラスデータセンター、512MメモリOVZ年間支払い$18

yourlasthost は昨年インドのデータセンターにサーバーを立ち上げましたが、現在は棚から撤去...

Amazon Web Services がアクセンチュアおよび Anthropic と提携し、企業の責任ある AI 構築を支援

アマゾン ウェブ サービスは、アクセンチュアおよび人工知能企業アントロピックとの世界的なコラボレーシ...

WeChatパブリックアカウント広告プロモーションの完全ガイド!

エンタープライズシンクタンクが発表したデータによると、2016年12月時点で、 WeChatの月間ア...

ServerHub-E3-1230v3/32g メモリ/240g SSD/256IP/10T トラフィック/ダラス

ServerHub も老舗のホスティング会社です。以前はフェニックス データセンターのサーバーに重点...

Akamai IoT エッジ プラットフォームをベースにしたサーバーレス位置情報共有アプリケーションの構築方法

地理的位置に関連するアプリケーションについては、誰もがよくご存知だと思います。 IMソフトウェアでの...

サーバー仮想化技術におけるゴースト吹きランプトリオ: KVM、XEN、OVZ

人気オンラインドラマ『鬼が灯を消す:神秘の古城』については、私のように毎回更新を早く待っているネット...

WeChatパブリックプラットフォームを有効活用するには、商店はWeChatマーケティング、サービス、技術サポートの3つを行う必要があります。

原題: WeChat パブリック プラットフォームを有効活用するには、商店主は次の 3 つのことを行...

SEO におけるリンクの重みに影響を与える上位 10 の要因の簡単な分析

最近、多くの QQ 相談で「高品質のリンクを作成するにはどうすればよいか」という質問が寄せられていま...

クラウド コンピューティングの課題: オンプレミス クラウド コンピューティングにおける選択肢の枯渇と不適切な戦略

ほとんどの企業は、新たな機会を活用したいためにクラウドに移行していますが、オンプレミスでのみ機能する...

Gelhost - 年間 25 ドル / KVM / 256 MB RAM / 7 GB SSD / 177 GB 帯域幅 / シカゴ

Gelhost (AMVPSGelNet LLC) は、2011 年に設立されたホスティング プロバ...