ウェブサイトのログからBaidu Spiderの認識を理解する

ウェブサイトのログからBaidu Spiderの認識を理解する

皆さんは百度スパイダーをよくご存知だと思いますし、ウェブマスターの皆さんもスパイダーの訪問を歓迎していますが、百度スパイダーの目的を本当に理解しているかどうかは、皆さんが非常に関心を持っているテーマです。今、編集者は過去のウェブサイト運営の日々の観察に基づいて、皆さんと共有したいと思います。間違いがあれば、ご訂正ください。

1. 時間ごとのクロール。このタイプのクロールは、新しいサイトまたは降格しようとしているサイトを対象としています。つまり、Baidu スパイダーは 1 日 24 時間、1 時間ごとに Web サイトのホームページをクロールし、クロールの回数は基本的に同じです。これは新しいサイトで最も一般的であり、新しいサイトにのみ表示されます。Baidu は間違いなくこの種のサイトを組み込まず、スナップショットは更新されません。これは、Baidu によるウェブサイトの検査です。このタイプのクローリングは、Baidu がウェブサイトのホームページの内容、ウェブサイトが更新されたかどうか、更新の強度、コンテンツが充実しているかどうかなどを分析します。ちなみに、ホームページの一部のデータもクロールして比較分析し、記事の URL パスを持ち帰ってスパイダーの次のクローリングターゲットを整理します。もう1つは、Baiduがあなたのサイトが正常であると判断した場合、またはサーバーが不安定である、Webページが頻繁に開けない、Webページに違法な問題があるなどのサイトに問題がある場合、同様のクロール方法が表示されます。 この場合は注意が必要です。 このようなクロール方法が表示された場合、あなたのサイトはダウングレードされる可能性が高くなります。これは、翌日のホームページのスナップショットの日付が更新されなかったり、前の日付にロールバックしたり、インクルードが停止したり、深刻な場合には、インクルードされた Web ページの一部が削除されるという形で現れます。次に、ウェブマスターとして、Web サイトをチェックして問題がどこにあるかを確認し、問題が深刻にならず 2 ~ 3 日以内に復旧できるように、時間内に修正する必要があります。

2. 含まれているクロールを確認します。これは、Google スパイダー クローラーに少し似ています。各クローラーは明確な役割分担があり、秩序正しく役割を果たします。このクロール方法がウェブサイトのログに表示された場合は、おめでとうございます。ウェブサイトはレビュー期間を過ぎており、Baidu に正式にウェブページが組み込まれています。確定された包含クロールとは、新しいコンテンツがウェブサイトに表示された後、Baidu スパイダーが最初のクロール後にそのコンテンツをリリースしないことを言います。この時点で、Baidu にはまだ判断できない要素が多数あります。Baidu スパイダーが比較計算を行う必要があると判断した場合、Baidu スパイダーは 2 回目のクロールを実行して、クロールされたコンテンツとインデックス ライブラリのコンテンツを比較して計算し、記事のコンテンツが新しいかどうか、インデックス ライブラリで繰り返し使用されているかどうかを確認する必要があります。記事のコンテンツを含める必要があると判断した場合、Baidu スパイダーは 3 回目のクロールを実行し、クロール後すぐに含められたページをリリースします。ウェブサイトの重みが高い場合、Baiduはこのような動作を繰り返さない。つまり、一度直接リリースしてからランキング計算を行い、最後に計算結果に応じて、インデックスライブラリ内の繰り返しの多い記事を徐々に削除します。そのため、一部のウェブサイトは初日に含まれていても2日目には消え、一部のウェブサイトは初日にランキング1位になっても翌日には消えてしまいます。これが理由です。

3. バーストまたは断続的なクロール。Baidu スパイダーが 1 ~ 2 分間に何百回もクロールできることが、Web サイトのログでよく見られます。 Baiduスパイダーの高効率クロールは、この期間中のウェブサイトの更新効率が非常に高いことを示し、Baiduスパイダーがウェブサイトの更新ルールを把握していることを意味します。この時間に記事を更新すると、数秒で収集できます。ただし、これはウェブサイトの重みが高く、すばやく取り込まれることを意味するものではありません。ウェブサイトの更新された記事がBaiduクローラースパイダーに偶然遭遇したとしか言えません。更新された記事が 1 時間または数時間も含まれないことがあります。これは、Web サイトが時間どおりに更新されておらず、スパイダーが去るとすぐに更新されることを意味します。したがって、新しい Web マスターは、ログに常に注意を払い、Baidu スパイダーの訪問ルールを把握して、それらを活用して成功を収める必要があります。

4. キャプティブクローリングは、ウェブサイト自体が育てたスパイダークローラーに相当し、ウェブサイト内を常にクローリングします。更新された記事があれば、すぐに転送およびインデックスライブラリにクローリングされ、最初にリリースされ、高い重みが与えられます。組み込まれた後、検索キーワードは基本的に最初のページにあり、その後データを比較します。インデックスライブラリと重複した場合は、翌日にインデックスライブラリから削除されます。記事がスパムすぎる場合や、Green Radish Algorithmの範囲内にある場合は、直接格下げまたは削除されます。数秒で収集できるこの種の Web サイトは重みが高く、スパイダー クローラーはほぼ常にこれを提供します。

上記は、日用品を長期にわたって分析して得た私の個人的な経験です。皆さんと共有したいと思います。間違いがあれば、ご指摘ください。ウェブサイト運営ログは、ウェブマスター、特に新人ウェブマスターにとって最も強力なツールです。ログを毎日読む習慣を身につけてください。最後に、すべての新人ウェブマスターができるだけ早く百度の試用期間から抜け出すことを願っています。

転載の際はこの記事へのリンクを残してください:


元のタイトル: ウェブサイトのログから Baidu Spider の認識を理解する

キーワード: スルー、ウェブサイトの日、百度、スパイダー、認識、信じる、みんな、ウェブマスター、ウェブサイトの宣伝、お金を稼ぐ

<<:  Googleがひっそりとネットワークアクセスサービスをテスト、従来の通信事業者に挑戦へ

>>:  ウェブサイト内の内部リンク: 内部キーワードの競合を避ける

推薦する

盛業:産業のデジタル化を支援し、デジタルエコシステムを構築

「未来のデジタル構築とインテリジェントコネクション」をテーマにした2022年盛業デジタルエコシステム...

faconhost: 年間 17.5 ポンド、米国トリプルネット CUII/AS9929、1G メモリ/1 コア/15g NVMe/500g トラフィック/300M 帯域幅

faconhost は、米国ロサンゼルスのデータセンターに VPS/クラウド サーバー事業を追加しま...

【李 嬌寿】大手ブランドからマーケティングを学べば学ぶほど、状況が悪化するのはなぜでしょうか?

「非常に奇妙な現象ですが、私たちは他人が成功した後に何をするかを知りたがりますが、過去にどうやって成...

TAトラフィック変動分析機能:インテリジェントなウェブサイト分析への扉を開く

Discuz!の公式ニュースによると、Tencent Analysis(TA)がウェブサイト向けに作...

エッジコンピューティング: 次世代のインターネットパフォーマンスを解き放つ

エッジ コンピューティングは、パフォーマンス、セキュリティ、効率性を維持しながら急速なデジタル変革に...

8 つのツールを使用して Azure にマイクロサービスをデプロイする

[51CTO.com クイック翻訳] クラウドベースの分散システムを導入することで、IT チームは継...

Lu Songsong: BingとGoogleの検索ランキング要因に関する研究

知っていましたか? (1)H1タグとH2タグは重要ではありません。0.01ポイントしか占めません。 ...

消費者心理を理解するとマーケティングが容易になります

今日最も効果的なマーケティング手法は何かと聞かれたら、私はターゲット消費者の心理を研究し、設定したマ...

今日の話題: 生ぬるい短編ビデオはモバイル インターネットの次の爆発点となり得るか?

A5 Webmaster Network(www.admin5.com)は5月21日、ビデオアプリケ...

百度検索は今年後半に混乱に陥り、赤字が続く

最近、百度が発表した「百度ウェブ検索品質白書」がウェブマスターの間で広く流布され、白書に関する議論も...

Bucksoが今日の外部リンク構築戦略について簡単に語る

昨年は SEO 担当者にとって最も激動の年だったと言えます。昨年末、Baidu がリンクの売買に対抗...

外部リンクの公開を効果的に制御する方法

実際、ほとんどのウェブマスターは、外部リンクのリリースを制御し、外部リンクのリリースを規則的にするこ...

エッジコンピューティングを導入する前に尋ねるべき 6 つの質問

エッジ コンピューティングを試す前に、企業はどのような質問をすべきでしょうか?クラウド コンピューテ...

desivps: ロサンゼルスの無制限トラフィック VPS、KVM 仮想化、月額 2 ドル、2G メモリ/1 コア/20g SSD

desivps は 年に設立され、検証可能な資格を有し、インドのムンバイに登録され、そこで事業を展開...

JD.comには驚くべき抜け穴があり、36万元分の電話料金を無料で手に入れたと主張する人もいる。

エコノミック・ボイス「ワールド・カンパニー」の報道によると、一部のネットユーザーが10月30日午後1...