Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について

Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について

A5 Webmaster Networkは8月22日、以前、Baidu Webmaster PlatformのLee氏が検索エンジンクローリングシステムの基本的なフレームワーク、クローリングに関係するネットワークプロトコル、クローリングの基本的なプロセスに関するコンテンツを共有したと報じた。Lee氏は今日、Baidu Webmaster Platformを通じて検索エンジンクローリングシステムの第2部であるスパイダークローリング時の戦略を再び共有した。

Lee氏は、スパイダーはクローリングの過程で複雑なネットワーク環境に直面すると述べた。システムが可能な限り多くの貴重なリソースをクローリングできるようにし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにするために、さまざまな複雑なクローリング戦略が設計されるだろう。クローリング プロセスに関係する主な戦略の種類を簡単に紹介します。

この記事は、Baidu Webmaster Platform Community - You Ask Lee Answer セクションに掲載され、Lee 氏もこの記事について質疑応答活動を行いました。質問がある Webmaster はオンラインで質問し、コミュニケーションを取ることができます。

コミュニティ投稿アドレス:

Lee 氏は次のように語りました。

編集者注: 以前、検索エンジンのクローリング システムの基本的なフレームワーク、クローリングに関係するネットワーク プロトコル、クローリングの基本的なプロセスについて説明しました。今日は、検索エンジンのクローリング システムの 2 番目の部分であるスパイダー クローリング プロセスの戦略について説明します。

スパイダーは、クローリングの過程で複雑なネットワーク環境に直面します。システムが可能な限り多くの貴重なリソースをクローリングし、Web サイト エクスペリエンスに負担をかけずにシステム内のページと実際の環境の一貫性を維持できるようにするために、さまざまな複雑なクローリング戦略が設計されます。以下は、クロール プロセスに関係する主な戦略タイプについて簡単に紹介したものです。

1. クロールフレンドリー: クロール圧力の割り当てにより、ウェブサイトへのアクセスの負荷が軽減されます。

2. 一般的なクロールリターンコード

3. 複数のURLリダイレクトの識別

4. クロール優先度の割り当て

5. 重複URLのフィルタリング

6. ダークウェブデータの取得

7. クロールアンチチート

8. クロール効率を改善し、帯域幅を効率的に使用する

1. クロールフレンドリー

インターネット リソースの膨大な量を考慮すると、クロール システムは帯域幅をできるだけ効率的に利用し、限られたハードウェアと帯域幅のリソースでできるだけ多くの貴重なリソースをキャプチャする必要があります。これにより、キャプチャされた Web サイトの帯域幅が消費され、アクセス圧力が発生するという別の問題が発生します。その程度が大きすぎると、キャプチャされた Web サイトへの通常のユーザー アクセス動作に直接影響します。したがって、クロール プロセス中は、できるだけ多くの貴重なリソースをクロールしながら、Web サイトへの通常のユーザー アクセスに影響を与えないという目標を達成するために、一定のクロール圧力制御を実行する必要があります。

通常、最も基本的なのは IP ベースの圧力制御です。ドメイン名をベースとした場合、1 つのドメイン名が複数の IP に対応している (多数の大規模 Web サイト) か、複数のドメイン名が同じ IP に対応している (小規模 Web サイトが IP を共有している) という問題が発生する可能性があるためです。実際には、IP やドメイン名のさまざまな条件に基づいて圧力の割り当てと制御が行われることがよくあります。同時に、ウェブマスタープラットフォームは圧力フィードバックツールもリリースしました。これにより、ウェブマスターは自分のウェブサイトのクローリング圧力を手動で調整できます。このとき、Baiduスパイダーはウェブマスターの要求に応じてクローリング圧力の制御を優先します。

同じサイトのクローリング速度制御は、通常、一定期間内のクローリング頻度と一定期間内のクローリングトラフィックの 2 つのカテゴリに分けられます。同じサイトでも、時間帯によってクロール速度が異なる場合があります。たとえば、夜遅く、月が暗く、風が強いときはクロール速度が速くなることがあります。また、具体的なサイトの種類によっても異なります。基本的な考え方は、通常のユーザー訪問のピークを避け、継続的に調整することです。サイトによって必要なクロール速度も異なります。

2. 一般的なクロールリターンコード

Baidu でサポートされているいくつかの戻りコードについて簡単に紹介します。

1) 最も一般的な 404 は「NOT FOUND」の略で、Web ページが無効であり、通常はデータベースから削除されることを意味します。短期的には、スパイダーがこの URL を再度見つけた場合、クロールは行われません。

2) 503 は「Service Unavailable」の略で、Web ページが一時的にアクセスできないことを意味します。この状況は通常、Web サイトが一時的に閉じられているか、帯域幅が制限されている場合に発生します。ウェブページが 503 ステータス コードを返す場合、Baidu スパイダーは URL を直接削除するのではなく、短期間に何度も繰り返しアクセスします。ウェブページが復元された場合は、通常どおりクロールされます。503 が引き続き返される場合は、URL は依然として壊れたリンクと見なされ、ライブラリから削除されます。

3) 403 は「Forbidden」の略で、Web ページへのアクセスが現在禁止されていることを意味します。新しい URL の場合、スパイダーは当面クロールしませんが、短期間に複数回繰り返して訪問します。含まれている URL の場合、直接削除されるのではなく、短期間に複数回繰り返して訪問します。ウェブページが正常にアクセス可能な場合は、通常どおりクロールされます。それでもアクセスが禁止されている場合は、この URL もリンク切れと見なされ、ライブラリから削除されます。

4) 301 は「Moved Permanently」の略で、Web ページが新しい URL にリダイレクトされることを意味します。サイトの移行、ドメイン名の変更、またはサイトの改訂が発生した場合は、改訂によるウェブサイトのトラフィックの損失を減らすために、301 リターン コードとウェブマスター プラットフォームのウェブサイト改訂ツールを使用することをお勧めします。

3. 複数のURLリダイレクトの識別

インターネット上の一部の Web ページは、さまざまな理由により URL リダイレクト状態になっています。これらのリソースを正常にクロールするには、スパイダーが URL リダイレクトを識別して判断し、不正行為を防止する必要があります。リダイレクトは、http 30x リダイレクト、メタ リフレッシュ リダイレクト、js リダイレクトの 3 つのカテゴリに分けられます。さらに、Baidu は Canonical タグもサポートしており、これは実質的には間接的なリダイレクトと見なすことができます。

4. クロール優先度の割り当て

インターネット リソースは規模が大きく、変化が速いため、検索エンジンがすべてのリソースをクロールし、一貫性を保つために適切に更新することはほぼ不可能です。そのため、クロール システムは、適切なクロール優先順位割り当て戦略を設計する必要があります。主に、深さ優先トラバーサル戦略、幅優先トラバーサル戦略、PR優先戦略、バックリンク戦略、ソーシャル共有ガイダンス戦略などが含まれます。それぞれの戦略には長所と短所があり、実際の状況では、最良のクローリング効果を実現するために、複数の戦略を組み合わせて使用​​されることがよくあります。

5. 重複URLのフィルタリング

クロール プロセス中に、スパイダーはページがクロールされたかどうかを判断する必要があります。クロールされていない場合は、Web ページを再度クロールし、クロールされた URL コレクションに追加します。クロールされたデータが取得されているかどうかを判断する鍵は、データを素早く見つけて比較することであり、URL の正規化認識も含まれます。たとえば、URL に無効なパラメータが多数含まれていても、実際には同じページである場合は、同じ URL として扱われます。

6. ダークウェブデータの取得

インターネット上には現在、検索エンジンが取得できない大量のデータがあり、これらはダークウェブデータと呼ばれています。一方では、ネットワークデータベースに多くのウェブサイトの大量のデータが存在し、スパイダーがウェブページをクロールして完全なコンテンツを取得することが困難です。他方では、ネットワーク環境、ウェブサイト自体が標準を満たしていない、孤立などの問題により、検索エンジンがクロールできない場合があります。現在、ダークウェブデータを取得するための主なアイデアは、依然として「Baidu Webmaster Platform」、「Baidu Open Platform」などのオープンプラットフォームを通じてデータを送信することです。

7. クロールアンチチート

クローリングのプロセス中に、スパイダーはいわゆるクローリング ブラック ホールに遭遇したり、低品質のページが大量に存在するという問題に直面したりすることがよくあります。このため、クローリング システムには完全なクローリング不正防止システムを設計する必要があります。たとえば、URL の特徴の分析、ページのサイズとコンテンツの分析、サイト規模の対応するクロール規模の分析などです。


原題: Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について語る

キーワード: Baidu、ウェブマスター、プラットフォーム、リー、スパイダー、クロール、プロセス、戦略、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブサイト構築経験交流

>>:  言葉選びは妻選びと同じ。ウェブサイトのキーワードポジショニングのポイントまとめ

推薦する

zji: 香港、葵湾、cn2+bgp ネットワーク、549 元、E5-2650L/16g メモリ/480gSSD/10M 帯域幅/5IPv4

zji の香港葵湾コンピュータルームには、CN2 + BGP ネットワークを使用し、3 つの国内ネッ...

太極アシスタント事件から見るモバイルアプリ市場

12月22日の夜、脱獄チームevad3rsは、待望のiOS 7用の完璧な脱獄ツールをリリースした。し...

【WOT2018】Shen Jian: 58 Expressアーキテクチャの分離とマイクロサービスの実践

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

クラウドの方が安全なのに、なぜまだハッキングされるのでしょうか?

経験豊富なセキュリティ専門家なら誰でも知っているように、実行中のコンテナの多く、あるいはほとんどには...

ウェブサイトの最適化は独創的でなければならないのか?初心者SEO担当者は理解にもっと注意を払うべきである

新しいウェブサイトを立ち上げたら何をすべきか、インターネット上で初心者の SEO 担当者が質問してい...

マッキンゼーのパートナー:ジェネレーティブAIはクラウド移行におけるさまざまな課題の解決に役立つ

マッキンゼー・アンド・カンパニーのパートナーであるバーグス・スリヴァサン氏は、シンガポールで最近開催...

ネット資本運用でMLMが復活:人材獲得の本質はより隠されている

2009年に「自主連鎖販売」が摘発されて以来、国はこのねずみ講の取り締まりに乗り出し、多くのねずみ講...

無料のオープンソースクラウドファイル共有プラットフォームトップ10

[51CTO.com クイック翻訳] クラウドファイル共有とは、ユーザーにサーバー上のストレージスペ...

サイト上の内部リンクをより効果的に実装する方法

この記事は、ウェブサイトの構造を調整し、ウェブサイトの内部リンクをより適切に調整して、PR の改善を...

ビジネスのためのビデオマーケティング戦略を作成する方法

企業はあらゆる前向きな考え方や仕事のやり方を試みています。関連調査によると、近年ビデオ視聴者の数は増...

大規模ウェブサイトの複雑な業務を継続的に再構築する方法:フルプロセスドメインモデリングの実践

キャラクター紹介: Jack Chen は、「Pet Store」の主任アーキテクチャ アーキテクト...

SANS 2022 クラウド セキュリティ調査によるクラウド脅威の進化

過去数年間、クラウドセキュリティの分野では多くの問題が露呈し、いくつかのセキュリティインシデントが発...