Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について

A5 Webmaster Networkは8月22日、以前、Baidu Webmaster PlatformのLee氏が検索エンジンクローリングシステムの基本的なフレームワーク、クローリングに関係するネットワークプロトコル、クローリングの基本的なプロセスに関するコンテンツを共有したと報じた。Lee氏は今日、Baidu Webmaster Platformを通じて検索エンジンクローリングシステムの第2部であるスパイダークローリング時の戦略を再び共有した。

Lee氏は、スパイダーはクローリングの過程で複雑なネットワーク環境に直面すると述べた。システムが可能な限り多くの貴重なリソースをクローリングできるようにし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにするために、さまざまな複雑なクローリング戦略が設計されるだろう。クローリングプロセスに関係する主な戦略の種類を簡単に紹介します。

この記事は、Baidu Webmaster Platform Community - You Ask Lee Answer セクションに掲載され、Lee 氏もこの記事について質疑応答活動を行いました。質問がある Webmaster はオンラインで質問し、コミュニケーションを取ることができます。

コミュニティ投稿アドレス:

Lee 氏は次のように語りました。

編集者注: 以前、検索エンジンのクローリングシステムの基本的なフレームワーク、クローリングに関係するネットワークプロトコル、クローリングの基本的なプロセスについて説明しました。今日は、検索エンジンのクローリングシステムの 2 番目の部分であるスパイダークローリングプロセスの戦略について説明します。

スパイダーは、クローリングの過程で複雑なネットワーク環境に直面します。システムが可能な限り多くの貴重なリソースをクローリングし、Web サイトエクスペリエンスに負担をかけずにシステム内のページと実際の環境の一貫性を維持できるようにするために、さまざまな複雑なクローリング戦略が設計されます。以下は、クロールプロセスに関係する主な戦略タイプについて簡単に紹介したものです。

1. クロールフレンドリー: クロール圧力の割り当てにより、ウェブサイトへのアクセスの負荷が軽減されます。

2. 一般的なクロールリターンコード

3. 複数のURLリダイレクトの識別

4. クロール優先度の割り当て

5. 重複URLのフィルタリング

6. ダークウェブデータの取得

7. クロールアンチチート

8. クロール効率を改善し、帯域幅を効率的に使用する

1. クロールフレンドリー

インターネットリソースの膨大な量を考慮すると、クロールシステムは帯域幅をできるだけ効率的に利用し、限られたハードウェアと帯域幅のリソースでできるだけ多くの貴重なリソースをキャプチャする必要があります。これにより、キャプチャされた Web サイトの帯域幅が消費され、アクセス圧力が発生するという別の問題が発生します。その程度が大きすぎると、キャプチャされた Web サイトへの通常のユーザーアクセス動作に直接影響します。したがって、クロールプロセス中は、できるだけ多くの貴重なリソースをクロールしながら、Web サイトへの通常のユーザーアクセスに影響を与えないという目標を達成するために、一定のクロール圧力制御を実行する必要があります。

通常、最も基本的なのは IP ベースの圧力制御です。ドメイン名をベースとした場合、1 つのドメイン名が複数の IP に対応している (多数の大規模 Web サイト) か、複数のドメイン名が同じ IP に対応している (小規模 Web サイトが IP を共有している) という問題が発生する可能性があるためです。実際には、IP やドメイン名のさまざまな条件に基づいて圧力の割り当てと制御が行われることがよくあります。同時に、ウェブマスタープラットフォームは圧力フィードバックツールもリリースしました。これにより、ウェブマスターは自分のウェブサイトのクローリング圧力を手動で調整できます。このとき、Baiduスパイダーはウェブマスターの要求に応じてクローリング圧力の制御を優先します。

同じサイトのクローリング速度制御は、通常、一定期間内のクローリング頻度と一定期間内のクローリングトラフィックの 2 つのカテゴリに分けられます。同じサイトでも、時間帯によってクロール速度が異なる場合があります。たとえば、夜遅く、月が暗く、風が強いときはクロール速度が速くなることがあります。また、具体的なサイトの種類によっても異なります。基本的な考え方は、通常のユーザー訪問のピークを避け、継続的に調整することです。サイトによって必要なクロール速度も異なります。

2. 一般的なクロールリターンコード

Baidu でサポートされているいくつかの戻りコードについて簡単に紹介します。

1) 最も一般的な 404 は「NOT FOUND」の略で、Web ページが無効であり、通常はデータベースから削除されることを意味します。短期的には、スパイダーがこの URL を再度見つけた場合、クロールは行われません。

2) 503 は「Service Unavailable」の略で、Web ページが一時的にアクセスできないことを意味します。この状況は通常、Web サイトが一時的に閉じられているか、帯域幅が制限されている場合に発生します。ウェブページが 503 ステータスコードを返す場合、Baidu スパイダーは URL を直接削除するのではなく、短期間に何度も繰り返しアクセスします。ウェブページが復元された場合は、通常どおりクロールされます。503 が引き続き返される場合は、URL は依然として壊れたリンクと見なされ、ライブラリから削除されます。

3) 403 は「Forbidden」の略で、Web ページへのアクセスが現在禁止されていることを意味します。新しい URL の場合、スパイダーは当面クロールしませんが、短期間に複数回繰り返して訪問します。含まれている URL の場合、直接削除されるのではなく、短期間に複数回繰り返して訪問します。ウェブページが正常にアクセス可能な場合は、通常どおりクロールされます。それでもアクセスが禁止されている場合は、この URL もリンク切れと見なされ、ライブラリから削除されます。

4) 301 は「Moved Permanently」の略で、Web ページが新しい URL にリダイレクトされることを意味します。サイトの移行、ドメイン名の変更、またはサイトの改訂が発生した場合は、改訂によるウェブサイトのトラフィックの損失を減らすために、301 リターンコードとウェブマスタープラットフォームのウェブサイト改訂ツールを使用することをお勧めします。

3. 複数のURLリダイレクトの識別

インターネット上の一部の Web ページは、さまざまな理由により URL リダイレクト状態になっています。これらのリソースを正常にクロールするには、スパイダーが URL リダイレクトを識別して判断し、不正行為を防止する必要があります。リダイレクトは、http 30x リダイレクト、メタリフレッシュリダイレクト、js リダイレクトの 3 つのカテゴリに分けられます。さらに、Baidu は Canonical タグもサポートしており、これは実質的には間接的なリダイレクトと見なすことができます。

4. クロール優先度の割り当て

インターネットリソースは規模が大きく、変化が速いため、検索エンジンがすべてのリソースをクロールし、一貫性を保つために適切に更新することはほぼ不可能です。そのため、クロールシステムは、適切なクロール優先順位割り当て戦略を設計する必要があります。主に、深さ優先トラバーサル戦略、幅優先トラバーサル戦略、PR優先戦略、バックリンク戦略、ソーシャル共有ガイダンス戦略などが含まれます。それぞれの戦略には長所と短所があり、実際の状況では、最良のクローリング効果を実現するために、複数の戦略を組み合わせて使用されることがよくあります。

5. 重複URLのフィルタリング

クロールプロセス中に、スパイダーはページがクロールされたかどうかを判断する必要があります。クロールされていない場合は、Web ページを再度クロールし、クロールされた URL コレクションに追加します。クロールされたデータが取得されているかどうかを判断する鍵は、データを素早く見つけて比較することであり、URL の正規化認識も含まれます。たとえば、URL に無効なパラメータが多数含まれていても、実際には同じページである場合は、同じ URL として扱われます。

6. ダークウェブデータの取得

インターネット上には現在、検索エンジンが取得できない大量のデータがあり、これらはダークウェブデータと呼ばれています。一方では、ネットワークデータベースに多くのウェブサイトの大量のデータが存在し、スパイダーがウェブページをクロールして完全なコンテンツを取得することが困難です。他方では、ネットワーク環境、ウェブサイト自体が標準を満たしていない、孤立などの問題により、検索エンジンがクロールできない場合があります。現在、ダークウェブデータを取得するための主なアイデアは、依然として「Baidu Webmaster Platform」、「Baidu Open Platform」などのオープンプラットフォームを通じてデータを送信することです。

7. クロールアンチチート

クローリングのプロセス中に、スパイダーはいわゆるクローリングブラックホールに遭遇したり、低品質のページが大量に存在するという問題に直面したりすることがよくあります。このため、クローリングシステムには完全なクローリング不正防止システムを設計する必要があります。たとえば、URL の特徴の分析、ページのサイズとコンテンツの分析、サイト規模の対応するクロール規模の分析などです。

原題: Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について語る

キーワード: Baidu、ウェブマスター、プラットフォーム、リー、スパイダー、クロール、プロセス、戦略、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: ウェブサイト構築経験交流

>>: 言葉選びは妻選びと同じ。ウェブサイトのキーワードポジショニングのポイントまとめ