Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について

Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について

A5 Webmaster Networkは8月22日、以前、Baidu Webmaster PlatformのLee氏が検索エンジンクローリングシステムの基本的なフレームワーク、クローリングに関係するネットワークプロトコル、クローリングの基本的なプロセスに関するコンテンツを共有したと報じた。Lee氏は今日、Baidu Webmaster Platformを通じて検索エンジンクローリングシステムの第2部であるスパイダークローリング時の戦略を再び共有した。

Lee氏は、スパイダーはクローリングの過程で複雑なネットワーク環境に直面すると述べた。システムが可能な限り多くの貴重なリソースをクローリングできるようにし、システム内のページと実際の環境の一貫性を維持しながら、ウェブサイトのエクスペリエンスに負担をかけないようにするために、さまざまな複雑なクローリング戦略が設計されるだろう。クローリング プロセスに関係する主な戦略の種類を簡単に紹介します。

この記事は、Baidu Webmaster Platform Community - You Ask Lee Answer セクションに掲載され、Lee 氏もこの記事について質疑応答活動を行いました。質問がある Webmaster はオンラインで質問し、コミュニケーションを取ることができます。

コミュニティ投稿アドレス:

Lee 氏は次のように語りました。

編集者注: 以前、検索エンジンのクローリング システムの基本的なフレームワーク、クローリングに関係するネットワーク プロトコル、クローリングの基本的なプロセスについて説明しました。今日は、検索エンジンのクローリング システムの 2 番目の部分であるスパイダー クローリング プロセスの戦略について説明します。

スパイダーは、クローリングの過程で複雑なネットワーク環境に直面します。システムが可能な限り多くの貴重なリソースをクローリングし、Web サイト エクスペリエンスに負担をかけずにシステム内のページと実際の環境の一貫性を維持できるようにするために、さまざまな複雑なクローリング戦略が設計されます。以下は、クロール プロセスに関係する主な戦略タイプについて簡単に紹介したものです。

1. クロールフレンドリー: クロール圧力の割り当てにより、ウェブサイトへのアクセスの負荷が軽減されます。

2. 一般的なクロールリターンコード

3. 複数のURLリダイレクトの識別

4. クロール優先度の割り当て

5. 重複URLのフィルタリング

6. ダークウェブデータの取得

7. クロールアンチチート

8. クロール効率を改善し、帯域幅を効率的に使用する

1. クロールフレンドリー

インターネット リソースの膨大な量を考慮すると、クロール システムは帯域幅をできるだけ効率的に利用し、限られたハードウェアと帯域幅のリソースでできるだけ多くの貴重なリソースをキャプチャする必要があります。これにより、キャプチャされた Web サイトの帯域幅が消費され、アクセス圧力が発生するという別の問題が発生します。その程度が大きすぎると、キャプチャされた Web サイトへの通常のユーザー アクセス動作に直接影響します。したがって、クロール プロセス中は、できるだけ多くの貴重なリソースをクロールしながら、Web サイトへの通常のユーザー アクセスに影響を与えないという目標を達成するために、一定のクロール圧力制御を実行する必要があります。

通常、最も基本的なのは IP ベースの圧力制御です。ドメイン名をベースとした場合、1 つのドメイン名が複数の IP に対応している (多数の大規模 Web サイト) か、複数のドメイン名が同じ IP に対応している (小規模 Web サイトが IP を共有している) という問題が発生する可能性があるためです。実際には、IP やドメイン名のさまざまな条件に基づいて圧力の割り当てと制御が行われることがよくあります。同時に、ウェブマスタープラットフォームは圧力フィードバックツールもリリースしました。これにより、ウェブマスターは自分のウェブサイトのクローリング圧力を手動で調整できます。このとき、Baiduスパイダーはウェブマスターの要求に応じてクローリング圧力の制御を優先します。

同じサイトのクローリング速度制御は、通常、一定期間内のクローリング頻度と一定期間内のクローリングトラフィックの 2 つのカテゴリに分けられます。同じサイトでも、時間帯によってクロール速度が異なる場合があります。たとえば、夜遅く、月が暗く、風が強いときはクロール速度が速くなることがあります。また、具体的なサイトの種類によっても異なります。基本的な考え方は、通常のユーザー訪問のピークを避け、継続的に調整することです。サイトによって必要なクロール速度も異なります。

2. 一般的なクロールリターンコード

Baidu でサポートされているいくつかの戻りコードについて簡単に紹介します。

1) 最も一般的な 404 は「NOT FOUND」の略で、Web ページが無効であり、通常はデータベースから削除されることを意味します。短期的には、スパイダーがこの URL を再度見つけた場合、クロールは行われません。

2) 503 は「Service Unavailable」の略で、Web ページが一時的にアクセスできないことを意味します。この状況は通常、Web サイトが一時的に閉じられているか、帯域幅が制限されている場合に発生します。ウェブページが 503 ステータス コードを返す場合、Baidu スパイダーは URL を直接削除するのではなく、短期間に何度も繰り返しアクセスします。ウェブページが復元された場合は、通常どおりクロールされます。503 が引き続き返される場合は、URL は依然として壊れたリンクと見なされ、ライブラリから削除されます。

3) 403 は「Forbidden」の略で、Web ページへのアクセスが現在禁止されていることを意味します。新しい URL の場合、スパイダーは当面クロールしませんが、短期間に複数回繰り返して訪問します。含まれている URL の場合、直接削除されるのではなく、短期間に複数回繰り返して訪問します。ウェブページが正常にアクセス可能な場合は、通常どおりクロールされます。それでもアクセスが禁止されている場合は、この URL もリンク切れと見なされ、ライブラリから削除されます。

4) 301 は「Moved Permanently」の略で、Web ページが新しい URL にリダイレクトされることを意味します。サイトの移行、ドメイン名の変更、またはサイトの改訂が発生した場合は、改訂によるウェブサイトのトラフィックの損失を減らすために、301 リターン コードとウェブマスター プラットフォームのウェブサイト改訂ツールを使用することをお勧めします。

3. 複数のURLリダイレクトの識別

インターネット上の一部の Web ページは、さまざまな理由により URL リダイレクト状態になっています。これらのリソースを正常にクロールするには、スパイダーが URL リダイレクトを識別して判断し、不正行為を防止する必要があります。リダイレクトは、http 30x リダイレクト、メタ リフレッシュ リダイレクト、js リダイレクトの 3 つのカテゴリに分けられます。さらに、Baidu は Canonical タグもサポートしており、これは実質的には間接的なリダイレクトと見なすことができます。

4. クロール優先度の割り当て

インターネット リソースは規模が大きく、変化が速いため、検索エンジンがすべてのリソースをクロールし、一貫性を保つために適切に更新することはほぼ不可能です。そのため、クロール システムは、適切なクロール優先順位割り当て戦略を設計する必要があります。主に、深さ優先トラバーサル戦略、幅優先トラバーサル戦略、PR優先戦略、バックリンク戦略、ソーシャル共有ガイダンス戦略などが含まれます。それぞれの戦略には長所と短所があり、実際の状況では、最良のクローリング効果を実現するために、複数の戦略を組み合わせて使用​​されることがよくあります。

5. 重複URLのフィルタリング

クロール プロセス中に、スパイダーはページがクロールされたかどうかを判断する必要があります。クロールされていない場合は、Web ページを再度クロールし、クロールされた URL コレクションに追加します。クロールされたデータが取得されているかどうかを判断する鍵は、データを素早く見つけて比較することであり、URL の正規化認識も含まれます。たとえば、URL に無効なパラメータが多数含まれていても、実際には同じページである場合は、同じ URL として扱われます。

6. ダークウェブデータの取得

インターネット上には現在、検索エンジンが取得できない大量のデータがあり、これらはダークウェブデータと呼ばれています。一方では、ネットワークデータベースに多くのウェブサイトの大量のデータが存在し、スパイダーがウェブページをクロールして完全なコンテンツを取得することが困難です。他方では、ネットワーク環境、ウェブサイト自体が標準を満たしていない、孤立などの問題により、検索エンジンがクロールできない場合があります。現在、ダークウェブデータを取得するための主なアイデアは、依然として「Baidu Webmaster Platform」、「Baidu Open Platform」などのオープンプラットフォームを通じてデータを送信することです。

7. クロールアンチチート

クローリングのプロセス中に、スパイダーはいわゆるクローリング ブラック ホールに遭遇したり、低品質のページが大量に存在するという問題に直面したりすることがよくあります。このため、クローリング システムには完全なクローリング不正防止システムを設計する必要があります。たとえば、URL の特徴の分析、ページのサイズとコンテンツの分析、サイト規模の対応するクロール規模の分析などです。


原題: Baidu Webmaster Platform Lee: スパイダークローリングプロセスにおける戦略について語る

キーワード: Baidu、ウェブマスター、プラットフォーム、リー、スパイダー、クロール、プロセス、戦略、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブサイト構築経験交流

>>:  言葉選びは妻選びと同じ。ウェブサイトのキーワードポジショニングのポイントまとめ

推薦する

テンセントクラウド:新年の買い物はお得、2G/2C/4M-200元/3年、8G/4C/10M-998元/3年

Tencent Cloud の新年調達イベントでは、誰でも選べる便利な VPS やクラウド サーバー...

臨沂人材ネットワークの発展に基づく地元人材募集ウェブサイトの運営分析

21 世紀で最も高価なものは何でしょうか? 才能です!社会経済の発展に伴い、企業の雇用、特にエリート...

可用性、同時実行性、パフォーマンスに優れたクラウドネイティブ コンテナ ネットワークを構築するにはどうすればよいでしょうか?

クラウドネイティブ インフラストラクチャの構築について話すとき、クラウドネイティブ コンテナ ネット...

情報セキュリティリスクにより宅配業者の免許取り消しの可能性も

最近、宅配伝票の情報漏洩により利用者が困っている事例が報道されておりますが、今後は改善されていくもの...

仮想化プラットフォームの移行と変換における 4 つの典型的な問題

本日は、VMware プラットフォームや PowerVM プラットフォームなどの仮想プラットフォーム...

オンライン活動では、ユーザーの熱意を喚起するためにお金を使うだけに頼ることはできません。

サイトを運営する過程では、ユーザーを維持するために、サイト上での良好なインタラクションとコンテンツに...

SEO 自己啓発を向上させる 5 つのヒント: お互いから学び、他者を上回る

みなさんこんにちは。私はMuzi Chengzhouです。 SEO に対する私の理解はそれほど深くな...

アマゾン中国が2015年の書籍ランキングを発表

12月10日、アマゾン中国は北京で2015年の年間書籍ランキングを発表した。これには「年間書籍売上ラ...

茶包装ステーションの最適化プロセス中に発生した問題の原因の簡単な分析

私が最適化を始めたお茶のパッケージを販売するサイトは、4月8日にオンラインになってから安定したインク...

デジタル産業を支援し、インテリジェントな未来をつなぐ――西安航空基地企業「ファーウェイ参入」デジタル変革社長クラス

[51CTO.comからのオリジナル記事]現在、疫病と政治環境の影響により、多くの不確定要素が重なり...

将来のタレントウェブサイトはどこに向かうのでしょうか?

ChinaHRの衰退から業界リーダーである51job.comの業績低下まで、伝統的な人材採用業界が改...

プロメテウス 22ドル/年 256 RAM/256vSWAP/8GSSD/Gポート

prometeus は LEB で非常に人気のある VPS 販売業者です。今回はプロモーションを実施...

ウェブマスターネットワークニュース:「紙の重複チェック」タオバオストアの月間収入は100万を超え、明日JD.comに掲載される予定

1. タオバオには「論文盗作チェック」の店舗が500店以上あり、月間売上高は100万元を超えている「...

調査によると、企業の80%がクラウドコンピューティングに過剰に支出している

クラウド コンピューティング最適化サービス プロバイダーの Virtana の委託を受け、調査会社 ...

HTTPはRSA公開鍵暗号化アルゴリズムを使用してプレーンテキストを暗号化します

ウェブサイトが送信データを暗号化して盗難を防止したい場合、最も信頼性の高い方法は公開鍵暗号化アルゴリ...