Baidu 検索研究開発部: インデックスページリンク補完メカニズムの手法

Baidu 検索研究開発部: インデックスページリンク補完メカニズムの手法

インデックスページリンク補完メカニズムの手法

1. 背景

スパイダーは、検索エンジンのデータ フローの最上流に位置します。インターネットからローカルにリソースを収集し、その後の検索に提供する役割を担っています。検索エンジンの主要なデータ ソースの 1 つです。スパイダー システムの目標は、インターネット上のすべての価値ある Web ページを発見してクロールすることです。この目標を達成するために、まず価値ある Web ページへのリンクを発見する必要があります。現在、スパイダーにはさまざまなリンク発見メカニズムがあり、リソース リンクをできるだけ迅速かつ完全に発見できます。この記事では、主に特定のインデックス ページのリンク補完メカニズムの 1 つについて説明し、この特定の種類のインデックス ページの包含効果を最適化するための推奨処理仕様を示します。

現在、ほとんどのインターネット Web サイトでは、Web サイトのリソースがインデックス ページとフリップ ページの形式で整理されています。新しいリソースが追加されると、古いリソースはフリップ ページ シリーズの最後尾に移動されます。

次の図に示すように:

図1

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

図 2 は、18 時間後のページめくりシリーズの 4 ページ目の内容を示しています。この期間中に 3 ページ以上のリソースが追加されました。図 1 の赤いマトリックスで囲まれたリソースは、18 時間後に 4 ページの赤い四角に整然と移動されました。

図2 ページ4 18時間後

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

スパイダーにとって、この特定の種類のインデックス ページは、リソース リンクを発見するための効果的なチャネルです。ただし、スパイダーはこれらの Web ページを定期的にチェックして、新しく追加されたリソース リンクを取得するため、検査サイクルはリソース リンクのリリース サイクルとは必然的に異なります (スパイダーは Web ページのリリース サイクルを検出し、適切な頻度で Web ページをチェックしようとします)。サイクルが異なると、リソース リンクがページめくりシーケンスに押し込まれる可能性が高くなるため、スパイダーはこの特別な種類のページめくりシリーズを完了して、含まれているリソースが完全であることを確認する必要があります。

2. 主なアイデア

この記事では、主に、リソースがリリース時間順に並べられている Web ページについて説明します。つまり、新しくリリースされたリソースがページの最初のページ (または最後のページ) に配置され、古いリソースが順序よく後ろ (または前) に移動されてインデックス ページが完成します。主なアイデアは、ページめくりの一連の Web ページ全体を全体として見なし、それらのクロール状況を総合的に判断し、Web ページがクロールされるたびに見つかったリソース リンクを記録し、次に今回見つかったリソース リンクを履歴で見つかったリソース リンクと比較することです。交差点がある場合は、このクロールですべての新しいリソースが見つかったことを意味します。そうでない場合は、このクロールですべての新しいリソースが見つからなかったことを意味し、すべての新しいリソースを見つけるには、次のページまたは次の数ページをクロールし続ける必要があります。

2.1 リソースリンクは時間順に並べられていますか?

このようなページの場合、リソースがリリース時間順に配置されているかどうかを判断することが必須条件です。では、リソースがリリース時間順に配置されているかどうかをどのように判断すればよいのでしょうか。上の図 1 に示すように、一部のページでは、各リソース リンクの後に、対応するリリース時間が続きます。リソース リンクに対応する時間セットによって、時間セットが大きい順か小さい順かが判断されます。そうであれば、Web ページ内のリソースはリリース時間順に配置されていることを意味し、その逆も同様です。図 1 では、上から下に向かってリソースに対応する時間がどんどん小さくなっており、つまり、リソースはリリース時間順に並べられています。

下の図 3 に示すように、Web ページのコンテンツには、売上高による並べ替え、価格による並べ替え、コメント数による並べ替え、掲載時間による並べ替えなど、複数の並べ替え方法がある別のタイプの Web ページもあります。現在のソート方法を識別して抽出することで、現在のソート方法が時間順にソートされているかどうかを判断します。そうである場合、Web ページ内のリソースはリリース時間順に並べられており、その逆も同様です。図 3 のソート方法は、リスト時間によるソートであり、これは時間ソート方法であるため、この Web ページで公開されているリソースは公開時間順に並べられています。

また、リソースリンクを取得した後に抽出したリリース時間をもとに総合的に判断します。

図3 複数のソート方法を持つインデックスページ

2.2 完了メカニズム

新しくリリースされたすべてのリソースが、リリース時間に従って順番にインデックス ページ シリーズに並べられたリソース リンクに含まれていることを確認するにはどうすればよいでしょうか。前述のように、18 時間後、図 1 のリソース リンクは整然とページ 4 に移動されました。このように、この期間中にページ 2、3、4 にインデックスされた新しいリソース リンクが追加されました。したがって、スパイダーはこれらの新しいリソースを完全に含める必要があります。

まず、スパイダーが 18 時間後に最初のページをクロールすると、新しく発見されたリソース リンク セットと、18 時間前の最初のインデックス ページの最後のスケジューリングで記録されたリソース リンク セットを比較します。2 つのスケジューリングで発見されたリソース リンクには交差がないため、見逃されたリンクがある可能性があることがわかります。次に、ページ 2 のスケジュールを開始し続ける必要があります。ページ 2 で見つかったリソース リンク セットはまだ交差していないため、見逃されたリンクがまだある可能性があります。ページ 3 と 4 のスケジュールを開始し続けます。最後に、図 2 に示すように、赤いボックス内のリンクは、最後のインデックス ページ スケジュール レコードに記録されたリソース リンクと交差しています。したがって、この期間中に追加された新しいリソースが完了したと結論付けることができ、これによりページめくりシリーズのスケジュールが終了し、ページめくりシリーズ内のすべてのリンクが完了していることが保証され、検索製品の包含効果が向上します。

2.3 ページめくりバーとそれに対応するリンクシーケンスブロックの識別

上記の効果を実現するためには、ページめくりシリーズの並び替え方法が時間順であるかどうかを識別することに加え、インデックスページ内のページめくりバーとそれに対応するリンクブロックを識別することも必要です。

ページめくりバーを認識しないと、スパイダーシステムはページめくりシーケンス内のすべてのリンクをバインドできず、それらの状態を全体として考慮できません。そうすると、スケジュールクロールの結果はランダムになり、完了効果は保証されません。現在、Webページ内の一連のページめくり機能を通じて、機械学習の方法を使用して、Webページ内のページめくりブロックとページめくりの深さ、および前のページと次のページのリンクを識別し、上記の完了メカニズムに基礎データを提供します。

一方、ページめくりバーが識別されたとしても、対応するリンクブロックが識別されなければ、上記の完了メカニズムは機能しません。これは、上記のメカニズムが終了条件を決定するために発見されたリンクの集合を比較する必要があるためです。したがって、ページめくり終了条件を提供するには、ページめくりバーに対応するリンクブロックを識別することも必要です。

特殊なケースでは、Web ページに複数のページめくりバーが含まれることがあります。この場合は、ページめくりバーとリンク ブロックを対応付けることがさらに必要になります。

3. 推奨される方法と基準

現在の百度スパイダーシステムは、ウェブページの種類、ウェブページ内のページめくりバーの位置、ページめくりバーに対応するインデックスリスト、リストが時間順に並べられているかどうかなどについて、対応する判断を行い、実際の状況に応じて処理します。ただし、機械の自動判断方法では、結局のところ100%の認識精度を達成することはできません。そのため、ウェブマスターがページにBaidu推奨のタグをいくつか追加して、対応する機能領域をマークできれば、認識精度が大幅に向上し、スパイダーシステムがウェブサイトのリソースを発見する適時性が向上し、ウェブサイトの包含効果が向上します。

スパイダーリンク補完は現在、Webページのページめくりバーと、ページめくりバーに対応するインデックスリンクリストのブロックに重点を置いているため、ブロック要素のクラス属性(div、ulなど)を使用して、Baiduスパイダーが識別して使用できる対応する機能をマークできます。マークには次の属性を使用することをお勧めします。

表1 サポートされているCLASS拡張属性

たとえば、Baidu ニュース ページは次のように設定できます。

ページめくりバーに対応するブロック要素pには、クラス属性Baidu_paging_indicatorを設定することができ、ページめくりバーに対応するメインリンクのブロック要素divには、Baidu_paging_content_indicator Orderby_posttimeを設定できます。これにより、ページめくりバーと対応するリンクブロックが互いに対応し、Baiduに公開時間に基づいて並べ替えられていることを通知し、スパイダーシステムのクローリング動作を最適化し、サイトの包含効果を向上させます。

IV. 結論

上記のリンク発見方法に加えて、Baidu のクロール システムには、価値のある Web サイトのカバレッジを確保するための他の多くの手段があります。上記の方法は、特定のインデックス ページ タイプに固有の方法にすぎず、インターネット ウェブマスターはこれを参照として使用できます。ウェブマスターは、スパイダーのウェブマスター プラットフォームを使用して、サイトマップ プロトコルを介してリンクを直接プッシュするなど、より高速で優れた Web サイト インクルード結果を得る方法を学ぶこともできます。ウェブマスタープラットフォームのアドレス: http://zhanzhang.baidu.com/、最近改訂され、新しい機能が提供されています。

原題: Baidu 検索研究開発部: インデックスページリンク補完メカニズムの方法

キーワード: Baidu、検索、研究開発部門、インデックス ページ、リンク、完了マシン、方法、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  効果的なSNSプロモーション戦略

>>:  初心者同士が友情リンクを交換するジョーク

推薦する

Ingress Controller の本質を 1 つの記事で理解する

今日は、クラウド ネイティブ エコシステムの中核技術であるトラフィック管理、Kubernetes I...

ウェブサイトデザインにおける言葉:フォントのタイポグラフィ

デザイナーとして、私たちは毎日フォントを扱っており、デザインに彩りを加えるためにフォントをうまく使い...

ハイアールのWeibo投稿@旺仔はWeiboマーケティングの真の強みを明らかにした

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス王仔ミルクが人気です!こ...

Baidu/Google/Yahooの3つのエンジンがスパムページのアドレスを報告

最近、何人かの友人がQQでBaiduのスパムページの苦情の宛先について私に尋ねました。私はQQグルー...

ライブストリーミングのアンカーである羅永浩は1万語のレビューを書いた

羅永浩氏がライブストリーミングに対する理解を深く体系的に表現したのは、ここ数ヶ月で初めてのことだ。こ...

Baidu me ドメイン名の登録が不十分な場合の対処方法

タオバオのアフィリエイトプロモーションを計画していたとき、インターネットで無名の専門家が書いたチュー...

Vaicdn: 申請不要の CDN、あらゆる業界、海外プロバイダーにアクセス可能、「香港」を含む 200 以上のノードをカバー

Vaicdn は、ワンストップ統合 CDN、AI ロードバランシング、DDoS 防御、Web アプリ...

LG、米国に新たなクラウドコールセンターを発表

海外メディアによると、LGは米国に新たなクラウドコールセンターを開設すると発表した。この動きは、アフ...

2024 年のクラウド コンピューティング セキュリティの 5 つのトレンドと進歩

クラウドの世界を探検してみましょう。しかし、これは単なるクラウドではなく、未来のクラウドです。具体的...

reliablesite: 48 コア/96 スレッド、10Gbps 無制限トラフィック、ストリーミング ビデオ スライス サーバー

ストリーミング メディアのウェブマスターの中には、特に強力な CPU を必要とするストリーミング メ...

4つの事例、役立つ情報が満載の記事です!エッジコンピューティングを「エッジ」にしない

エッジ コンピューティングは、ユーザーによって意味が異なります。ただし、変わらないのは、場所が重要で...

サーバーレスが急増していますが、クラウド コンピューティングの次の波が到来するのでしょうか?

2006年にクラウドコンピューティングの概念が登場すると、それはすぐに世界を揺るがしました。そして、...

Weiboマーケティングをビジネスに活用する方法

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス1. 企業がWeiboマ...

コンテナクラウドプラットフォームの運用・保守の考え方や手法を学ぶ

1. コンテナクラウドプラットフォームの運用・保守の範囲コンテナクラウドプラットフォームの構築につい...

SaaSマルチテナントシステムにおけるデータ分離の実装について話す

SaaS システム プラットフォームを開発したことがある人は、マルチテナントの概念に精通しているはず...