検索エンジンは幅優先クロール戦略を使用してどのように Web ページをクロールするのでしょうか?

検索エンジンは幅優先クロール戦略を使用してどのように Web ページをクロールするのでしょうか?

検索エンジンのクロール、保存、クエリの動作は一見単純に見えますが、各リンクの基礎となるアルゴリズムは非常に複雑です。検索エンジンによるページのクロールはスパイダーによって行われます。クロール アクションは簡単に実行できますが、どのページをクロールするか、どのページを最初にクロールするかを決定するアルゴリズムが必要です。次に、いくつかのクロール アルゴリズムを示します。

1. 幅優先クロール戦略:

ほとんどのウェブサイトがツリー図に従ってページ配分を完了していることは誰もが知っています。では、ツリー図のリンク構造では、どのページが最初にクロールされるのでしょうか。なぜこれらのページを最初にクロールする必要があるのでしょうか。幅優先クロール戦略は、ツリー図構造に従って、同じレベルのリンクを最初にクロールすることです。同じレベルのリンクがクロールされた後、次のレベルのリンクがクロールされます。以下のように表示されます。

私が自分自身を表現する際に、ウェブサイト構造ではなくリンク構造を使用していたことがわかります。ここでのリンク構造は、任意のページからのリンクで構成することができ、必ずしも Web サイトの内部リンクである必要はありません。これは理想的な幅優先のクロール戦略です。実際のクロール プロセスでは、完全な幅優先を考えることは不可能であり、次の図に示すように、制限された幅優先を考えることになります。

上の図では、スパイダーが G リンクを取得したときに、アルゴリズムによって G ページに値がないことがわかったため、悲劇的な G リンクと従属する H リンクがスパイダーによって調和されました。 G-Link がなぜ調和されたのか? では、分析してみましょう。

2. 不完全なトラバーサルリンクの重みの計算:

各検索エンジンにはページランク(Google PRではなくページの重みを指します)の計算方法があり、頻繁に更新されます。インターネットはほぼ無限であり、毎日膨大な数の新しいリンクが生成されます。検索エンジンは不完全なトラバーサルを通じてのみリンクの重みを計算できます。 Google PR はなぜ 3 か月に 1 回しか更新されないのでしょうか。Baidu はなぜ月に 2 回更新されるのでしょうか。これは、検索エンジンがリンクの重みを計算するために、非完全なトラバーサル リンク重みアルゴリズムを使用しているためです。実際、現在の技術によれば、周波数重みの更新を高速化することは難しくありません。計算速度とストレージ速度は追いつくことができますが、なぜそれをしないのでしょうか。それほど必要がないか、実装されているが発表したくないからです。では、非完全なトラバーサルリンクの重みの計算とは何でしょうか?

K 個のリンクの集合を形成し、R はリンクによって得られるページランク、S はリンクに含まれるリンクの数、Q は転送に参加するかどうか、β は減衰係数を表します。リンクによって得られる重みの計算式は次のようになります。

式から、リンクの重みを決定するのは Q であることがわかります。リンクが不正行為であることが判明した場合、または検索エンジンによって手動で削除された場合、またはその他の理由で Q が 0 に設定された場合、外部リンクがいくつあっても役に立たなくなります。 β は減衰係数であり、その主な機能は、重量が 0 になってリンクが重量転送に参加できなくなるのを防ぎ、不正行為を防ぐことです。減衰係数βは通常0.85です。減衰係数がウェブサイトの数で乗算されるのはなぜですか? ページ内のすべてのページが重みの転送に参加するわけではないため、検索エンジンは、すでにフィルタリングされているリンクのさらに 15% を削除します。

ただし、この不完全なトラバーサル重み計算では、再度計算を開始する前に一定数のリンクを蓄積する必要があるため、更新サイクルは一般的に遅くなり、即時の情報を求めるユーザーのニーズを満たすことができません。そこで、これに基づいて、リアルタイムの重量分散クロール戦略が生まれました。つまり、スパイダーがページのクロールを完了してそのページに入ると、すぐに重みを配分し、クロール対象のリンク ライブラリに重みを再配分し、その後、スパイダーは重みに従ってクロールします。

3. ソーシャルエンジニアリングによる奪取戦略

ソーシャルエンジニアリング戦略は、スパイダークローリングのプロセスに人工知能、または人工知能によってトレーニングされた機械知能を追加して、クローリングの優先順位を決定することです。これまでに私が知っているクローリング戦略は次のとおりです。

a. ホットスポット優先戦略: 爆発的なホットキーワードのクロールを優先します。新しいリンクをカバーしたり、ユーザーのアクティブな選択を行ったりするため、厳密な重複排除やフィルタリングは必要ありません。

b. 権威優先戦略: 検索エンジンは各ウェブサイトに権威を割り当て、ウェブサイトの履歴、ウェブサイトの更新などを通じてウェブサイトの権威を判断し、権威の高いウェブサイトリンクを優先的にクロールします。

c. ユーザークリック戦略: ほとんどの人が業界用語内のキーワードを検索し、同じ Web サイトの検索結果を頻繁にクリックすると、検索エンジンはこの Web サイトをより頻繁にクロールします。

d. 履歴参照戦略: 頻繁に更新されるウェブサイトの場合、検索エンジンはウェブサイトの更新履歴を確立し、将来の更新量を予測し、更新履歴に基づいてクロール頻度を決定します。

SEO作業のガイダンス:

検索エンジンのクロール原則については詳しく説明したので、ここでは SEO 作業におけるこれらの原則の指導的役割について簡単に説明します。

A. 定期的かつ定量的な更新により、スパイダーはウェブサイトのページを適時にクロールして取得できるようになります。

B. 企業が運営するウェブサイトは個人のウェブサイトよりも権威がある。

C. 長期間にわたって開設されているウェブサイトはクロールされる可能性が高くなります。

D. リンクはページ内で適切に分散されている必要があります。リンクが多すぎたり少なすぎたりするのはよくありません。

E. ユーザーに人気のあるウェブサイトは検索エンジンでも人気があります。

F. 重要なページは、より浅い Web サイト構造に配置する必要があります。

G. ウェブサイト上の権威ある業界情報は、ウェブサイトの権威を高めます。

これでこのチュートリアルは終了です。次のチュートリアルのトピックは、「ページ値と Web サイトの重みの計算」です。

元の URL: http://www.cmshtml.com/a/201212/30.html


元のタイトル: 検索エンジンは幅優先クロール戦略を使用してどのように Web ページをクロールするのでしょうか?

キーワード: SEO、Baidu の最適化、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  SEOルール1: 正しいURL構造を設定する

>>:  プラットフォームの選択とSEO最適化技術

推薦する

電子商取引オンライン顧客サービスシステムソリューション

インターネット技術の継続的な普及に伴い、ますます多くの企業が電子商取引へと移行し始めています。タオバ...

VMware と Samsung が連携し、通信サービス プロバイダーの 5G への移行を加速

VMware Inc. (NYSE: VMW) は本日、5G におけるリーダーシップをさらに拡大する...

訪問者を幸せにしましょう!ユーモラスなウェブデザインの例 20 選

「人生は孤独すぎる。一緒に暮らすのに面白い人を見つける必要がある。」 - 王暁波誰もがユーモラスなデ...

クラスタの平均CPU使用率は45%に達し、Xiaohongshuの大規模コロケーション技術の実践が明らかになった。

ガートナーの予測データによると、世界のIT支出は2024年に5.1兆米ドルに達し、2023年から8%...

中国インターネット界のナマズ、周紅一:巨人と戦ってさらに大きくなる

周宏偉はじめに:360 が決して諦めず、常に巨人に挑戦し続けることを支えているのは、周紅義の攻撃的な...

甘粛、武漢、広西農業銀行の業務再開のための魔法のツール:MAXHUBインテリジェントマーケティングオールインワンマシンは「再開」に全力で取り組んでいます

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス国内の感染状況が徐々に抑...

クラウドコンピューティングビジネスインテリジェンスの現状

調査機関の調査によると、2019 年に 48% の組織がクラウド コンピューティング ビジネス イン...

新しいアルゴリズムに挑戦するためのSEOのヒント

6月以前のBaidu検索エンジンのアルゴリズムは旧アルゴリズムと呼ばれ、6月から8月までのアルゴリズ...

推奨: NanoVZ - 3 ユーロ/年/128 MB RAM/3 GB HDD/500 GB データ トラフィック

NanoVZはinceptionhosting.comのサブブランドです。元々はLowEndSpir...

困難を克服するプログラマー - 分散セッション問題の解決

[[339154]]セッション セッションについて言えば、すべてのプログラマーはそれをよく知っており...

maple-hosting: オランダの専用サーバー、13% オフ、著作権なし、マシンあたり最大 20Gbps の帯域幅、DMCA なし

Maple-hosting は、13 年間運営されているオランダのサーバー会社です。管理対象および管...

「共通アプリケーション」は「アンカーテキスト」に取って代わるのでしょうか?

この間、ウェブマスター界隈では「共通参照」が「アンカーテキスト」に取って代わるという話が出てきており...

クラウドベースの生成 AI システムを実行するためのベスト プラクティス

翻訳者 |ブガッティレビュー |チョンロウ何だと思う?クラウド コンピューティング カンファレンスは...

企業によるマルチクラウドコンピューティングの導入を促進する要因

ビジネスが成長するにつれて、企業のクラウド コンピューティングに対するニーズも高まります。マルチクラ...

ウェルズ・ファーゴがパブリッククラウド変革にどう備えたか

ウェルズ・ファーゴのハイブリッド環境および技術インフラストラクチャ責任者であるクリストファー・マーシ...