検索エンジンは幅優先クロール戦略を使用してどのように Web ページをクロールするのでしょうか?

検索エンジンは幅優先クロール戦略を使用してどのように Web ページをクロールするのでしょうか?

検索エンジンのクロール、保存、クエリの動作は一見単純に見えますが、各リンクの基礎となるアルゴリズムは非常に複雑です。検索エンジンによるページのクロールはスパイダーによって行われます。クロール アクションは簡単に実行できますが、どのページをクロールするか、どのページを最初にクロールするかを決定するアルゴリズムが必要です。次に、いくつかのクロール アルゴリズムを示します。

1. 幅優先クロール戦略:

ほとんどのウェブサイトがツリー図に従ってページ配分を完了していることは誰もが知っています。では、ツリー図のリンク構造では、どのページが最初にクロールされるのでしょうか。なぜこれらのページを最初にクロールする必要があるのでしょうか。幅優先クロール戦略は、ツリー図構造に従って、同じレベルのリンクを最初にクロールすることです。同じレベルのリンクがクロールされた後、次のレベルのリンクがクロールされます。以下のように表示されます。

私が自分自身を表現する際に、ウェブサイト構造ではなくリンク構造を使用していたことがわかります。ここでのリンク構造は、任意のページからのリンクで構成することができ、必ずしも Web サイトの内部リンクである必要はありません。これは理想的な幅優先のクロール戦略です。実際のクロール プロセスでは、完全な幅優先を考えることは不可能であり、次の図に示すように、制限された幅優先を考えることになります。

上の図では、スパイダーが G リンクを取得したときに、アルゴリズムによって G ページに値がないことがわかったため、悲劇的な G リンクと従属する H リンクがスパイダーによって調和されました。 G-Link がなぜ調和されたのか? では、分析してみましょう。

2. 不完全なトラバーサルリンクの重みの計算:

各検索エンジンにはページランク(Google PRではなくページの重みを指します)の計算方法があり、頻繁に更新されます。インターネットはほぼ無限であり、毎日膨大な数の新しいリンクが生成されます。検索エンジンは不完全なトラバーサルを通じてのみリンクの重みを計算できます。 Google PR はなぜ 3 か月に 1 回しか更新されないのでしょうか。Baidu はなぜ月に 2 回更新されるのでしょうか。これは、検索エンジンがリンクの重みを計算するために、非完全なトラバーサル リンク重みアルゴリズムを使用しているためです。実際、現在の技術によれば、周波数重みの更新を高速化することは難しくありません。計算速度とストレージ速度は追いつくことができますが、なぜそれをしないのでしょうか。それほど必要がないか、実装されているが発表したくないからです。では、非完全なトラバーサルリンクの重みの計算とは何でしょうか?

K 個のリンクの集合を形成し、R はリンクによって得られるページランク、S はリンクに含まれるリンクの数、Q は転送に参加するかどうか、β は減衰係数を表します。リンクによって得られる重みの計算式は次のようになります。

式から、リンクの重みを決定するのは Q であることがわかります。リンクが不正行為であることが判明した場合、または検索エンジンによって手動で削除された場合、またはその他の理由で Q が 0 に設定された場合、外部リンクがいくつあっても役に立たなくなります。 β は減衰係数であり、その主な機能は、重量が 0 になってリンクが重量転送に参加できなくなるのを防ぎ、不正行為を防ぐことです。減衰係数βは通常0.85です。減衰係数がウェブサイトの数で乗算されるのはなぜですか? ページ内のすべてのページが重みの転送に参加するわけではないため、検索エンジンは、すでにフィルタリングされているリンクのさらに 15% を削除します。

ただし、この不完全なトラバーサル重み計算では、再度計算を開始する前に一定数のリンクを蓄積する必要があるため、更新サイクルは一般的に遅くなり、即時の情報を求めるユーザーのニーズを満たすことができません。そこで、これに基づいて、リアルタイムの重量分散クロール戦略が生まれました。つまり、スパイダーがページのクロールを完了してそのページに入ると、すぐに重みを配分し、クロール対象のリンク ライブラリに重みを再配分し、その後、スパイダーは重みに従ってクロールします。

3. ソーシャルエンジニアリングによる奪取戦略

ソーシャルエンジニアリング戦略は、スパイダークローリングのプロセスに人工知能、または人工知能によってトレーニングされた機械知能を追加して、クローリングの優先順位を決定することです。これまでに私が知っているクローリング戦略は次のとおりです。

a. ホットスポット優先戦略: 爆発的なホットキーワードのクロールを優先します。新しいリンクをカバーしたり、ユーザーのアクティブな選択を行ったりするため、厳密な重複排除やフィルタリングは必要ありません。

b. 権威優先戦略: 検索エンジンは各ウェブサイトに権威を割り当て、ウェブサイトの履歴、ウェブサイトの更新などを通じてウェブサイトの権威を判断し、権威の高いウェブサイトリンクを優先的にクロールします。

c. ユーザークリック戦略: ほとんどの人が業界用語内のキーワードを検索し、同じ Web サイトの検索結果を頻繁にクリックすると、検索エンジンはこの Web サイトをより頻繁にクロールします。

d. 履歴参照戦略: 頻繁に更新されるウェブサイトの場合、検索エンジンはウェブサイトの更新履歴を確立し、将来の更新量を予測し、更新履歴に基づいてクロール頻度を決定します。

SEO作業のガイダンス:

検索エンジンのクロール原則については詳しく説明したので、ここでは SEO 作業におけるこれらの原則の指導的役割について簡単に説明します。

A. 定期的かつ定量的な更新により、スパイダーはウェブサイトのページを適時にクロールして取得できるようになります。

B. 企業が運営するウェブサイトは個人のウェブサイトよりも権威がある。

C. 長期間にわたって開設されているウェブサイトはクロールされる可能性が高くなります。

D. リンクはページ内で適切に分散されている必要があります。リンクが多すぎたり少なすぎたりするのはよくありません。

E. ユーザーに人気のあるウェブサイトは検索エンジンでも人気があります。

F. 重要なページは、より浅い Web サイト構造に配置する必要があります。

G. ウェブサイト上の権威ある業界情報は、ウェブサイトの権威を高めます。

これでこのチュートリアルは終了です。次のチュートリアルのトピックは、「ページ値と Web サイトの重みの計算」です。

元の URL: http://www.cmshtml.com/a/201212/30.html


元のタイトル: 検索エンジンは幅優先クロール戦略を使用してどのように Web ページをクロールするのでしょうか?

キーワード: SEO、Baidu の最適化、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  SEOルール1: 正しいURL構造を設定する

>>:  プラットフォームの選択とSEO最適化技術

推薦する

個人アプリでお金を稼ぐ方法: コンテンツが王様、適切に諦めることを学ぶ

一年が終わるたびに、最も苦痛な作業は間違いなく年末の総括を書くことです。数日間の懸命な作業の末、よう...

キーワードランキングのためのSEO最適化テクニック

私は多くの SEO キーワード ランキング ウェブサイトに遭遇しており、ウェブサイトを最適化するため...

PoundHost-11 ポンド/Atom D525/2g メモリ/250g ハードディスク/英国

ドメイン名が 2001 年に登録された PoundHost は、Dada Group のブランドです...

Zhihu: Qihoo 360 の収益はどのような事業や製品から生まれているのでしょうか?

昨年3月、Qihoo 360は米国で株式を公開し、資本市場から大きな注目を集めました。これは、360...

レンジフードを使用して7段階の風を作り出し、JiguoとRobam Electric Appliancesが最も革新的なゴールデンアイ賞を受賞

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています5月26日...

Baidu 関連検索の謎を解き明かし、Baidu ドロップダウン ボックスの成功方法を共有する

Baidu の検索ボックスでキーワードを検索すると、まず Baidu の検索ボックスがドロップダウン...

「Wo Cha Cha」が恐喝疑惑に反論:無料広告を提供してくれたCCTVに感謝

5月18日、中央テレビの「週刊品質報告」番組は「『Wo Cha Cha』の調査」を放送し、ショッピン...

hao123 映画チャンネルの SEO 分析: タイトル キーワード レイアウト

みなさんこんにちは。私は徐子宇です。 SEO に関しては、詳細な分析を行った後、多くの問題が比較的基...

#BlackFriday# racknerd: 29% オフ、年間 28 ドル、KVM/2G メモリ/3 コア/55g ハード ドライブ/2T トラフィック/ロサンゼルス

Racknerd はアメリカの会社です。すべての情報は透明で、検索可能です。そのボスはおなじみの「ダ...

エッジコンピューティングデバイスの用途は何ですか?

エッジ テクノロジーを使用すると、大量のデータをクラウドに送信することなく、AI および機械学習のワ...

コンテンツは王様であり、外部リンクも王様です。それらは排除されるのでしょうか?

昨日、百度ウェブマスタープラットフォームは、ハイパーリンクによる不正行為を取り締まるための最新のアナ...

Baidu の入札キーワード品質最適化によりマーケティング パフォーマンスを向上

検索エンジンマーケティングでは、企業が自社の商品やサービスに関連するキーワードを購入し、入札すること...

Hostdime: トップ Tier IV 認定データセンター、コロンビア VPS、コロンビア専用サーバー

コロンビアの VPS、コロンビアのサーバー、コロンビアのデータセンターは、現在のホスティング市場では...

bluevm 誕生日 - 512M メモリ KVM 年間支払い 25 ドル / ニューヨーク / ロサンゼルス

bluevm の誕生日が近づいていますが、このようなコストパフォーマンスの高い VPS は依然として...

Hawkhost: ロサンゼルス 6 周年記念、仮想ホスティング、半仮想ホスティング、リセラー ホスティングが 50% オフ

6 年前の今週、Hawkhost のロサンゼルス データ センターが正式に開設されました。仮想ホステ...