主流の検索エンジンの原則

主流の検索エンジンの原則

今日は検索エンジンの原理を紹介します。まずは写真を見てみましょう…

次に、階層ごとに説明します。

1. www: www はインターネット上のすべてのウェブページを指します。世界にはいくつのウェブサイトがあるでしょうか? 2006 年の統計によると、ウェブサイトの数は 8,065 万でした。ここ数年のインターネットの急速な発展により、今日では数億のウェブサイトがあるはずです。検索エンジンの役割は、これらのウェブサイトを収集し、ユーザーが検索できるようにランキングを割り当てることです。

2. コレクター: コレクターは一般にスパイダーとして知られています。スパイダーはインターネット上の Web サイトのクロールを担当します。スパイダーには 2 つのクロール方法があり、1 つは深さ優先、もう 1 つは幅優先です。私の Web サイトを例に挙げると、深さ優先とは、スパイダーが Web ページで最初に見つけたリンクから開始することを意味します (下の図を参照)。最初のリンクの下にあるすべてのリンクがクロールされるまで、2 番目のリンクのクロールは開始されません。幅優先とは、2 番目のページのクロールを開始する前に、最初のページのすべてのリンクがクロールされることを意味します。

3. コントローラー: スパイダーは Web ページをダウンロードし、コントローラーに渡します。コントローラは、重複排除などのこれらの Web ページに対する簡単な分析を実行する役割を担います。また、コントローラは、スパイダーのディスパッチ、スパイダーのクロール時間、クロール方法、クロール オブジェクトなどの調整も担当します。コントローラーはすべての URL を抽出し、キャプチャされた URL とクロールされていない URL の 2 つのタイプに分割します。すべての URL ページをクロールし、元のデータベースに保存します。

4. オリジナル データベース: スパイダーによってキャプチャされたランキングのない、最もオリジナルな Web ページを保存するために使用されます。

5. Web ページ分析モジュール: Web ページ分析モジュールは最も重要なモジュールと言えます。この部分は主に、重複、詐欺、違法などのウェブサイトなどのジャンクウェブページをフィルタリングすることです。特に、Baiduアルゴリズムの最近の主要な更新後、この領域のアルゴリズムが更新され、主に偽のオリジナルやジャンクの外部リンクの収集に対抗するとともに、いくつかの複雑なアルゴリズムを使用して各ウェブページと外部リンクの価値をスコアリングします。これを重みと呼びます。この重みにより、将来のソートの準備が整います。

6. インデクサー: インデクサーは、Web ページ分析モジュールによって配信された貴重な Web ページを、順方向インデックスと逆方向インデックスに分割します。ポジティブインデックスとは、各 Web ページを多数のキーワードに分割することを意味します。逆インデックスは、キーワードごとに多数の Web ページをリストし、並べ替えます。

7. インデクサー データベース: インデックス データベースは、インデクサーによってキーワード別にリストされた Web ページを保存するために使用されます。

8. 検索エンジン: ユーザーが入力した単語をセグメント化し、インデックス データベースから Web ページを取得して並べ替え、最終的に結果をユーザーに返します。

9. ユーザー: 名前の通り、インターネット ユーザーです。

10. ユーザーインターフェース: Baidu の検索結果ページとして理解できます。

11. ユーザー行動ログデータベース: ユーザー行動ログデータベースは、ユーザーがクリックしたウェブサイト、ユーザーがウェブサイトに滞在した時間、2 番目のウェブサイトをクリックする間隔、検索キーワードなど、ユーザーの行動を保存するために使用されます。

12. ログ アナライザー: 個人的には、この部分は非常に重要だと思います。検索エンジンはユーザー エクスペリエンスにますます注目しており、これが今後の検索エンジンの開発傾向です。この部分は、ユーザー行動ログ データベースでユーザー行動を詳細に分析し、インターネット上の多くの Web サイトでのユーザー行動の重みとランキングを加算または減算します。

この記事は鄭州seoに掲載されました http://www.8abd.com/?p=65 転載の際はリンクを明記してください。 よろしくお願いいたします

元のタイトル: いくつかの主流検索エンジンの原理

キーワード: 検索エンジンの原理、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  7月のBaidu検索エンジンの変更の観察と概要

>>:  ソーシャルショッピングガイド:過大評価され、期待されている

推薦する

アリババがパブリックDNSサービスを開始 タオバオショッピング向けドメイン名AliDNS

eName.cnは6月6日、今年初めにDNS障害により多くのTaobaoユーザーが正常に閲覧や注文が...

BBSコミュニティの困難な変革:天家は「電気」に触れて観光商品を販売

Weiboや新興SNSソーシャルネットワーキングサイトの「包囲」の下で、伝統的なコミュニティBBSは...

量子コンピュータで初めて時間の「逆流」を実現

英国インディペンデント紙の最近の報道によると、米国、スイス、ロシアの科学者からなる国際研究チームが、...

ByteDanceのゲームアドベンチャー

バイトダンスは2019年に10以上のゲームを配信して試行錯誤した後、2019年に独自のゲーム開発のプ...

好むと好まざるとにかかわらず、AIクラウド運用はやってくる

[51CTO.com クイック翻訳] 私は過去30年間AIに触れてきましたが、AIの能力が過大評価さ...

RUSHMAIL: 電子メール マーケティングの目的は、顧客を引き付けることですか、それともブランドを維持することですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています多くの人は...

Dedecms 個人最適化の概要

dedecms でいくつかのウェブサイトを構築したので、最近いろいろなことを感じています。また、私の...

ultahost: 無制限の VPS、月額 5.5 ドルから、米国/シンガポール/インド/カナダ/ドイツ/トルコ

ultahostは2009年に設立され、主に仮想ホスティング、VPS、VDS、専用サーバーレンタル、...

12306との協議第2部:システムがオープンでなければ、3億元の投資が無駄になる可能性がある

ニュース速報:9月27日早朝、「二重節」の連休まであと2日となったとき、北京で働く小林さん(仮名)は...

クラシック: Prometeus - $3.8/KVM/512m メモリ/15g SSD/2T トラフィック

イタリアのデータセンターにある Prometeus のクラシック KVM VPS が、SSD ハード...

クラウド ネイティブ モードでマルチノード Minio 分散ファイル システムを構築および最適化する方法を説明する 20 枚の写真

みなさんこんにちは、Bingheです〜〜 Minio は、分散ストレージ システムの構築に適したオー...

キーワードのランキングサイクルを短縮するにはどうすればよいでしょうか?

多くのウェブマスターはこのタイトルを見て、私が異常なブラックハット手法について話していると思ったでし...

フォーラム署名をマーケティングプロモーションに巧みに活用する

外部リンクを作成する友人の多くは、フォーラムで外部リンクを宣伝することを好みます。アンカー テキスト...

アリペイ第3回総会

2013年11月9日から11月11日にかけて、中国共産党第18期中央委員会第3回全体会議という重要な...

openvirtuals-$7/4 コア/1g メモリ/2g スワップ/180g ハードディスク/3T トラフィック

Openvirtuals は 2003 年に設立された正式な会社です。同社の VPS は非常に高価で...