今日は検索エンジンの原理を紹介します。まずは写真を見てみましょう… 次に、階層ごとに説明します。 1. www: www はインターネット上のすべてのウェブページを指します。世界にはいくつのウェブサイトがあるでしょうか? 2006 年の統計によると、ウェブサイトの数は 8,065 万でした。ここ数年のインターネットの急速な発展により、今日では数億のウェブサイトがあるはずです。検索エンジンの役割は、これらのウェブサイトを収集し、ユーザーが検索できるようにランキングを割り当てることです。 2. コレクター: コレクターは一般にスパイダーとして知られています。スパイダーはインターネット上の Web サイトのクロールを担当します。スパイダーには 2 つのクロール方法があり、1 つは深さ優先、もう 1 つは幅優先です。私の Web サイトを例に挙げると、深さ優先とは、スパイダーが Web ページで最初に見つけたリンクから開始することを意味します (下の図を参照)。最初のリンクの下にあるすべてのリンクがクロールされるまで、2 番目のリンクのクロールは開始されません。幅優先とは、2 番目のページのクロールを開始する前に、最初のページのすべてのリンクがクロールされることを意味します。 3. コントローラー: スパイダーは Web ページをダウンロードし、コントローラーに渡します。コントローラは、重複排除などのこれらの Web ページに対する簡単な分析を実行する役割を担います。また、コントローラは、スパイダーのディスパッチ、スパイダーのクロール時間、クロール方法、クロール オブジェクトなどの調整も担当します。コントローラーはすべての URL を抽出し、キャプチャされた URL とクロールされていない URL の 2 つのタイプに分割します。すべての URL ページをクロールし、元のデータベースに保存します。 4. オリジナル データベース: スパイダーによってキャプチャされたランキングのない、最もオリジナルな Web ページを保存するために使用されます。 5. Web ページ分析モジュール: Web ページ分析モジュールは最も重要なモジュールと言えます。この部分は主に、重複、詐欺、違法などのウェブサイトなどのジャンクウェブページをフィルタリングすることです。特に、Baiduアルゴリズムの最近の主要な更新後、この領域のアルゴリズムが更新され、主に偽のオリジナルやジャンクの外部リンクの収集に対抗するとともに、いくつかの複雑なアルゴリズムを使用して各ウェブページと外部リンクの価値をスコアリングします。これを重みと呼びます。この重みにより、将来のソートの準備が整います。 6. インデクサー: インデクサーは、Web ページ分析モジュールによって配信された貴重な Web ページを、順方向インデックスと逆方向インデックスに分割します。ポジティブインデックスとは、各 Web ページを多数のキーワードに分割することを意味します。逆インデックスは、キーワードごとに多数の Web ページをリストし、並べ替えます。 7. インデクサー データベース: インデックス データベースは、インデクサーによってキーワード別にリストされた Web ページを保存するために使用されます。 8. 検索エンジン: ユーザーが入力した単語をセグメント化し、インデックス データベースから Web ページを取得して並べ替え、最終的に結果をユーザーに返します。 9. ユーザー: 名前の通り、インターネット ユーザーです。 10. ユーザーインターフェース: Baidu の検索結果ページとして理解できます。 11. ユーザー行動ログデータベース: ユーザー行動ログデータベースは、ユーザーがクリックしたウェブサイト、ユーザーがウェブサイトに滞在した時間、2 番目のウェブサイトをクリックする間隔、検索キーワードなど、ユーザーの行動を保存するために使用されます。 12. ログ アナライザー: 個人的には、この部分は非常に重要だと思います。検索エンジンはユーザー エクスペリエンスにますます注目しており、これが今後の検索エンジンの開発傾向です。この部分は、ユーザー行動ログ データベースでユーザー行動を詳細に分析し、インターネット上の多くの Web サイトでのユーザー行動の重みとランキングを加算または減算します。 この記事は鄭州seoに掲載されました http://www.8abd.com/?p=65 転載の際はリンクを明記してください。 よろしくお願いいたします 元のタイトル: いくつかの主流検索エンジンの原理 キーワード: 検索エンジンの原理、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
>>: ソーシャルショッピングガイド:過大評価され、期待されている
ブロックチェーンは近年最も革新的な技術の一つであり、業界の注目も高まっています。 8月24日に開催さ...
今日、Sutu.com で電子書籍リーダーに関するレポートを見ましたが、今年の電子書籍の売上は昨年の...
3月14日のWebmaster Network(www.admin5.com)によると、Baiduは...
1月10日、「有識者」はJD CloudとKingsoft Cloudが合併し、人事を担当するHR部...
Swiftway は、500 名の顧客に限定した特別な VPS プロモーションを提供しています。プロ...
1. フレンドリーリンクの定義と重要性フレンドリーリンクの定義これは、ウェブサイト間の協力の単純な形...
時間、空間、人種、言語、文化を越えたスポーツイベント、ロンドンオリンピックを前に、すべての大手企業は...
第三のプラットフォームとして、Fanli.comが電子商取引の世界で生き残るのは容易ではありません。...
1. SNS軍の地下産業チェーンが、タオバオの偽注文は単なる空想であることを暴露最近、SNS軍はさま...
[[399945]] Spring エコシステムで RocketMQ を試すシリーズの記事: Spr...
筆者は、数年間にわたり企業のウェブサイトプロモーションに携わってきましたが、浮き沈みは何度もありまし...
タイトルは、検索エンジンの検索結果で返される HTML 全体の中で最初の要素です。これまでのところ、...
実際には、これは言うほど簡単ではありません。 IT エンジニアは、気まぐれでアプリケーション全体を ...
企業の SEO 担当者は毎日何をしなければならないのでしょうか? Nanning Aiwen Net...
11月13日、ドイツ・ベルリンでOpenStack Summitが開幕し、「2018 OpenSta...