主流の検索エンジンの原則

主流の検索エンジンの原則

今日は検索エンジンの原理を紹介します。まずは写真を見てみましょう…

次に、階層ごとに説明します。

1. www: www はインターネット上のすべてのウェブページを指します。世界にはいくつのウェブサイトがあるでしょうか? 2006 年の統計によると、ウェブサイトの数は 8,065 万でした。ここ数年のインターネットの急速な発展により、今日では数億のウェブサイトがあるはずです。検索エンジンの役割は、これらのウェブサイトを収集し、ユーザーが検索できるようにランキングを割り当てることです。

2. コレクター: コレクターは一般にスパイダーとして知られています。スパイダーはインターネット上の Web サイトのクロールを担当します。スパイダーには 2 つのクロール方法があり、1 つは深さ優先、もう 1 つは幅優先です。私の Web サイトを例に挙げると、深さ優先とは、スパイダーが Web ページで最初に見つけたリンクから開始することを意味します (下の図を参照)。最初のリンクの下にあるすべてのリンクがクロールされるまで、2 番目のリンクのクロールは開始されません。幅優先とは、2 番目のページのクロールを開始する前に、最初のページのすべてのリンクがクロールされることを意味します。

3. コントローラー: スパイダーは Web ページをダウンロードし、コントローラーに渡します。コントローラは、重複排除などのこれらの Web ページに対する簡単な分析を実行する役割を担います。また、コントローラは、スパイダーのディスパッチ、スパイダーのクロール時間、クロール方法、クロール オブジェクトなどの調整も担当します。コントローラーはすべての URL を抽出し、キャプチャされた URL とクロールされていない URL の 2 つのタイプに分割します。すべての URL ページをクロールし、元のデータベースに保存します。

4. オリジナル データベース: スパイダーによってキャプチャされたランキングのない、最もオリジナルな Web ページを保存するために使用されます。

5. Web ページ分析モジュール: Web ページ分析モジュールは最も重要なモジュールと言えます。この部分は主に、重複、詐欺、違法などのウェブサイトなどのジャンクウェブページをフィルタリングすることです。特に、Baiduアルゴリズムの最近の主要な更新後、この領域のアルゴリズムが更新され、主に偽のオリジナルやジャンクの外部リンクの収集に対抗するとともに、いくつかの複雑なアルゴリズムを使用して各ウェブページと外部リンクの価値をスコアリングします。これを重みと呼びます。この重みにより、将来のソートの準備が整います。

6. インデクサー: インデクサーは、Web ページ分析モジュールによって配信された貴重な Web ページを、順方向インデックスと逆方向インデックスに分割します。ポジティブインデックスとは、各 Web ページを多数のキーワードに分割することを意味します。逆インデックスは、キーワードごとに多数の Web ページをリストし、並べ替えます。

7. インデクサー データベース: インデックス データベースは、インデクサーによってキーワード別にリストされた Web ページを保存するために使用されます。

8. 検索エンジン: ユーザーが入力した単語をセグメント化し、インデックス データベースから Web ページを取得して並べ替え、最終的に結果をユーザーに返します。

9. ユーザー: 名前の通り、インターネット ユーザーです。

10. ユーザーインターフェース: Baidu の検索結果ページとして理解できます。

11. ユーザー行動ログデータベース: ユーザー行動ログデータベースは、ユーザーがクリックしたウェブサイト、ユーザーがウェブサイトに滞在した時間、2 番目のウェブサイトをクリックする間隔、検索キーワードなど、ユーザーの行動を保存するために使用されます。

12. ログ アナライザー: 個人的には、この部分は非常に重要だと思います。検索エンジンはユーザー エクスペリエンスにますます注目しており、これが今後の検索エンジンの開発傾向です。この部分は、ユーザー行動ログ データベースでユーザー行動を詳細に分析し、インターネット上の多くの Web サイトでのユーザー行動の重みとランキングを加算または減算します。

この記事は鄭州seoに掲載されました http://www.8abd.com/?p=65 転載の際はリンクを明記してください。 よろしくお願いいたします

元のタイトル: いくつかの主流検索エンジンの原理

キーワード: 検索エンジンの原理、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  7月のBaidu検索エンジンの変更の観察と概要

>>:  ソーシャルショッピングガイド:過大評価され、期待されている

推薦する

SEO担当者が知っておくべき3つの重要なポイントを明かす

最初のポイントは、サービス指向のエンティティ、つまり検索エンジンです。古いことわざにもあるように、「...

dwidc: 湖北省 VPS - 99 元 / 16G メモリ / 8 コア / 100 ハードディスク / 10M 帯域幅 / 100g の高防御、香港 / 韓国 / 米国 VPS は月額 50 元から (CC 攻撃に対する防御)

dwidcは現在、春のハイエンドインスタンスの期間限定フラッシュセールを開催しています。湖北100G...

百度は上海に登録資本金15億元のクラウドコンピューティング会社を設立した。

5月27日、百度雲計算(上海)有限公司が登録資本金15億元で設立された。法定代表者は張炳華であり、百...

tmhhost: 春節期間中20%割引、米国3ネットワークcn2 gia(+200g高防御)、日本ソフトバンク100M、200M香港BGP、鎮江BGP高防御

tmhhost の 20% オフの春節プロモーションが始まりました: (1) ロサンゼルス VPS、...

テンセントの馬暁怡氏:世界のゲーム業界は新たな探求の時代を迎えている

6月27日、テンセントゲームズの年次記者会見がオンラインで正式に開催されました。カンファレンスのテー...

Google の外国貿易ウェブサイトにランキングがないときは、次の 7 つのことを行うだけです

多くの外商ウェブサイトはGoogleキーワードランキングを行いたいが、どのように始めればよいか分から...

2020 年のマルチクラウド環境の長所と短所

[[333918]]業界の専門家やアナリストは、ビジネス開発のために複数のパブリック クラウド イン...

ウェブサイトでは「ネット」という単語を強調表示する必要がある

ウェブサイト - ウェブサイトの略。ほとんどの人は、Web サイトを何千もの Web ページを含むコ...

SEO とは何ですか? また、SEO をどのように理解すればよいですか?

SEOとは何ですか? SEO の正式名称は Search Engine Optimization で...

Google、ブラウザに「Do Not Track」ボタンを追加することに同意

2月24日のブルームバーグによると、Googleはブラウザに「Do Not Track」ボタンを追加...

ソフトコピーを書くための4つの簡単なステップ

検索エンジンの成熟度が高まるにつれて、ウェブサイトの外部リンクの品質に対する要求も高まっています。従...

高速ホスティング - $2.4/Kvm/250m メモリ/5g SSD/250g トラフィック/Win

fast-hosting、この会社は比較的新しいので、これまで見たことがありませんが、E3 または ...

百度は今年後半に低品質のサイトを厳しく処罰する予定で、ウェブマスターにとって悪いニュースがやってくる

この記事を読むためにクリックしたあなたは、タイトルのためにここに来たのだと思います。ここで私が伝えた...

1週間のダイヤモンドアップグレードはオンラインストアにとって神話ではない

店をオープンした初日から、売り手はダイヤモンドとクラウンセラーの称号を欲しがり始めたようです。しかし...

高品質の外部リンクを見つけるには3つの方法があります

SEO 業界に参入したばかりの人は、通常、外部リンクの構築から始めます。これは、外部リンクの構築には...