検索エンジンの仕組み

検索エンジンの仕組み

全文検索エンジン

検索エンジンの分類のセクションでは、Web サイトから情報を抽出して Web ページ データベースを構築する全文検索エンジンの概念について説明しました。

通常検索

検索エンジンの自動情報収集機能には2種類あります。 1 つは定期的な検索です。つまり、定期的に (たとえば、Google は通常 28 日)、検索エンジンが「スパイダー」プログラムを積極的に送信して、特定の IP アドレス範囲内のインターネット サイトを検索します。新しい Web サイトが見つかると、検索エンジンは自動的に Web サイトの情報と URL を抽出し、独自のデータベースに追加します。

サイト検索を送信

もう 1 つは、ウェブサイト検索を送信する方法です。つまり、ウェブサイトの所有者が URL を検索エンジンに積極的に送信します。一定期間内 (2 日から数か月まで) に、検索エンジンは「スパイダー」プログラムをウェブサイトに送信してウェブサイトをスキャンし、ユーザーのクエリに関連する情報をデータベースに保存します。近年、検索エンジンのインデックスルールは大きく変化したため、URL を積極的に送信しても、Web サイトが検索エンジンのデータベースに登録される保証はありません。したがって、現時点での最善の方法は、より多くの外部リンクを取得して、検索エンジンがあなたを見つけて Web サイトを自動的に含める機会を増やすことです。

ユーザーがキーワードを使用して情報を検索すると、検索エンジンはデータベースを検索します。ユーザーの要件に一致するWebサイトが見つかった場合、特別なアルゴリズムを使用して、Webページ内のキーワードの一致度、出現場所/頻度、リンクの品質などに基づいて各Webページの関連性とランキングを計算し、関連性に応じてWebページのリンクを順番にユーザーに返します。

カタログインデックス

ディレクトリ インデックスは、全文検索エンジンと比べて多くの違いがあります。

まず、検索エンジンはウェブサイトを自動的に検索しますが、ディレクトリのインデックス作成は完全に手動操作に依存します。

ユーザーが Web サイトを送信すると、ディレクトリ エディターが Web サイトを実際に閲覧し、独自の評価基準やエディターの主観的な印象に基づいて Web サイトを受け入れるかどうかを決定します。

第二に、検索エンジンにウェブサイトが含まれている場合、そのウェブサイト自体が関連規則に違反していない限り、通常は正常にログインできます。

一方、ディレクトリのインデックス作成では、Web サイトに非常に高い負荷がかかるため、複数回ログインしても成功しない場合があります。特にYahoo!のようなスーパーインデックスの場合、ログインはさらに困難になります。 (Yahoo!へのログインは最も難しく、企業のオンラインマーケティングの激戦区でもあるため、後ほど特設コーナーでYahoo!へのログインのコツを紹介する予定です。)また、検索エンジンにログインする場合は、通常、Web サイトの分類を考慮する必要はありませんが、ディレクトリ インデックスにログインする場合は、Web サイトを最も適切なディレクトリ (Directory) に配置する必要があります。

情報の抽出

最後に、検索エンジン内の各ウェブサイトの関連情報はユーザーのウェブページから自動的に抽出されるため、ユーザーの観点からはより自律性があります。一方、ディレクトリインデックスではウェブサイト情報を手動で入力する必要があり、さまざまな制限があります。さらに、スタッフが、あなたが提出したウェブサイトのディレクトリとウェブサイト情報が不適切であると判断した場合、もちろん事前にあなたと話し合うことなく、いつでもそれを調整することができます。

ディレクトリインデックスは、その名の通り、ウェブサイトをカテゴリ別に該当するディレクトリに保存することです。そのため、ユーザーが情報を照会する際には、キーワード検索を選択したり、カテゴリディレクトリに従って階層ごとに検索したりすることができます。キーワードで検索すると、検索エンジンと同じ結果が返され、情報の関連度に応じてウェブサイトがランク付けされますが、より多くの人的要素が関係します。階層ディレクトリで検索する場合、ディレクトリ内のウェブサイトの順位はタイトルのアルファベット順で決まります(例外もあります)。

現在、検索エンジンとディレクトリインデックスは相互に統合・浸透する傾向にあります。

純粋な全文検索エンジンの中には、ディレクトリ検索も提供するものがあります。たとえば、Google は Open Directory を使用して分類検索を提供しています。 Yahoo! のような旧来のディレクトリ インデックスは、Google などの検索エンジンと提携することで検索範囲を拡大してきました。デフォルトの検索モードでは、中国の Sohu、Sina、NetEase など、一部のディレクトリ検索エンジンは、最初に独自のディレクトリ内の一致する Web サイトを返しますが、Yahoo など、他の検索エンジンはデフォルトで Web 検索を返します。

早めにこのサイトに連絡して、お名前をお知らせください。連絡先メールアドレス: mb5u#vip.qq.com (# を @ に変更してください)。

元のタイトル: 検索エンジンの仕組み

キーワード: 検索エンジン

<<:  検索エンジン最適化の詳細

>>:  最適化のアイデア: 検索エンジンアルゴリズムのコピーウェブページ

推薦する

Bilibiliはライブストリーミング販売に注力していますが、誰が儲かっているのでしょうか?

1. Bilibiliのライブストリーミング電子商取引への参入は誤報か?昨年12月初旬、ビリビリはひ...

AWS NAT ゲートウェイの使用開始

AWS(Amazon Web Services)のクラウドコンピューティング分野において、NAT ゲ...

raksmart: 香港のベアメタルクラウド、最大 1Gbps の帯域幅、月額 79 ドルから、E5-2620/32g メモリ/1T SSD

raksmart の香港データセンターのベアメタル クラウドは、デフォルトの 10 Mbps サポー...

本番環境と開発環境、Kubernetes に関する 4 つのよくある誤解

[編集者注] コンテナと Kubernetes の IT 管理チームが実稼働環境にローカルの変更を展...

IDC 2020 中国クラウドベンダーセキュリティ機能レポート: Alibaba Cloud が引き続きリーダー

11月9日、国際的に権威のあるコンサルティング組織IDCは最新の「IDC MarketScape:中...

エッジコンピューティング: ソースでのデータ処理に革命を起こす

接続されたデバイス、データに基づく意思決定、そしてスピードへの飽くなき追求の時代において、エッジ コ...

ウェブサイト構築の「問題点」をプラス面とマイナス面から考える

A5の記事をよく読むウェブマスターの友人は、ウェブサイトの構築プロセス中に注意しなければならないこと...

SEO のヒント: メタディスクリプションの最適化

メタディスクリプションは、ウェブサイトのページの説明文であり、検索エンジンがページの主なコンテンツを...

パーソナライズされたドメイン名が SEO 最適化に与える影響の簡単な分析

ドメイン名はウェブサイトの表札とみなすことができます。ユーザーがウェブサイトにアクセスすると、ドメイ...

名雪茶は運命の岐路に立たされている

長い間、茶飲料路線は最も人気のあるトレンドの一つであり、「ミルクティーフリード」や「ミルクティー延命...

ウェブサイトのBaiduランキングが下落し不安定になっている理由

私は6か月間、PR3で3位にランクインしていたサイトを運営していましたが、新しいサイトに追い抜かれ、...

flaunt7: 著作権保護の苦情は無視されることを明確に記載、オランダのVPS、オランダのサーバー

flaunt7 は、オフショア仮想ホスティング、オフショア VPS、オフショア独立サーバーを提供する...

占いと風水:インターネットで変わるビジネス

占い、性格分析、ゆるキャラ、生贄など伝統的なビジネスは、インターネット上でどのように生き残ることがで...

クラウドホスティングの利点は何ですか?

クラウドホスティング(クラウドサーバーとも呼ばれる)は、わずか数年で中国で急速に普及しました。それ以...

インターサーバーはどうですか?ニュージャージーデータセンターVPS評価データ共有

インターサーバーはどうですか?インターサーバーニュージャージーVPSはいかがでしょうか? Inter...