検索エンジンの仕組み

検索エンジンの仕組み

全文検索エンジン

検索エンジンの分類のセクションでは、Web サイトから情報を抽出して Web ページ データベースを構築する全文検索エンジンの概念について説明しました。

通常検索

検索エンジンの自動情報収集機能には2種類あります。 1 つは定期的な検索です。つまり、定期的に (たとえば、Google は通常 28 日)、検索エンジンが「スパイダー」プログラムを積極的に送信して、特定の IP アドレス範囲内のインターネット サイトを検索します。新しい Web サイトが見つかると、検索エンジンは自動的に Web サイトの情報と URL を抽出し、独自のデータベースに追加します。

サイト検索を送信

もう 1 つは、ウェブサイト検索を送信する方法です。つまり、ウェブサイトの所有者が URL を検索エンジンに積極的に送信します。一定期間内 (2 日から数か月まで) に、検索エンジンは「スパイダー」プログラムをウェブサイトに送信してウェブサイトをスキャンし、ユーザーのクエリに関連する情報をデータベースに保存します。近年、検索エンジンのインデックスルールは大きく変化したため、URL を積極的に送信しても、Web サイトが検索エンジンのデータベースに登録される保証はありません。したがって、現時点での最善の方法は、より多くの外部リンクを取得して、検索エンジンがあなたを見つけて Web サイトを自動的に含める機会を増やすことです。

ユーザーがキーワードを使用して情報を検索すると、検索エンジンはデータベースを検索します。ユーザーの要件に一致するWebサイトが見つかった場合、特別なアルゴリズムを使用して、Webページ内のキーワードの一致度、出現場所/頻度、リンクの品質などに基づいて各Webページの関連性とランキングを計算し、関連性に応じてWebページのリンクを順番にユーザーに返します。

カタログインデックス

ディレクトリ インデックスは、全文検索エンジンと比べて多くの違いがあります。

まず、検索エンジンはウェブサイトを自動的に検索しますが、ディレクトリのインデックス作成は完全に手動操作に依存します。

ユーザーが Web サイトを送信すると、ディレクトリ エディターが Web サイトを実際に閲覧し、独自の評価基準やエディターの主観的な印象に基づいて Web サイトを受け入れるかどうかを決定します。

第二に、検索エンジンにウェブサイトが含まれている場合、そのウェブサイト自体が関連規則に違反していない限り、通常は正常にログインできます。

一方、ディレクトリのインデックス作成では、Web サイトに非常に高い負荷がかかるため、複数回ログインしても成功しない場合があります。特にYahoo!のようなスーパーインデックスの場合、ログインはさらに困難になります。 (Yahoo!へのログインは最も難しく、企業のオンラインマーケティングの激戦区でもあるため、後ほど特設コーナーでYahoo!へのログインのコツを紹介する予定です。)また、検索エンジンにログインする場合は、通常、Web サイトの分類を考慮する必要はありませんが、ディレクトリ インデックスにログインする場合は、Web サイトを最も適切なディレクトリ (Directory) に配置する必要があります。

情報の抽出

最後に、検索エンジン内の各ウェブサイトの関連情報はユーザーのウェブページから自動的に抽出されるため、ユーザーの観点からはより自律性があります。一方、ディレクトリインデックスではウェブサイト情報を手動で入力する必要があり、さまざまな制限があります。さらに、スタッフが、あなたが提出したウェブサイトのディレクトリとウェブサイト情報が不適切であると判断した場合、もちろん事前にあなたと話し合うことなく、いつでもそれを調整することができます。

ディレクトリインデックスは、その名の通り、ウェブサイトをカテゴリ別に該当するディレクトリに保存することです。そのため、ユーザーが情報を照会する際には、キーワード検索を選択したり、カテゴリディレクトリに従って階層ごとに検索したりすることができます。キーワードで検索すると、検索エンジンと同じ結果が返され、情報の関連度に応じてウェブサイトがランク付けされますが、より多くの人的要素が関係します。階層ディレクトリで検索する場合、ディレクトリ内のウェブサイトの順位はタイトルのアルファベット順で決まります(例外もあります)。

現在、検索エンジンとディレクトリインデックスは相互に統合・浸透する傾向にあります。

純粋な全文検索エンジンの中には、ディレクトリ検索も提供するものがあります。たとえば、Google は Open Directory を使用して分類検索を提供しています。 Yahoo! のような旧来のディレクトリ インデックスは、Google などの検索エンジンと提携することで検索範囲を拡大してきました。デフォルトの検索モードでは、中国の Sohu、Sina、NetEase など、一部のディレクトリ検索エンジンは、最初に独自のディレクトリ内の一致する Web サイトを返しますが、Yahoo など、他の検索エンジンはデフォルトで Web 検索を返します。

早めにこのサイトに連絡して、お名前をお知らせください。連絡先メールアドレス: mb5u#vip.qq.com (# を @ に変更してください)。

元のタイトル: 検索エンジンの仕組み

キーワード: 検索エンジン

<<:  検索エンジン最適化の詳細

>>:  最適化のアイデア: 検索エンジンアルゴリズムのコピーウェブページ

推薦する

クラウドコンピューティング史上初の開封ライブ放送:アリババクラウド神龍の技術アーキテクチャが初めて完全に公開

5月16日、アリババクラウドが自社開発した最先端のエラスティックコンピューティング技術アーキテクチャ...

Windows で Apache Kafka を実行するにはどうすればいいですか?

[[383471]] [51CTO.com クイック翻訳] Windows はあなたの好みの開発環境...

テクノロジー+エコロジー、効率的で安全な電子署名の実現

[51CTO.comよりオリジナル記事] インターネットの波に後押しされ、近年中国では電子契約(電子...

w3space-$7.5/Windows/512m メモリ/10g ハードディスク/750g トラフィック

w3space は 2009 年に設立された小規模な VPS プロバイダーです。主に openvz ...

NetEase がメタバースに「備える」

未来だと言うかバブルだと言うか、世界はメタバースの時代に突入した。それは株式市場にとって万能薬です。...

クラウド レンダリングを使用して「My Motherland and Me」をサポートするにはどうすればよいでしょうか? JD Cloudは約1,000台のサーバーを使用している

国慶節連休中、中華人民共和国建国70周年を記念したトリビュート映画「わが祖国と私」がヒットし、全国的...

Namecheap - 共有ホスティングが 50% オフ

Godaddy は今年、仮想ホストの 50% 割引を宣伝しています。また、Namecheap がGo...

検索エンジン最適化SEOは、コンテンツと外部リンクが王様という時代から、内部と外部の両方を改善する時代へと進化しました。

ウェブマスターコミュニティには、「コンテンツは王、外部リンクは皇帝」という有名な格言があります。これ...

クラウドコンピューティングの歴史と利点を理解する

クラウド コンピューティングは、インターネット経由でコンピューティング サービスを提供する方法です。...

Kubernetes デプロイメントのビジュアルマップ

Kubernetes でコンテナを使用する場合、多くの場合、アプリケーションをポッドにグループ化しま...

インフラストラクチャ・アズ・コード (IaC) を 1 つの記事で理解する

Infrastructure-as-Code (IaC) とは、手動のプロセスではなくコードを使用し...

フォーラムは死んでいません: ファーストフードはどのようにしておいしい食事の代わりになるのでしょうか?

過去数年間で最も人気があったウェブサイト形式のフォーラムは、近年徐々にWeiboとWeChatに追い...

企業がハイブリッドおよびマルチクラウドシステムを構築するにつれて、セキュリティの問題は悪化する可能性が高い

[[410724]]調査によると、クラウド コンピューティング サービスの導入を加速させるプレッシャ...

主要なツールや機能を含む、最新のクラウドデータ管理の基本

クラウドデータ管理とは何ですか?クラウド データ管理とは、クラウド データ管理プラットフォームとツー...

マルチクラウド サービスは、企業が「クラウドの混沌」から「クラウド インテリジェンス」へと移行するのに役立ちます。

マルチクラウドを採用する組織は、回復力、俊敏性、データ主権の向上など、実際の結果と大きなメリットを得...