レッスン 2 のメモ: 検索エンジンの基礎と動作原理

みなさんこんにちは。私はSEOの専門家です。数か月間、マッサージ機ランキングサイトwww.yziyuan.comのメンテナンスと最適化に携わり、そこから多くの経験と知識を蓄積してきました。本日お伝えしたいのは、最も基本的な概念である「検索エンジンの基礎と動作原理」です。

パート 1: 検索エンジンとは何ですか?

1. 定義は?

公式定義:

検索エンジンは、特定の戦略に基づいて特定のコンピュータプログラムを使用してインターネットから情報を収集するシステムです。情報を整理して処理した後、ユーザーに検索サービスを提供して、検索に関連する情報をユーザーに表示します。検索エンジンの代表例としては、Baidu と Google が挙げられます。

私の理解はこうです:

検索エンジンの検索ルールに合わせて対象ウェブサイトのコンテンツを設定することで、ユーザーが検索した際に、より希望するコンテンツを表示させることができます！このようなサービスプロセスは、検索エンジンというツールを通じて実現されます！

2. 分類は？

（１）全文索引：

インターネット全体からさまざまなウェブサイト（主にウェブページのテキスト）から情報を抽出し、独自の検索プログラム（インデクサー）（一般に「スパイダー」プログラムまたは「ロボット」プログラムと呼ばれる）を通じてデータベースを構築します。検索結果は独自のデータベースから直接呼び出されます。また、ユーザーのクエリ条件に一致するレコードを取得し、結果を特定の順序で返すこともできます。全文検索エンジンは現在最も広く使用されている主流の検索エンジンであり、海外の代表としては Google、中国では Baidu が有名です。

SEO では、次のような検索エンジンの調査に重点を置く必要があります。

キーワードの一致度、出現場所や頻度、リンクの品質——

理由: ユーザーがキーワードを使用して情報を検索すると、検索エンジンはデータベースを検索します。ユーザーの要件に一致する Web サイトが見つかると、特別なアルゴリズムが使用されます。通常は、Web ページに基づいて各 Web ページの関連性とランキングを計算し、関連度に基づいてこれらの Web ページリンクをユーザーに返します。このエンジンの特徴は、検索率が比較的高いことです。

（２）ディレクトリインデックス

ユーザーは、検索キーワードに頼ることなく、分類ディレクトリに従って必要な情報を見つけることができます。検索機能はありますが、厳密に言うと検索エンジンとは言えず、ディレクトリ別に分類されたウェブサイトリンクの一覧にすぎません。最も代表的なディレクトリインデックスは、Yahoo、Sina classified directory search、hao123 です。

（３）メタ検索エンジン

(META検索エンジン) ユーザーのクエリ要求を受け入れた後、複数の検索エンジンで同時に検索し、結果をユーザーに返します。有名なメタ検索エンジンには、InfoSpace、Dogpile、Vivisimo などがあります。最も代表的な中国のメタ検索エンジンは Souxing 検索エンジンです。検索結果の配置に関しては、Dogpile のようにソース別に直接検索結果を並べるものもありますが、Vivisimo のように独自に定義したルールに従って結果を再配置するものもあります。

（4）垂直検索エンジン

2006年以降に徐々に登場してきた検索エンジンの一種です。一般的なウェブ検索エンジンとは異なり、垂直検索は特定の検索領域と検索ニーズ（例：航空券検索、旅行検索、生活検索、小説検索、ビデオ検索など）に焦点を当てており、特定の検索分野でより優れたユーザーエクスペリエンスを実現します。数千の検索サーバーを必要とする一般的な検索と比較して、垂直検索では、ハードウェアコストが低く、特定のユーザーニーズと多様なクエリ方法が必要です。より高い精度！

(5) 集約検索エンジン: この検索エンジンはメタ検索エンジンに似ていますが、検索時に複数の検索エンジンを同時に呼び出すことはありません。代わりに、ユーザーは、2002 年後半に HotBot が開始した検索エンジンなど、提供されている複数の検索エンジンから選択できます。

（6）ポータル検索エンジン

たとえば、MSNSearch には分類ディレクトリも Web ページデータベースも存在せず、検索結果はすべて他の検索エンジンから取得されるという特徴があります。

（7）無料リンクリスト

Free For All Links (FFA): 基本的にはリンクエントリをスクロールするだけです。いくつかはシンプルな分類ディレクトリを持っていますが、その規模はYahoo!や他のディレクトリインデックスに比べるとはるかに小さいです。

要約: SEO は検索エンジンから切り離すことはできません。ある意味で、SEO は検索エンジンとゲームをするプロセスです。SEO を行う際に、コードを記述したり、検索エンジンの技術的な詳細を深く理解したりする必要はありませんが、作業を最適化するために、検索エンジンに関する基本的な常識を理解しておく必要があります。検索エンジンのこれらの基本概念を理解することによってのみ、Web サイトを安心して最適化できます。

第2部: 検索エンジン開発の歴史

現在、インターネットの発展のスピードとインターネット上のリソースは、人間の想像や制御をはるかに超えています。検索エンジンがなければ、欲しいものを見つけることができません。特に、Facebook、Twitter、Weiboなどのソーシャルネットワークの発展により、モバイルアプリケーションは爆発的に成長し、ユーザー数、ウェブサイトのトラフィック、社会的影響力のいずれの点でも、YahooやGoogleなどのかつてのインターネットの巨人をはるかに上回っています。では、これはSEOとどのような関係があるのでしょうか。ネットワークがあるところに検索があり、検索があるところにSEOがあります。

では、検索エンジンの開発の歴史とはどのようなものでしょうか。検索エンジンは、ウェブサイトの最適化にどのようなニーズと支援を提供するのでしょうか。検索エンジンの開発の歴史を理解しなければ、SEO をうまく行うことはできないのでしょうか。実際はそうではありません。検索エンジンの開発の歴史を理解することは、ウェブサイトの最適化に大いに役立ちます。

ここでは検索エンジンの開発の歴史について詳しくは説明しません。ご興味があれば、Search Engine Direct にアクセスして詳細をご確認ください。

検索エンジンの成長の価値を見てみましょう。

これらのデータから、いくつかの問題が明らかになります。

（1）検索市場は依然として活況を呈しており、急速に発展しています。SEOにとって大きなチャンスと金鉱があります。

（２）検索エンジンの成長により、検索エンジン企業の収益の大部分はオンライン広告から得られており、その中でSEMが極めて高い割合を占めており、SEOは自然な検索ランキングである。同じ価値を得るために多額の費用をかける必要はありません。

（3）他の検索もますますユーザーフレンドリーになり、SEO担当者が才能を発揮する機会が増えています。

（4）さまざまなプラットフォームでの競争や社会的注目を通じて、会社の体力は向上し続けており、これは将来SEOに取り組む企業にとっても朗報です。

要約:

検索エンジンの開発速度を見れば、SEO の将来的な重要性が簡単に判断できます。検索エンジンの開発の歴史を理解することで、SEO 最適化担当者は SEM の発展と変化をより深く理解できるようになります。また、将来の方向性をしっかりと把握するのにも役立ちます。時代の流れに遅れずにいることでのみ、継続的な進歩を遂げることができます。検索エンジンの開発速度は非常に速いです。これは SEO にとって良いことです。検索がある限り、ランキングがあり、ランキングがあれば SEO 技術が使われます。私たちがしなければならないのは、SEO の利点をよりよく発揮できるように、これらのダイナミックな変化に注意を払い続けることです。

ご存知のとおり、インターネットの発展速度は非常に速いです。インターネットの発展に伴い、検索エンジンの価値は絶えず上昇しています。なぜこの検索技術を使用するのですか？それはどのようにして生まれたのですか？たとえば、私たちの図書館は本の宝庫です。図書館の本やファイルが時間の経過とともに増え続けると、必然的に問題が発生します。それは、見つけにくく、管理しにくいことです。このとき、私たちは何をすべきでしょうか？カタログ管理を通じて、図書館内のすべてのファイルを定期的に管理できます。実際、私たちの検索エンジンの原理は、この従来のファイル検索技術に由来しています。では、検索エンジンの本当の原理は何でしょうか？読み続けましょう。

パート3: 検索エンジンの仕組み:

検索エンジンの動作原理は、おおまかに 3 つの段階に分けられます。

（１）這いずり回ったり、掻きむしったりする行為：

つまり、検索エンジンのスパイダーはリンクアドレスを追跡して Web サイトのページにアクセスし、取得した Web サイトページの HTML コードを独自のデータベースに格納します。

クローリングとクロールは、主にデータ収集のタスクを完了するための、検索エンジンの作業の最初のステップです。

いくつかのキーワードを説明します。

1. クモ:

（1）定義：私はこれをウェブページデータのクロールの実行者と呼んでいます。実際、これはコンピュータプログラムです。その動作プロセスは実際のスパイダーと非常に似ているため、専門家はこれを検索エンジンスパイダーと呼んでいます。

（2）動作プロセス：スパイダープログラムはウェブサイトページにアクセス要求を送信し、サーバーはHTMLコードを返します。スパイダープログラムは受信したコードを元のページのデータベースに保存します。スパイダーがウェブサイトを訪問すると、まずそのウェブサイトのルートディレクトリにある robots.txt ファイルにアクセスします。robots.txt ファイルによって検索エンジンが特定のファイルやディレクトリをクロールすることが禁止されている場合、スパイダーはこれらの禁止事項に従い、禁止されている URL をクロールしません。

（３）一般的な検索エンジンスパイダーの名前：

Baidu Spider、Yahoo China Spider、Google Spider、Microsoft Bing Spider、Sogou Spider、Soso Spider、Youdao Spider など!

2. トラッキングリンク

インターネット全体が接続されたウェブサイトのページから構成されていることは誰もが知っています。ページはリンクによって接続されています。ウェブサイトのデータを迅速に収集するために、検索エンジンは検索エンジンスパイダーを使用してウェブサイトのページ上のリンクを追跡し、あるページから次のページへとクロールします。このプロセスは、クモがクモの巣をクロールするのと同じです。このようにして、スパイダーはインターネット上のウェブサイトのページ全体を迅速にクロールできます。

さまざまなウェブサイトのリンク構造に応じて、スパイダーのクローリングルートをディープクローリングとブレッドクローリングの 2 種類に分けることができます。

A: ディープクローリング: スパイダーは、前方に他のリンクがなくなるまで、発見したページリンクに沿って前方にクローリングし、その後、最初のページに戻って別のリンクに沿って前方にクローリングします。

B: 幅広クローリング: スパイダーがページ上で複数のリンクを見つけた場合、1 つのリンクに沿って前方にクローリングするのではなく、ページ上の第 1 レベルのリンクをすべてクローリングし、次に第 2 レベルのページで見つかったリンクに沿って第 3 レベルのページまでクローリングを続けます。このように続きます...

したがって、Web サイトを構築するときは、Web サイトの構造にこれら 2 つのレイアウトが必要であり、Web サイトページを最適化するときにも 2 つのリンクレイアウトを実現する必要があります。この構造は、検索エンジンスパイダーグループが好むものです。

3. クモを誘引する方向最適化技術

A: ウェブサイトとページの重量を最適化して、スパイダーの訪問数を増やします。

B: ページの更新頻度とコンテンツの質を向上させる

C: インバウンドリンクを増やす

D: ホームページからのクリック距離。ホームページからのクリック距離が近いほど、ページの重みが高くなり、スパイダークローリングの可能性が高くなります。

4. アドレスライブラリ、

検索エンジンは、検索エンジンスパイダーが URL を繰り返しクロールして取得するのを防ぐために、アドレスを保存するページのデータベースを作成します。このデータベースには、取得済みのページだけでなく、検出されたがまだ取得されていないページも含まれています。

このアドレスライブラリのURLは必ずスパイダーによってクロールされるのでしょうか？答えは「いいえ」です

手動で入力されたシード Web サイトアドレスがあり、検索エンジンの Web 送信フォームを通じて Web マスターによって送信された URL もあります。

もう一つ注意すべき点は、URL を送信しても含まれない可能性があるということです。送信するページの重みによって異なります。ただし、検索エンジンスパイダーはリンク自体に沿ってページをクロールすることを好みます。自分で取得するとさらに良いでしょう。

5. ファイルストレージ

検索エンジンのスパイダーによってクロールされたページは、この元のページデータベースに保存されます。各 URL には固有のファイル番号があります。

6. コピーされたコンテンツの検出

多くのウェブマスターがこの問題に遭遇しています。スパイダーがウェブサイトのページをクロールしているのを見つけましたが、ページは含まれておらず、何が起こっているのかわかりません。実際、それは非常に簡単です。スパイダーがウェブページをクロールしているときに、転載されたコンテンツや疑似オリジナルコンテンツなどの低品質のコンテンツを多数見つけた可能性が高く、スパイダーは去ってしまいます。ウェブページは含まれません。スパイダーがクロールしてページコンテンツを取得すると、ある程度の重複コンテンツの検出も実行されます。

（２）前処理

このプロセスは、インデックス作成プログラムがスパイダーによってデータベースにキャプチャされた Web サイトのページを処理し、主にテキストの抽出、中国語の単語の分割、インデックス作成などを行うことを指します。

このプロセスは橋渡しの役割を果たします。検索エンジンのデータベースにはデータが多すぎるため、ユーザーが検索ボックスにキーワードを入力してもすぐにランキング結果が返されることはありません。しかし、非常に速いと感じることがよくあります。実は、重要な役割を果たすのは前処理プロセスです。クロールプロセスと同様に、これもバックグラウンドで事前に完了しています。

前処理はインデックス作成であると考える人もいますが、そうではありません。インデックス作成は前処理の主要なステップにすぎません。では、インデックスとは何でしょうか。インデックスとは、データベースリスト内の 1 つ以上の列の値を並べ替える構造です。

インデックスを作成する前に行うべきことは 5 つあります。

1. テキストを抽出します。

スパイダーが HTML コードのみを含むページをクロールすることはよく知られていますが、実際には、テキスト、CSS 属性、多数の HTML 形式タグ、JavaScript プログラムなど、多くの情報が含まれています。ただし、後者の 2 つはランキングコンテンツに参加できません。つまり、テキスト以外のすべてが削除されます。このプロセスは削除プロセスとも呼ばれ、テキスト抽出プロセスとも呼ばれ、つまり、ランキング処理に使用できる Web サイトページのテキストコンテンツを抽出します。

注: 検索エンジンは、表示可能なテキストの抽出に加えて、METa タグ内のテキストコンテンツ、画像の代替テキスト、FLASH ファイルの代替テキスト、リンクアンカーテキストなどの非表示のテキストコンテンツも抽出できます。

2. 中国語の単語分割

中国語と英語の文章には違いがあることは誰もが知っています。文字と漢字の違いではなく、英語の単語の間にスペースがあるのに対し、中国語の文章では文字の間に区切りがありません。文章中の単語はすべてつながっています。したがって、このとき、検索エンジンはまずどの文字が単語を構成し、どの文字自体が単語であるかを区別する必要があります。たとえば、「Bosideng down jacket」は「Bosideng」と「down jacket」という2つの単語に分かれています。

中国語の単語分割には、一般的に 2 つの方法があります。

A: 辞書マッチング：前方一致と後方一致に分かれています！

B: 検索統計によると

この2つは組み合わせて使用されることがよくあります。さらに、BaiduとGoogleの単語セグメントの関連性は異なる場合があります。たとえば、検索エンジン最適化はBaiduでは完全な単語ですが、Googleでは「検索」、「エンジン」、「最適化」の3つの部分に分かれています。したがって、最適化するときは、選択したキーワードの特性に注意する必要があります。単語の選択スキルについては、後で詳しく説明します。

注: 単語を結合することを主張し、検索エンジンの単語分割テクノロジーで単語を分割したくない場合はどうすればよいでしょうか。

これを行うには、ページタイトルの h1 タグで太字を使用してキーワードを表示します。これにより、検索エンジンに適切に通知され、検索エンジンは単語が組み合わせであることを認識し、分離しません。

3. ストップワードを削除する

ストップワードとは何ですか? ストップワードとは、ページ上で頻繁に出現するが、コンテンツに実質的な影響を与えない単語です。たとえば、「的」、「得」、「地」などの助動詞、「啊」、「哈」、「呀」などの感動詞、「找出」、「以」、「却」などの副詞または前置詞などです。これらの単語はストップワードと呼ばれます。英語では、the、a、an、to、of などがあります。

検索エンジンがストップワードを削除する主な目的は 2 つあります。

1 つは、インデックスデータのテーマをより目立たせ、不要な計算を減らすことです。

もう 1 つは、コンテンツが他のデータベースのコンテンツと重複しているかどうかを確認することです。

ここで注意していただきたいのは、インターネットから記事をコピーしてストップワードをいくつか追加して自分の Web サイトに貼り付けるだけではだめだということです。上記を学習すれば、その意味が理解できるはずです。

4. ノイズを除去する:

ここでのノイズは、いわゆるノイズではなく、一種のゴミ、つまり冗長な単語を指します。これらの単語は、通常、著作権表示、ナビゲーションバー、広告に含まれています。ノイズを排除すると、ページで主題のコンテンツがより適切に表示されます。

たとえば、ブログの「カテゴリディレクトリ」や「履歴アーカイブ」などです。

5. 重複排除

それはどういう意味でしょうか? 同じ記事が異なるウェブサイトに表示されたり、異なるアドレスにリンクされている場合、検索エンジンはそれをファイルとみなします。検索エンジンはそのような重複コンテンツを好まないため、クロールしません。インデックスを作成する前に、重複コンテンツを識別して削除する必要があります。これを「重複排除」と呼びます。

検索エンジンで重複を削除する方法！技術を習得する必要はありませんが、いくつかの重要なポイントに注意する必要があります。

A: 「的」「地」「得」を付けるだけで簡単に認識されます。注意して使用してください。

B: 他の人の記事をコピーして、段落構造を入れ替えるだけです。このような疑似オリジナリティは注意して使用する必要があります。

その理由は、このような操作では記事の特定のキーワードを変更できず、上記の方法では検索エンジンの重複排除アルゴリズムを逃れることができないからです。

上記の 5 つの手順を完了すると、検索エンジンはページのメインコンテンツを反映できる単語で一意のコンテンツを取得できるようになります。

次に、検索エンジンプログラムは、単語分割プログラムを通じて上記で抽出されたキーワードを分割し、各ウェブサイトページをキーワードセットに変換します。同時に、各キーワードのページの頻度、回数、形式（タイトルタグ、太字、Hタグ、アンカーテキストなど）、位置（段落）を記録します。これらはすべて重みの形式で記録されます。次に、これらの組み合わせ語のための特別な単語リスト構造であるインデックスライブラリにそれらを配置します。これは「単語リストインデックス形式」とも呼ばれます。

フォワードインデックスとは何ですか?

各フォルダはIDに対応しており、ファイルの内容はキーワードの集合として表現されます。検索エンジンのインデックスライブラリでは、この時点でキーワードがキーワードIDに変換されています。このデータ構造はフォワードインデックスと呼ばれます。

理解しやすいように図を描いてみましょう。

文書ID	コンテンツ
フォルダ 1	キーワード1、キーワード2、キーワード7、キーワード10...キーワードL
フォルダ2	キーワード2、キーワード7、キーワード30...キーワードM
フォルダ3	キーワード 2、キーワード 70、キーワード 35...キーワード N
…	……………………
フォルダ7	キーワード 2、キーワード 7、... キーワード X
…	………………
フォルダX	キーワード 7、キーワード 50、キーワード Y

転置インデックスとは何ですか?

なぜなら、フォワードインデックスはランキングに直接使用できないからです。たとえば、ユーザーがキーワード 2 を検索する場合、フォワードインデックスからのみでは、キーワードを含むフォルダーしか見つけられず、実際のランキングを返すことができません。このとき、転置インデックスが使用されます。

転置インデックスでは、キーワードが主キーになります。各キーワードは一連のファイルに対応しており、検索対象のキーワードは各ファイルに表示されます。このようにして、ユーザーがキーワードを検索すると、ソートプログラムは転置リストでこのキーワードに対応するファイルを見つけることができます。

詳細は画像をご覧ください:

キーワード	書類
キーワード1	ファイル 1 ファイル 2、ファイル 17、ファイル 110... ファイル L
キーワード2	ファイル 2、ファイル 7、ファイル 30... ファイル B
キーワード3	ファイル 2、ファイル 7、ファイル 30... ファイル U
…	……………………
キーワード6	ファイル 21、ファイル 70、ファイル 300... ファイル K
…	………………
キーワード7	ファイル 12、ファイル 27、ファイル 3...ファイル L

特殊ファイル処理:

検索エンジンは、HTNL ファイルのクロールに加えて、PDF、Word、WPS、PPT、TXT などのファイルタイプもクロールできます。ただし、検索エンジンは画像、ビデオ、Flash などのテキストコンテンツをクロールできず、スクリプトやプログラムも実行できないことに注意してください。したがって、SEO を行うときは、Web サイトでこれらのコンテンツをできるだけ使用しないようにしてください。

リンク関係の計算:

検索エンジンはページをクロールした後、ページ上のどのリンクがどのページを指しているかを事前に計算する必要があります。各ページの受信リンクと、リンクで使用されているアンカーテキストは何ですか。これらの複雑なリンクポイント関係が、Web サイトとページのリンクウェイトを形成します。たとえば、Google の PR 値はこれらの関係の重要な現れであり、後で詳しく説明します。

ランキング：

ランキングプロセスは、ユーザーとの対話プロセスです。ユーザーがキーワードを入力すると、ランキングプログラムはインデックスデータベース内のデータを呼び出し、関連性を計算し、特定の形式で検索結果ページを生成します。

1. 検索ワード処理

A: 中国語の単語の分割。これについてはすでに言及しました。

B: 前述のとおり、ストップワードを削除します。

C: 命令処理: 検索エンジンのデフォルトの処理方法は、キーワード間の「and」ロジックを使用することです。たとえば、ユーザーが「ウェブサイト構築」を検索すると、検索エンジンはデフォルトで、ユーザーが探している「ウェブサイト」と「構築」の両方を含むページを表示します。

一般的な検索コマンドにはプラス記号とマイナス記号があります。他にはどのような検索コマンドがありますか? 検索コマンドの使用方法については、後のセクションで詳しく説明します。

D: ユーザーが明らかに間違った単語や英語の単語を入力した場合、検索エンジンは正しい単語やスペルを使用するようにユーザーに促します。例: 「ウェブサイト構築スキル」を検索します。

E: 統合検索トリガー！例えば有名人を検索すると、写真や動画などのコンテンツが表示されます！ホットな話題に適しています。

2. ファイルのマッチングはどのように実行されますか?

この部分は逆インデックスで素早く実行できます。図を参照してください。

キーワード	書類
キーワード1	ファイル 1 ファイル 2、ファイル 17、ファイル 110... ファイル L
キーワード2	ファイル 1、ファイル 7、ファイル 30... ファイル B
キーワード3	ファイル 2、ファイル 7、ファイル 30... ファイル U
…	……………………
キーワード6	ファイル 21、ファイル 70、ファイル 300... ファイル K
…	………………
キーワード7	ファイル 12、ファイル 27、ファイル 3...ファイル L

ユーザーがキーワード 2 とキーワード 3 の両方を含む単語を検索すると、グループはキーワード 2 とキーワード 3 の両方を含むファイルを正確に検出し、それを返します。

3. 初期サブセットを選択するにはどうすればよいでしょうか?

インターネット上には何万ページもあり、あるキーワードを検索すると何千万ページも出てきます。検索エンジンが直接ページの関連性を計算すると、時間がかかりすぎてしまいます。実は、ユーザーは何千ページも見る必要はありません。ユーザーに必要なのは、1つか2つの役に立つページだけです。このとき、検索エンジンはユーザーの検索語に基づいて100個のファイルを選択し、それを返します。では、どの100個のファイルが選択されるのでしょうか？これは、ウェブサイトのページとユーザーが検索したキーワードとの関連性の一致によって決まります。重み付けの高いページは、検索エンジンの事前選択されたサブセットに入ります。

4.相関関係を計算する

サブセットを選択すると、ページの関連性が計算されます。検索エンジンがページの関連性をどのように計算するかを知る必要はありませんが、ページの関連性の計算に影響を与える要因を知る必要があります。これは、Web サイトをさらに最適化するのに役立ちます。

SEO が重視する要素は次のとおりです。

A: キーワードの共通性: たとえば、「Come on UFO」

B: 単語の頻度と密度

キーワードの蓄積がない場合、ページに表示される検索用語の数と密度が高いほど、ページと検索用語の関連性が高くなると一般的に考えられています。

C: キーワードの位置と形式

ポジション調査の主な内容: ホームページかセカンダリページか? フォーム調査の主な内容: タイトルタグ、太字、H1

D. キーワードの距離: たとえば、検索語が「ウェブサイト構築」である場合、構築のない個別の「ウェブサイト」ではなく、ページ上に「ウェブサイト構築」という単語が何度も連続して表示されるか、構築はあってもウェブサイトがないかどうかを確認します。

E: リンク分析とページ権限

リンクと重みの関係は主にアンカーテキストです。アンカーテキストを含むリンクでインポートされる検索用語が多いほど、関連性が高くなります。

5. ランキングのフィルタリングと調整

一致するファイルのサブセットを選択すると、全体的なランキングがほぼ決定されます。ここで行われるランキングフィルタリングは、主に不正行為の方法に依存し、不正行為が疑われる Web サイトを対象としています。前の作業で計算されたこれらの Web サイトの重みと関連性は非常に高いですが、検索エンジンは最後のステップでこれらの Web サイトもフィルタリングします。

6. ランキング表示効果

メイン表示は、元のページのタイトルタグ、説明タグ、スナップショットの日付などのデータです。

注: 一部の Web サイトでは、検索エンジンはページ自体の説明を呼び出すのではなく、動的に生成されたページの概要を呼び出す必要があります。

7. 検索エンジンキャッシュの役割:

検索エンジンは、ユーザーがよく検索する単語をいくつか記録し、これらの検索ランキング記録を検索エンジンのキャッシュに保存します。ユーザーがこの単語を再度検索すると、検索エンジンはキャッシュ内のコンテンツを直接呼び出します。これにより、検索応答時間が短縮され、ランキング効率が大幅に向上します。

要約:

上記は、検索エンジンの全体的な動作プロセスの詳細な紹介です。これらは単なる概念です。実際には、検索エンジンの動作手順とアルゴリズムは、私たちが考えるよりもはるかに複雑です。しかし、それは問題ではありません。上記の基本的な概念を理解していれば、SEOを行う私たちにとっては十分です。検索エンジンのアルゴリズムはまだ最適化されています。興味のある学生は、さらに注意を払うことができ、最適化における新たな突破口にも役立ちます。上記で紹介した概念は、主流の検索エンジンの基本的な動作原理です。

シャオ・シン

2012年12月30日日曜日の夜

元のタイトル: レッスン 2 のメモ: 検索エンジンの基礎と動作原理

キーワード: 検索エンジン、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: 「俗語」SEO

>>: ビッグデータが金儲け：百度は休眠中、淘宝網は地盤を固めている