ホワイトハットSEO: 検索エンジンの基本的なプロセスと原則

検索エンジンで最も重要なことは何でしょうか? クエリ結果の正確さだと言う人もいれば、クエリ結果の豊富さだと言う人もいますが、実際には、これらは検索エンジンの最も致命的な側面ではありません。検索エンジンにとって最も致命的なのはクエリ時間です。 Baidu のインターフェースでキーワードを検索し、検索結果が表示されるまでに 5 分もかかるとしたら、すぐに Baidu を放棄してしまうでしょう。

厳しい速度要件を満たすために (現在の商用検索エンジンのクエリ時間単位はマイクロ秒)、検索エンジンはキャッシュを使用してクエリのニーズに対応します。つまり、検索時に取得される結果はタイムリーなものではなく、サーバー上にキャッシュされた結果です。では、検索エンジンが機能する一般的なプロセスとは何でしょうか? それは 3 つの段階として理解できます。この記事では、3 つのワークフローの一般的な説明と概要のみを説明します。詳細な技術的詳細については、他の記事で別途説明します。

1. Webページのコレクション。

Web クロールは、実際にはスパイダーによる Web ページのクロールと呼ばれるものです。したがって、スパイダー（Google ではロボットと呼んでいます）にとって、興味のあるページは次の 3 つのカテゴリに分類されます。

1. スパイダーによってクロールされたことがない新しいページ。

2. スパイダーによってクロールされたが、コンテンツが変更されたページ。

3. スパイダーによってクロールされたが、現在は削除されているページ。

したがって、これら 3 種類のページを効果的に検出してクロールする方法が、スパイダープログラム設計の本来の意図と目的です。するとここで疑問が湧いてくるのですが、蜘蛛が這い進む出発点はどこでしょうか。

ウェブサイトが著しくダウングレードされていない限り、すべてのウェブマスターは、ウェブサイトのバックグラウンドでサーバーを介して勤勉なスパイダーがサイトを訪問しているのを見つけることができます。しかし、プログラミングの観点からスパイダーがどこから来るのか考えたことがありますか？この点については、各当事者が独自の意見を持っています。蜘蛛は種子のある場所（または重量の高い場所）から這い上がり、その重量に応じて層ごとに高いところから低いところへと這っていくと言われています。別の言い方をすると、スパイダーが一連の URL をクロールする順序は明確ではありません。検索エンジンは、サイトのコンテンツ更新の規則性に基づいて、サイトをクロールする最適なタイミングを自動的に計算し、クロールを実行します。

実際、検索エンジンが異なれば、クロールの開始点は必ず異なります。Baidu の場合、趙氏は後者を好みます。 Baidu の公式ブログ (アドレス: http://stblog.baidu-tech.com/?p=2057) に掲載された記事「インデックスページリンク完了メカニズムの方法」では、「スパイダーは Web ページの公開サイクルを検出し、適切な頻度で Web ページをチェックしようとします」と明記されています。このことから、Baidu のインデックスライブラリでは、URL セットごとにクロール時間とそれに適した一連のパラメータを計算し、対応するサイトをクロールしていると推測できます。

ここで、Baidu にとって、サイトの価値はスパイダーがクロールしたページの価値ではないことを説明したいと思います。例えば、site:www.***.comの場合、得られた値は皆さんがよく話題にするBaidu包含値ではありません。具体的なBaidu包含量を確認したい場合は、Baiduが提供するウェブマスターツールでインデックス量を確認する必要があります。では、サイトとは何でしょうか? これについては、今後の記事で説明します。

では、スパイダーはどのようにして新しいリンクを発見するのでしょうか? ハイパーリンクに依存しています。インターネット全体を集合体の有向コレクションと考えることができます。スパイダーは開始 URL セット A から開始し、Web ページ内のハイパーリンクに沿って新しいページを継続的に発見します。このプロセスでは、見つかったすべての新しい URL がセット A 内の既存の URL と比較されます。新しい URL の場合はセット A に追加されます。セット A にすでに存在する場合は破棄されます。サイトのスパイダートラバーサルクロール戦略には、深さ優先と幅優先の 2 種類があります。ただし、Baidu のような商用検索エンジンの場合、そのトラバーサル戦略は、ドメイン名自体の重み係数、Baidu のサーバーマトリックスの分布など、より複雑なルールになる可能性があります。

2. 前処理。

前処理は、検索エンジンの最も複雑な部分です。基本的に、ほとんどのランキングアルゴリズムは前処理段階で効果を発揮します。前処理フェーズでは、検索エンジンは主にデータに対して次の手順を実行します。

1. キーワードを抽出します。

スパイダーによってクロールされるページは、ブラウザで表示されるものと同じソースコードです。コードは通常整理されておらず、その多くはページのメインコンテンツとは無関係です。したがって、検索エンジンは次の 3 つのことを行う必要があります: コードのノイズ除去。 Web ページからすべてのコードを削除し、テキストのみを残します。 ②テキスト以外のキーワードを削除します。たとえば、ページ上のナビゲーションバーや、さまざまなページで共有されるその他の共通領域のキーワードなどです。 ③ストップワードを削除します。ストップワードとは、「的」や「在」など、特定の意味を持たない単語を指します。

検索エンジンは、この Web ページのキーワードを取得すると、独自の単語分割システムを使用してテキストを単語分割リストに分割し、データベースに保存して、テキストの URL と 1 対 1 で照合します。例を挙げてみましょう。

スパイダーがクロールしたページの URL が http://www.***.com/2.html であり、このページで上記の操作を行った後に検索エンジンが抽出したキーワードセットが p であり、p がキーワード p1、p2、...、pn で構成されている場合、Baidu データベースでは、それらの関係は 1 対 1 になります (下図を参照)。

2. 重複した Web ページや複製された Web ページを排除します。

検索エンジンごとに重複ページを識別するアルゴリズムは異なりますが、趙氏は、重複排除アルゴリズムが 100 個の要素で構成されていると理解すると、すべての検索エンジンで 80 個の要素がまったく同じになる可能性があると考えています。残りの 20 の要素は、SEO に対するさまざまな検索エンジンのさまざまな姿勢に基づいて特別に設計された対応する戦略です。この記事では、検索エンジンの一般的なプロセスについて予備的な説明のみを提供し、特定の数学モデルについては詳しく説明しません。

3. 重要な情報の分析。

コードノイズ除去のプロセスでは、検索エンジンは単にコードを削除するのではなく、Web ページコード (H タグ、strong タグなど)、キーワード密度、内部リンクアンカーテキストなどを最大限に活用して、この Web ページで最も重要なフレーズを分析します。

4. Web ページの重要度分析。

このウェブページを指す外部リンクアンカーテキストによって伝達される重み値を通じて、このウェブページの重み値が決定され、同時に、前述の「重要情報分析」と組み合わせて、このウェブページのキーワードセットp内の各キーワードのランキング係数が決定されます。

5. 反転ファイル。

前述のように、ユーザーが検索したときに得られるクエリ結果はすぐに得られるものではなく、検索エンジンのキャッシュ領域に大まかに整理されています。もちろん、検索エンジンは未来を予測することはできず、ユーザーがどのようなキーワードを検索するかはわかりませんが、キーワードシソーラスを確立することができ、ユーザーのクエリリクエストを処理するときに、シソーラスに従ってリクエストをセグメント化します。この方法では、ユーザーがクエリを生成する前に、検索エンジンは語彙内の各キーワードに対応する URL ランキングを計算できるため、クエリの処理時間が大幅に節約されます。

簡単に言うと、検索エンジンはコントローラーを使用してスパイダーのクローリングを制御し、設定されたURLを元のデータベースに保存します。保存後、インデクサーを使用して各キーワードとURLの対応を制御し、インデックスデータベースに保存します。

これを例で説明してみましょう。

ページ http://www.***.com/2.html が p={p1, p2, p3, ..., pn} に分割されている場合、インデックスデータベースでは次の図のように表されます。

上の図は、理解しやすいように作成されています。インデックスデータベースは、実際には検索エンジンで最もパフォーマンス要件が高いデータベースです。これは、その中のすべての要素がアルゴリズムの影響を受けるためです。したがって、実際のインデックスデータベースは、多次元配列で構成されたより複雑なインデックステーブルである必要があると思いますが、その主な機能は上の図と同じです。

3. クエリサービス。

名前が示すように、クエリサービスは検索インターフェースでユーザーのクエリ要求を処理します。検索エンジンはクローラーを構築し、リクエストを 3 つのステップで処理します。

1. クエリ方法とキーワードに応じて単語をセグメント化します。

まず、ユーザーが検索したキーワードをキーワードシーケンスに分割し、これを仮にqで表します。次に、ユーザーが検索したキーワードqをq={q1, q2, q3, ..., qn}に分割します。

次に、すべての単語がつながっているか、または間にスペースがあるかなどのユーザーの検索方法と、q 内のさまざまなキーワードの品詞に基づいて、クエリ結果の表示における必要なクエリワード内の各単語の重要度が決定されます。

2. 検索結果の並べ替え。

検索用語セット q と、q 内の各キーワードに対応する URL ランキング (インデックスライブラリ) があります。同時に、ユーザーのクエリ方法と品詞に基づいて、クエリ結果の表示における各キーワードの重要度も計算します。その後、包括的なソートアルゴリズムを実行するだけで、検索結果が表示されます。

3. 検索結果とドキュメントの概要を表示します。

検索結果がある場合、検索エンジンはユーザーが使用できるようにユーザーのブラウジングインターフェイスに検索結果を表示します。

ここで、皆さんは2つの質問について考えることができます。

検索インターフェースでは、Baidu が表示するサマリーがユーザーの検索語の周辺にあることがよくあります。最初のページだけでなく、後でいくつかのページを見ると、一部の結果は、対象ページ自体に検索語が完全に含まれておらず、Baidu が抽出したサマリーの赤い単語が検索語の一部にすぎないことがわかります。このように理解すると、検索語が完全に含まれていない場合、Baidu は単語分割結果でより重要だと判断した単語を優先して表示する必要があるのでしょうか。では、これらの検索結果から、Baidu の単語分割アルゴリズムに関する手がかりを得ることができるでしょうか。

② 検索語がページ上に複数回表示されることがありますが、Baidu は検索結果ページのウェブサイト概要セクションにその一部だけを表示します。通常、これらの部分は連続しています。したがって、概要セクションでは、Baidu がこの検索語にとって最も重要であると考えるページの部分を優先して表示すると理解してよいでしょうか。このことから、Baidu がページのノイズ除去後にさまざまな部分に重みを割り当てるために使用するアルゴリズムを推測できますか。

この 2 つの質問については、人によって意見が異なります。SEO に取り組んでいる友人は、自分で調べて解決することができます。趙氏はここで沈黙する勇気はありません。

4. Baidu の現在のプロセスの抜け穴。

このモジュールを説明する際に「プロセスの抜け穴」という言葉を使用したことをお許しください。しかし、クリッカーが横行している今日の世界では、これを抜け穴と呼ぶのは理解できると思います。

つまり、上記の 3 つの主要なリンクに加えて、Baidu は元のデータベースとインデックスライブラリに影響を与えるユーザー行動モジュールも構築しました。元のデータベースに影響を与えるのは、Baidu のスナップショット苦情であり、これは主にインターネット上での過剰な利益追求行為の一部に対処するものであり、理解できるものです。インデックスライブラリに影響を与えるのは、ユーザーのクリック行動です。この設計自体は理解できますが、Baidu のアルゴリズムが未熟なため、クリック者による不正行為が横行しています。

Baidu のユーザー行動分析モジュールは非常にシンプルです。独自の苦情提出入口に加えて、検索インターフェースでのユーザーのクリック行動を収集します。このページの結果がほとんどのユーザーに閲覧されているにもかかわらずクリックが生成されず、ほとんどのユーザーが 2 ページ目以降のページをクリックすることを選択した場合、この現象は Baidu のエンジニアに認識され、それに応じてアルゴリズムが微調整されます。現在、Baidu は業界ごとに異なるアルゴリズムを持っています。

最初の 2 ページ内の検索インターフェイスが多数のユーザーによって選択されクリックされた場合、この検索結果は通常 24 時間以内に大幅に前進し、1 位に昇格することもあります。

5. 検索エンジンの一般的なフローチャート（およびユーザー行動アナライザー）

上記は、検索エンジンの動作の基本的なプロセスと原則についての私の理解です。

最後に、SEO 実践者の大多数は、Baidu、Google、その他の商用検索エンジンのいずれであっても、SEO 担当者にアルゴリズムや検索エンジンを気にするのではなく、ユーザーエクスペリエンスにもっと注意を払うように求めるだろうということに気付くはずだと言いたいと思います。ここでは、比喩として理解することができます。検索エンジンはスイカを購入する人々であり、SEOはスイカを育てる人々です。スイカを購入する人々は、私たちスイカを育てる人々に、スイカを選択する基準を気にするのではなく、良いスイカを育てる方法にもっと注意を払うように求めています。彼らが必要とする良いスイカがどのようなスイカであるかについては、彼らはしばしば漠然とした概念でそれを覆い隠します。確かに、検索エンジンによって得られる結果は多様化し、結果を選択する際の選択肢も増え、こうした商用検索エンジン自身の利益を最大限に保護することができますが、スイカを栽培している私たちも食べる必要があることを忘れないでください。

趙氏は常にホワイトハットSEOを遵守し、UEに関する徹底的な調査を行い、ユーザーにとって意味のあるサイトを構築しています。しかし同時に、SEO 担当者として、私たちが作成するサイトがユーザーの好みに合致していれば、検索エンジンで適切に表示されるように、アルゴリズムをタイムリーに理解しておく必要があると私は固く信じています。結局のところ、SEO 担当者も人間であり、より良い生活を送りたいと願っているからです。今後は、他の記事でも検索エンジンの各側面を少しずつ分析し、ブログの「検索エンジンの原理」コラムで公開していきます。皆様のお役に立てれば幸いです。

この記事は、趙氏のブログ http://www.seozhao.com/319.html に最初に掲載されました。転載する場合は出典を明記してください。

原題: ホワイトハットSEO: 検索エンジンの基本的なプロセスと原則

キーワード: SEO、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: ウェブサイトの外部最適化と検索エンジン構築の「架け橋」

>>: Baidu リアルタイムホットスポットは新しいプロモーション方法でしょうか?