検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

検索エンジンは、入力されたクエリに最も一致するページを返そうとするのでしょうか? このことを理解すれば、Google やその他の検索エンジンが複雑なアルゴリズムを使用して、返す結果を決定する理由が理解できるでしょう。このアルゴリズムの要素には、ページに対する反応の数、いいね! や +1 機能によるソーシャルレコメンデーションなどの「ハードファクター」があります。これらは通常、外部からの影響とページ自体の要因であり、オンライン要因とオフライン要因を分析することによってのみ、Google は問題のクエリの背後にあるページを特定でき、そのためにページ上のテキストを分析する必要があります。

1. 真か偽か

近年、検索エンジンは急速に発展しましたが、まだブールアルゴリズムしか処理できません。簡単に言えば、long は、真か偽か、つまり 1 か 0 を含むドキュメントです。さらに、演算子 AND、OR、NOT を使用して、複数の条件または除外を含むファイルを検索することもできます。これはかなり単純に聞こえますが、いくつか問題があります。

現在、次のテキストを含む 2 つのドキュメントがあるとします: ドキュメント 1: 「そして、ニューヨークにある私たちのレストランでは、クロケットとビターバレンを提供しています」; ドキュメント 2: 「オランダでは、クロケットとフリカンデレンを壁から取り出します」

検索エンジンを構築したい場合、最初のステップはテキストをトークン化することです。特定の用語がどのドキュメントに含まれているかを素早く識別できるようにしたいのですが、トークンをデータベースに保存すれば簡単に実現できます。トークンはデータベース内の任意の単一の用語を表します。では、Doc1 にはいくつのトークンが含まれているのでしょうか?

この質問に答えようと考え始めるとき、いくつかの「用語」を一つずつ考えてみるといいかもしれません。実際、Doc1 では「ニューヨーク」は特別な単一用語として考慮される必要があります。これら 2 つの単語が実際には 1 つの単語であると判断する方法はこの記事の範囲外であるため、現時点ではそれぞれを個別のトークンとして個別に脅威とします。したがって、Doc1 からは 10 個のトークンが、Doc2 からは 11 個のトークンが入っています。データベース内の情報の重複を避けるため、トークンではなくタイプを保存します。

タイプはテキスト上の個別のトークンです。 Doc1 には 2 つのトークン「and」が含まれています。大文字と小文字が区別される AND は 2 回としてカウントされることに注意してください。この例では、「and」と「&」を同じ型として保存できます。

すべての強力なドキュメントが略語に保存されているので、検索エンジンはそれらを見つけることができ、データベース内のブール値の助けを借りて検索することができます。「croquets」を検索すると、Doc1 と Doc2 の両方から結果が返されますが、「croquets and bitterballen」を検索すると、Doc1 からの結果のみが返されます。この場合の問題点は、結果が多すぎたり少なすぎたりする可能性があることです。さらに、それは組織力の欠如の結果です。アプローチを改善したい場合は、ドキュメントのその他の存在/不在を使用し、ページ要素を使用して結果を整理できることを確認する必要があります。

2. インデックス付き

比較的単純なアプローチは、バンドインデックスを使用することです。バンドインデックスを使用すると、Web ページにさまざまな領域を追加できます。タイトル、説明、著者、コンテンツについて考えてみましょう。ドキュメントにコンテンツを追加することで、各ドキュメントの簡単なスコアを計算できます。これは、検索エンジンがページのトピックを判断するために使用するものです。

領域によって重みが異なり、これらの領域の品質によって、検索エンジンのインデックスの SERP における Web サイトのランキングが決まります。たとえば、タイトル（0.4）説明（0.1）コンテンツ（0.5）の場合、次の表に示す値でインデックス付けされたドキュメントがある場合、次の検索クエリ「croquets and bitterballen」を実行します。

エリア	コンテンツ	ブール	スコア
タイトル	ニューヨークカフェ	0	0
説明する	クロッケーとビターバレンが美味しいカフェ	1	0.1
コンテンツ	ニューヨークのレストランではクロッケーとビターバレンを提供しています	1	0.5

SEO 最適化のある時点で、ウェブマスターの友人が説明に割り当てられた重みを乱用し始めたため、Google の本文をさまざまな領域に分割し、各領域に異なる重みを割り当てることがより重要になりました。

インターネットにはさまざまな構造の文書が含まれているため、これをうまく実装するのは非常に困難ですが、XML 文書を使用するとはるかに簡単になります。XML の構造とタグは HTML ファイルよりもはるかに豊富なので、分析が容易になります。もちろん、現在および HTML5 では Google がマイクロフォーマットの一部をサポートする可能性がありますが、それでも制限はあります。たとえば、Google が <content> タグ内のコンテンツと <footer> タグ内のコンテンツに高い重みを割り当てることがわかっている場合は、<footer> タグを使用することはありません。

ページのステータスを判断するために、Google がページを複数のチャンクに分割することは許可されません。これにより、Google はページ上のどのデータブロックが重要で、どのブロックが重要でないかを知ることができます。使用できる方法は、テキストとコードの比率を比較することです。ページにさらにテキストが含まれている場合は、HTML コードのメインコンテンツがページに配置されます。ページブロックに HTML コードやリンクが大量に含まれていて、コンテンツ (メニューなど) がほとんどない場合は、適切なエディターを選択することが非常に重要です。一部のエディターでは不要な HTML コードを大量に使用するためです。

テキスト/コード比率の使用は、検索エンジンがページをチャンクに分割するために使用できる方法の 1 つにすぎません。インデックス化されたアプローチの利点は、各ドキュメントのスコアを簡単に計算できることです。もちろん、欠点は、多くのファイルが同じスコアを取得する可能性があることです。

元の記事は、http://www.thebaiduseo.cn/news-19.html のウェブマスターによって最初に公開されました。転載する場合は、有効なリンクアドレスをそのままにしておいてください。ありがとうございます。

元のタイトル: 検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

キーワード: 検索、エンジン、基本、アルゴリズム、決定方法、戻り、結果、計算、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: 百度が360度に反撃：奇虎検索ユーザーにアクセスを促す

>>: 釣魚島防衛事件におけるポジショニングの観点からSEOの限界について簡単に議論する