検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

検索エンジンは、入力されたクエリに最も一致するページを返そうとするのでしょうか? このことを理解すれば、Google やその他の検索エンジンが複雑なアルゴリズムを使用して、返す結果を決定する理由が理解できるでしょう。 このアルゴリズムの要素には、ページに対する反応の数、いいね! や +1 機能によるソーシャル レコメンデーションなどの「ハード ファクター」があります。これらは通常、外部からの影響とページ自体の要因であり、オンライン要因とオフライン要因を分析することによってのみ、Google は問題のクエリの背後にあるページを特定でき、そのためにページ上のテキストを分析する必要があります。

1. 真か偽か

近年、検索エンジンは急速に発展しましたが、まだブールアルゴリズムしか処理できません。簡単に言えば、long は、真か偽か、つまり 1 か 0 を含むドキュメントです。さらに、演算子 AND、OR、NOT を使用して、複数の条件または除外を含むファイルを検索することもできます。これはかなり単純に聞こえますが、いくつか問題があります。

現在、次のテキストを含む 2 つのドキュメントがあるとします: ドキュメント 1: 「そして、ニューヨークにある私たちのレストランでは、クロケットとビターバレンを提供しています」; ドキュメント 2: 「オランダでは、クロケットとフリカンデレンを壁から取り出します」

検索エンジンを構築したい場合、最初のステップはテキストをトークン化することです。特定の用語がどのドキュメントに含まれているかを素早く識別できるようにしたいのですが、トークンをデータベースに保存すれば簡単に実現できます。トークンはデータベース内の任意の単一の用語を表します。では、Doc1 にはいくつのトークンが含まれているのでしょうか?

この質問に答えようと考え始めるとき、いくつかの「用語」を一つずつ考えてみるといいかもしれません。実際、Doc1 では「ニューヨーク」は特別な単一用語として考慮される必要があります。これら 2 つの単語が実際には 1 つの単語であると判断する方法はこの記事の範囲外であるため、現時点ではそれぞれを個別のトークンとして個別に脅威とします。したがって、Doc1 からは 10 個のトークンが、Doc2 からは 11 個のトークンが入っています。データベース内の情報の重複を避けるため、トークンではなくタイプを保存します。

タイプはテキスト上の個別のトークンです。 Doc1 には 2 つのトークン「and」が含まれています。大文字と小文字が区別される AND は 2 回としてカウントされることに注意してください。この例では、「and」と「&」を同じ型として保存できます。

すべての強力なドキュメントが略語に保存されているので、検索エンジンはそれらを見つけることができ、データベース内のブール値の助けを借りて検索することができます。 「croquets」を検索すると、Doc1 と Doc2 の両方から結果が返されますが、「croquets and bitterballen」を検索すると、Doc1 からの結果のみが返されます。この場合の問題点は、結果が多すぎたり少なすぎたりする可能性があることです。さらに、それは組織力の欠如の結果です。アプローチを改善したい場合は、ドキュメントのその他の存在/不在を使用し、ページ要素を使用して結果を整理できることを確認する必要があります。

2. インデックス付き

比較的単純なアプローチは、バンド インデックスを使用することです。バンド インデックスを使用すると、Web ページにさまざまな領域を追加できます。タイトル、説明、著者、コンテンツについて考えてみましょう。ドキュメントにコンテンツを追加することで、各ドキュメントの簡単なスコアを計算できます。これは、検索エンジンがページのトピックを判断するために使用するものです。

領域によって重みが異なり、これらの領域の品質によって、検索エンジンのインデックスの SERP における Web サイトのランキングが決まります。たとえば、タイトル(0.4)説明(0.1)コンテンツ(0.5)の場合、次の表に示す値でインデックス付けされたドキュメントがある場合、次の検索クエリ「croquets and bitterballen」を実行します。

エリアコンテンツブールスコア
タイトルニューヨークカフェ0 0
説明するクロッケーとビターバレンが美味しいカフェ1 0.1
コンテンツニューヨークのレストランではクロッケーとビターバレンを提供しています1 0.5

SEO 最適化のある時点で、ウェブマスターの友人が説明に割り当てられた重みを乱用し始めたため、Google の本文をさまざまな領域に分割し、各領域に異なる重みを割り当てることがより重要になりました。

インターネットにはさまざまな構造の文書が含まれているため、これをうまく実装するのは非常に困難ですが、XML 文書を使用するとはるかに簡単になります。XML の構造とタグは HTML ファイルよりもはるかに豊富なので、分析が容易になります。もちろん、現在および HTML5 では Google がマイクロフォーマットの一部をサポートする可能性がありますが、それでも制限はあります。たとえば、Google が <content> タグ内のコンテンツと <footer> タグ内のコンテンツに高い重みを割り当てることがわかっている場合は、<footer> タグを使用することはありません。

ページのステータスを判断するために、Google がページを複数のチャンクに分割することは許可されません。これにより、Google はページ上のどのデータ ブロックが重要で、どのブロックが重要でないかを知ることができます。使用できる方法は、テキストとコードの比率を比較することです。ページにさらにテキストが含まれている場合は、HTML コードのメイン コンテンツがページに配置されます。ページ ブロックに HTML コードやリンクが大量に含まれていて、コンテンツ (メニューなど) がほとんどない場合は、適切なエディターを選択することが非常に重要です。一部のエディターでは不要な HTML コードを大量に使用するためです。

テキスト/コード比率の使用は、検索エンジンがページをチャンクに分割するために使用できる方法の 1 つにすぎません。インデックス化されたアプローチの利点は、各ドキュメントのスコアを簡単に計算できることです。もちろん、欠点は、多くのファイルが同じスコアを取得する可能性があることです。

元の記事は、http://www.thebaiduseo.cn/news-19.html のウェブマスターによって最初に公開されました。転載する場合は、有効なリンク アドレスをそのままにしておいてください。ありがとうございます。

元のタイトル: 検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

キーワード: 検索、エンジン、基本、アルゴリズム、決定方法、戻り、結果、計算、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  百度が360度に反撃:奇虎検索ユーザーにアクセスを促す

>>:  釣魚島防衛事件におけるポジショニングの観点からSEOの限界について簡単に議論する

推薦する

edis-ロシアのデータセンターKVM、最初の1か月は無料、1000Mポート

edis.at は長年の歴史があり、VPS、サーバーなどには多数の異なるデータセンターがあり、ほぼさ...

住宅改修製品のオンラインショッピングにおけるボトルネックの簡単な分析

生活には五大物があります。食品、衣料、住宅、交通、旅行です。食品から自動車、衣料から家電まで、電子商...

これから高エネルギーが待っています!マルチクラウド戦略では、これらのヒントを参考にしてください

これらの推奨事項に従うことで、ユーザーは組織に真のメリットをもたらすマルチクラウド戦略を開発できます...

gcorelabs: 月額 4.99 ユーロの韓国 VPS の簡単なレビュー。China Unicom に適していますが、China Telecom は OK ですが、China Mobile はダメです。

韓国は私たちにとって近すぎます。外国の VPS を選択する場合、韓国の VPS を優先する場合があり...

JD.comは「法律を無視」し、WeChatモーメンツでCPSをプレイしたが、WeChatから処罰された

【Ebrun Power Network News】6月16日、ちょうど「蜜月期」に入ったテンセント...

Baidu K-station後の奇妙なSEO現象

ここで、Xiao Kは6月22日のBaidu K Stationでの自身の経験に基づいて、いくつかの...

Yuntutongは、企業がクラウドコンピューティングの国内独立管理を実現できるよう支援します

[51CTO.comよりオリジナル記事] 現在、サイバー空間は陸、海、空、宇宙の4つの領域に次ぐ、国...

中国職業教育産業レポート

「二重削減」政策の実施により、K12科目の訓練は後退し、職業教育は新しい時代に入った。有利な政策であ...

テンセント副社長李強氏:ポストパンデミック時代、デジタル技術は企業成長の新たな原動力となっている

「実体経済とデジタル経済の融合の加速は、新たな経済成長点であるだけでなく、伝統産業のデジタル変革の支...

Linodeはどうですか?トロント、カナダのデータセンタークラウドサーバーレビュー共有

Linodeはどうですか? Linode Canada クラウド サーバーはいかがでしょうか? Li...

「何百もの意見」を使って、大規模アップデート後の苦痛から何を学ぶべきかを教えてくれる

6月28日のBaiduの大規模なアップデートは多くのウェブマスターを驚かせたが、それから間もなく、7...

ウェブサイト最適化に関する FAQ 2: ウェブサイトのスナップショットが更新されないのはなぜですか?

前回の記事では、「新しいサイトが組み込まれない理由」についてお話ししましたが、新しいサイトが組み込ま...

Baiduのアルゴリズム改善により、かつてSEOの世界で人気があった6つのツールが廃止された

アルゴリズムが改良されるたびに、一部の SEO ツールは無効になります。過去 3 年間の SEO で...