検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

検索エンジンは、入力されたクエリに最も一致するページを返そうとするのでしょうか? このことを理解すれば、Google やその他の検索エンジンが複雑なアルゴリズムを使用して、返す結果を決定する理由が理解できるでしょう。 このアルゴリズムの要素には、ページに対する反応の数、いいね! や +1 機能によるソーシャル レコメンデーションなどの「ハード ファクター」があります。これらは通常、外部からの影響とページ自体の要因であり、オンライン要因とオフライン要因を分析することによってのみ、Google は問題のクエリの背後にあるページを特定でき、そのためにページ上のテキストを分析する必要があります。

1. 真か偽か

近年、検索エンジンは急速に発展しましたが、まだブールアルゴリズムしか処理できません。簡単に言えば、long は、真か偽か、つまり 1 か 0 を含むドキュメントです。さらに、演算子 AND、OR、NOT を使用して、複数の条件または除外を含むファイルを検索することもできます。これはかなり単純に聞こえますが、いくつか問題があります。

現在、次のテキストを含む 2 つのドキュメントがあるとします: ドキュメント 1: 「そして、ニューヨークにある私たちのレストランでは、クロケットとビターバレンを提供しています」; ドキュメント 2: 「オランダでは、クロケットとフリカンデレンを壁から取り出します」

検索エンジンを構築したい場合、最初のステップはテキストをトークン化することです。特定の用語がどのドキュメントに含まれているかを素早く識別できるようにしたいのですが、トークンをデータベースに保存すれば簡単に実現できます。トークンはデータベース内の任意の単一の用語を表します。では、Doc1 にはいくつのトークンが含まれているのでしょうか?

この質問に答えようと考え始めるとき、いくつかの「用語」を一つずつ考えてみるといいかもしれません。実際、Doc1 では「ニューヨーク」は特別な単一用語として考慮される必要があります。これら 2 つの単語が実際には 1 つの単語であると判断する方法はこの記事の範囲外であるため、現時点ではそれぞれを個別のトークンとして個別に脅威とします。したがって、Doc1 からは 10 個のトークンが、Doc2 からは 11 個のトークンが入っています。データベース内の情報の重複を避けるため、トークンではなくタイプを保存します。

タイプはテキスト上の個別のトークンです。 Doc1 には 2 つのトークン「and」が含まれています。大文字と小文字が区別される AND は 2 回としてカウントされることに注意してください。この例では、「and」と「&」を同じ型として保存できます。

すべての強力なドキュメントが略語に保存されているので、検索エンジンはそれらを見つけることができ、データベース内のブール値の助けを借りて検索することができます。 「croquets」を検索すると、Doc1 と Doc2 の両方から結果が返されますが、「croquets and bitterballen」を検索すると、Doc1 からの結果のみが返されます。この場合の問題点は、結果が多すぎたり少なすぎたりする可能性があることです。さらに、それは組織力の欠如の結果です。アプローチを改善したい場合は、ドキュメントのその他の存在/不在を使用し、ページ要素を使用して結果を整理できることを確認する必要があります。

2. インデックス付き

比較的単純なアプローチは、バンド インデックスを使用することです。バンド インデックスを使用すると、Web ページにさまざまな領域を追加できます。タイトル、説明、著者、コンテンツについて考えてみましょう。ドキュメントにコンテンツを追加することで、各ドキュメントの簡単なスコアを計算できます。これは、検索エンジンがページのトピックを判断するために使用するものです。

領域によって重みが異なり、これらの領域の品質によって、検索エンジンのインデックスの SERP における Web サイトのランキングが決まります。たとえば、タイトル(0.4)説明(0.1)コンテンツ(0.5)の場合、次の表に示す値でインデックス付けされたドキュメントがある場合、次の検索クエリ「croquets and bitterballen」を実行します。

エリアコンテンツブールスコア
タイトルニューヨークカフェ0 0
説明するクロッケーとビターバレンが美味しいカフェ1 0.1
コンテンツニューヨークのレストランではクロッケーとビターバレンを提供しています1 0.5

SEO 最適化のある時点で、ウェブマスターの友人が説明に割り当てられた重みを乱用し始めたため、Google の本文をさまざまな領域に分割し、各領域に異なる重みを割り当てることがより重要になりました。

インターネットにはさまざまな構造の文書が含まれているため、これをうまく実装するのは非常に困難ですが、XML 文書を使用するとはるかに簡単になります。XML の構造とタグは HTML ファイルよりもはるかに豊富なので、分析が容易になります。もちろん、現在および HTML5 では Google がマイクロフォーマットの一部をサポートする可能性がありますが、それでも制限はあります。たとえば、Google が <content> タグ内のコンテンツと <footer> タグ内のコンテンツに高い重みを割り当てることがわかっている場合は、<footer> タグを使用することはありません。

ページのステータスを判断するために、Google がページを複数のチャンクに分割することは許可されません。これにより、Google はページ上のどのデータ ブロックが重要で、どのブロックが重要でないかを知ることができます。使用できる方法は、テキストとコードの比率を比較することです。ページにさらにテキストが含まれている場合は、HTML コードのメイン コンテンツがページに配置されます。ページ ブロックに HTML コードやリンクが大量に含まれていて、コンテンツ (メニューなど) がほとんどない場合は、適切なエディターを選択することが非常に重要です。一部のエディターでは不要な HTML コードを大量に使用するためです。

テキスト/コード比率の使用は、検索エンジンがページをチャンクに分割するために使用できる方法の 1 つにすぎません。インデックス化されたアプローチの利点は、各ドキュメントのスコアを簡単に計算できることです。もちろん、欠点は、多くのファイルが同じスコアを取得する可能性があることです。

元の記事は、http://www.thebaiduseo.cn/news-19.html のウェブマスターによって最初に公開されました。転載する場合は、有効なリンク アドレスをそのままにしておいてください。ありがとうございます。

元のタイトル: 検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析

キーワード: 検索、エンジン、基本、アルゴリズム、決定方法、戻り、結果、計算、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  百度が360度に反撃:奇虎検索ユーザーにアクセスを促す

>>:  釣魚島防衛事件におけるポジショニングの観点からSEOの限界について簡単に議論する

推薦する

タオバオのオンライン広告費が急増:売り手は「タオバオを離れる」ことを望んでいる

李娜[暁丁は、巨華軒のイベントの売上高は15万元、広告費は5万元で、最終的に商人は在庫しか稼げなかっ...

SEO運用を別の視点から見る

距離があるからこそ美しさが生まれる。それが愛の姿です。数日前、ガールフレンドが私にこう言いました。「...

戦場では相手を理解しなければならない

著者は歴史書、特に皇帝に関する本を読むのが好きです。私の意見では、古代の皇帝の思想は常に非常に深いた...

Hujiang.com の教育方法: オンライン スクールはビデオだけではない

文 | CBN記者 ゾウ・トン、インターン記者 ソン・ジン3年前、Hujiang.comの創設者であ...

ウェブサイトが降格された後に新しいランキングで良い仕事をする方法

ウェブサイトが降格されると、ウェブサイトに大きな影響が出ます。多くのウェブマスターは、降格のためにウ...

エッジコンピューティングがモノのインターネットを推進

[[411236]]画像ソース: https://pixabay.com/images/id-466...

Dogyun: 建国記念日、Elastic Cloud 30% 割引、専用サーバー月額 100 オフ、香港\韓国\日本\米国\オランダ\ドイツ

Dogyun は国慶節に向けていくつかの割引をご用意しました: (1) クラウド サーバーと専用サー...

B2Bウェブサイトのランキングに影響を与える3つの主な理由とその解決策

B2B ウェブサイトは数多く存在しますが、さまざまな理由からランキングが高くないウェブサイトも少なく...

ハイブリッドクラウドの複雑さと導入の急ぎがセキュリティリスクをもたらすと専門家は言う

オンプレミス システムと並行してホスト型クラウド コンピューティング インフラストラクチャを急いで導...

分散フレームワークを読んで、知っておくべきNIOの基本的な知識

[[397718]]この記事はWeChatの公開アカウント「KK Architect」から転載したも...

SEO 最適化のどの詳細が最適化作業の促進に役立ちますか?

ご存知のとおり、ウェブサイトの最適化は細部にこだわった仕事です。多くの場合、ウェブマスターとしてウェ...

SEOスタジオのいくつかの開発方向の簡単な分析

1年前と比べて、SEO業界の競争はますます激しくなっています。インデックスの低い商業用語の多くは、数...

Intel Itanium Tukwilaの遅延の背景

2 週間前、Intel は Tukwila クアッドコア Itanium プロセッサの発売を再び 2...

.CC ドメイン名が再び世間の注目を集め、新たなトレンドとなっています。その理由が明らかになりました。

「.CC ドメイン名を登録すると富と名誉と天下が得られる」という見方は妥当でしょうか? 過去を振り返...

2018 年に適したウェブサイトとはどのようなものでしょうか?良いウェブサイトをいくつか共有する

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています私は 7 ...