検索エンジンは、入力されたクエリに最も一致するページを返そうとするのでしょうか? このことを理解すれば、Google やその他の検索エンジンが複雑なアルゴリズムを使用して、返す結果を決定する理由が理解できるでしょう。 このアルゴリズムの要素には、ページに対する反応の数、いいね! や +1 機能によるソーシャル レコメンデーションなどの「ハード ファクター」があります。これらは通常、外部からの影響とページ自体の要因であり、オンライン要因とオフライン要因を分析することによってのみ、Google は問題のクエリの背後にあるページを特定でき、そのためにページ上のテキストを分析する必要があります。 1. 真か偽か 近年、検索エンジンは急速に発展しましたが、まだブールアルゴリズムしか処理できません。簡単に言えば、long は、真か偽か、つまり 1 か 0 を含むドキュメントです。さらに、演算子 AND、OR、NOT を使用して、複数の条件または除外を含むファイルを検索することもできます。これはかなり単純に聞こえますが、いくつか問題があります。 現在、次のテキストを含む 2 つのドキュメントがあるとします: ドキュメント 1: 「そして、ニューヨークにある私たちのレストランでは、クロケットとビターバレンを提供しています」; ドキュメント 2: 「オランダでは、クロケットとフリカンデレンを壁から取り出します」 検索エンジンを構築したい場合、最初のステップはテキストをトークン化することです。特定の用語がどのドキュメントに含まれているかを素早く識別できるようにしたいのですが、トークンをデータベースに保存すれば簡単に実現できます。トークンはデータベース内の任意の単一の用語を表します。では、Doc1 にはいくつのトークンが含まれているのでしょうか? この質問に答えようと考え始めるとき、いくつかの「用語」を一つずつ考えてみるといいかもしれません。実際、Doc1 では「ニューヨーク」は特別な単一用語として考慮される必要があります。これら 2 つの単語が実際には 1 つの単語であると判断する方法はこの記事の範囲外であるため、現時点ではそれぞれを個別のトークンとして個別に脅威とします。したがって、Doc1 からは 10 個のトークンが、Doc2 からは 11 個のトークンが入っています。データベース内の情報の重複を避けるため、トークンではなくタイプを保存します。 タイプはテキスト上の個別のトークンです。 Doc1 には 2 つのトークン「and」が含まれています。大文字と小文字が区別される AND は 2 回としてカウントされることに注意してください。この例では、「and」と「&」を同じ型として保存できます。 すべての強力なドキュメントが略語に保存されているので、検索エンジンはそれらを見つけることができ、データベース内のブール値の助けを借りて検索することができます。 「croquets」を検索すると、Doc1 と Doc2 の両方から結果が返されますが、「croquets and bitterballen」を検索すると、Doc1 からの結果のみが返されます。この場合の問題点は、結果が多すぎたり少なすぎたりする可能性があることです。さらに、それは組織力の欠如の結果です。アプローチを改善したい場合は、ドキュメントのその他の存在/不在を使用し、ページ要素を使用して結果を整理できることを確認する必要があります。 2. インデックス付き 比較的単純なアプローチは、バンド インデックスを使用することです。バンド インデックスを使用すると、Web ページにさまざまな領域を追加できます。タイトル、説明、著者、コンテンツについて考えてみましょう。ドキュメントにコンテンツを追加することで、各ドキュメントの簡単なスコアを計算できます。これは、検索エンジンがページのトピックを判断するために使用するものです。 領域によって重みが異なり、これらの領域の品質によって、検索エンジンのインデックスの SERP における Web サイトのランキングが決まります。たとえば、タイトル(0.4)説明(0.1)コンテンツ(0.5)の場合、次の表に示す値でインデックス付けされたドキュメントがある場合、次の検索クエリ「croquets and bitterballen」を実行します。
SEO 最適化のある時点で、ウェブマスターの友人が説明に割り当てられた重みを乱用し始めたため、Google の本文をさまざまな領域に分割し、各領域に異なる重みを割り当てることがより重要になりました。 インターネットにはさまざまな構造の文書が含まれているため、これをうまく実装するのは非常に困難ですが、XML 文書を使用するとはるかに簡単になります。XML の構造とタグは HTML ファイルよりもはるかに豊富なので、分析が容易になります。もちろん、現在および HTML5 では Google がマイクロフォーマットの一部をサポートする可能性がありますが、それでも制限はあります。たとえば、Google が <content> タグ内のコンテンツと <footer> タグ内のコンテンツに高い重みを割り当てることがわかっている場合は、<footer> タグを使用することはありません。 ページのステータスを判断するために、Google がページを複数のチャンクに分割することは許可されません。これにより、Google はページ上のどのデータ ブロックが重要で、どのブロックが重要でないかを知ることができます。使用できる方法は、テキストとコードの比率を比較することです。ページにさらにテキストが含まれている場合は、HTML コードのメイン コンテンツがページに配置されます。ページ ブロックに HTML コードやリンクが大量に含まれていて、コンテンツ (メニューなど) がほとんどない場合は、適切なエディターを選択することが非常に重要です。一部のエディターでは不要な HTML コードを大量に使用するためです。 テキスト/コード比率の使用は、検索エンジンがページをチャンクに分割するために使用できる方法の 1 つにすぎません。インデックス化されたアプローチの利点は、各ドキュメントのスコアを簡単に計算できることです。もちろん、欠点は、多くのファイルが同じスコアを取得する可能性があることです。 元の記事は、http://www.thebaiduseo.cn/news-19.html のウェブマスターによって最初に公開されました。転載する場合は、有効なリンク アドレスをそのままにしておいてください。ありがとうございます。 元のタイトル: 検索エンジンの基本アルゴリズムは、返される結果をどのように決定しますか? アルゴリズム分析 キーワード: 検索、エンジン、基本、アルゴリズム、決定方法、戻り、結果、計算、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: 百度が360度に反撃:奇虎検索ユーザーにアクセスを促す
>>: 釣魚島防衛事件におけるポジショニングの観点からSEOの限界について簡単に議論する
今日、私はテクノロジーを共有したり、初心者と話したりするためにここに来たわけではありません。私はこの...
imidc は日本の独立サーバー向けに特別プロモーションを実施しています。元々 159 ドルだったマ...
COVID-19パンデミックは、新たな技術やビジネスの発展をほとんど生み出していませんが、すでに進行...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています今日、イン...
[[327793]]いくつかの一般的なフロントエンド パフォーマンス最適化ソリューションには、現在で...
Baidu の動きは、常に SEO 担当者の研究の方向性となってきました。最近、Baidu は、いく...
1. 「ダブルイレブン」戦争が始まり、電子商取引と速達便が戦闘準備完了今週の日曜日、11月11日の国...
地元の人材ウェブサイトは、雇用や採用を促進するための優れた基盤を築いてきましたが、雇用圧力が高まるに...
マンゴーTVの2013年最後の番組「パパ、どこ行くの?」は、年末に大ヒットとなった。有名人の父と息子...
うまく運営されている個人の映画ウェブサイトは、大量のデータがあるため、確かに多くのトラフィックをもた...
エッジ コンピューティングは現在、テクノロジー業界のあらゆる分野の企業顧客に販売されていますが、「パ...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています企業にとっ...
SEO やオンライン マーケティングはますます難しくなってきているとよく聞きます。実際、インターネッ...
新年を迎え、すべてが一新されました。2019年1月の中国のモバイルインターネットアプリのリストが発表...
ショッピングカートは、ほとんどのB2C電子商取引製品の標準機能です。プラットフォームの観点から見ると...