SEO最適化におけるTF-IDFアルゴリズムの応用を説明する

SEO最適化におけるTF-IDFアルゴリズムの応用を説明する

TF-idf アルゴリズムは、実際にはユーザー情報の検索や情報マイニングによく使用される加重技術であり、SEO 担当者によってよく使用されます。ただし、最も直感的に理解できるのは「ウェブサイトのキーワード密度」であることを知らない人も多いでしょう。

早速本題に入りましょう。TF-idf アルゴリズムはどのように計算されるのでしょうか?

式:

TF: 単語の出現頻度

IDF: 逆テキスト頻度インデックス

TF-IDF = TF*IDF

例を挙げて説明しましょう。TF 単語頻度は、単語がページに表示される回数を指します。記事の総単語数が 200 で、「ウェブサイトの最適化」という単語が 4 回表示される場合、単語頻度 TF = 4/200、つまり 0.02 になります。

IDF は文書頻度の略で、単語が出現するページ数 (N) と文書の総数 (M) を指します。したがって、IDF=lg(M/N) となります。 「ウェブサイトの最適化」が 2000 ページに表示され、ファイルの総数が 1 億であると仮定すると、ファイル頻度 IDF = lg(100000000/2000) = 4.69897 となり、最終的な TF-IDF = 0.02 * 4.69897 = 0.0939794 となります。

これは、ページの関連性を判断するだけの問題です。SEO ウェブサイトの最適化では、TF-IDF 値を判断してポイントを追加するだけではありません。ページにポイントを追加するには、認識度の高い単語が必要です。たとえば、検索エンジンには 1 兆の Web ページが含まれています。すべてのページには「的、是、中、地、得」などの単語が含まれていると言えます。これらの高頻度単語は、ノイズ ワードまたはストップ ワードとも呼ばれます。検索エンジンはこれらの単語を削除するため、これらの単語の余分な重みは実際には 0 になるはずです。計算式:TF-IDF=log(1兆/1兆)=log1=0。

実際、検索エンジンの検索で重みを計算するときは、「SEO ウェブサイト最適化テクニック」という単語のように、各単語のセグメント化に基づいて計算されます。

前提: SEO ページの検索数は 2,000 万、ウェブサイト最適化の検索数は 1,000 万、スキルの検索数は 5 億

検索エンジンのインデックスの総数は 100 億と推定されます。

www.ruihess.com のページには SEO が 8 回登場し (ページ上の単語総数は 400)、ウェブサイトの最適化が 10 回登場し、テクニックが 16 回登場します。

次に、それぞれの単語の頻度

TF(SEO)=8/400=0.02、

TF(ウェブサイト最適化)=10/400=0.025

TF(スキル)=20/400=0.04

TF(的) = 前述のように、的は重みが 0 の高頻度ストップワードです。

そうすると、「SEO ウェブサイト最適化テクニック」というページを検索した場合の関連性は、TF (合計) = 0.02 + 0.025 + 0.05 = 0.095 になります。

そしてIDF(SEO)=LOG(10000000000/20000000)=2.69897

IDF(ウェブサイト最適化) = LOG(10000000000/10000000) = 3

IDF(スキル)=log(10000000000/100000000)=1.69897

この計算の結果、「SEO ウェブサイト最適化テクニック」という検索に対して各単語がページの重みと関連性に寄与する値は次のようになります。

Tf-idf(seo)=0.02*2.69897=0.0539794

Tf-dif(ウェブサイト最適化)=0.025*3=0.075

Tf-idf(スキル)=0.04*1.69897=0.0679588

このことから、これらのテクニックはより頻繁に登場するものの、SEO やウェブサイトの最適化ほど認知度が高くないため、ページの重みへの貢献はそれほど大きくないことがわかります。

単語の予測力や認識力が高いほど、その単語の重みは大きくなります。逆もまた同様です。「ウェブサイトの最適化」を見ると、そのページが何について書かれているのか大まかに理解できるかもしれませんが、テクニックを見ると、そのページのテーマがよくわからないかもしれません。

もちろん、これは検索エンジンのアルゴリズムのポイントをサポートします。また、Hタグなどのタグを組み合わせて重み付けを改善する必要があり、メインキーワードの周りの単語もポイントを追加します。ここで、周囲とはタグ内の単語を指します。たとえば、SEOウェブサイト最適化テクニックは、主にいくつかの検索エンジン最適化のアイデアの紹介です。

デザイン:www.ruihess.com


元のタイトル: SEO 最適化における TF-IDF アルゴリズムの適用について説明します

キーワード: TF、IDF アルゴリズム、TF の説明

<<:  Hupu Cheng Hang: 垂直型ウェブサイト向けのモバイル インターネットへのチケットを入手する方法

>>:  ポルノグラフィーおよび違法出版物対策国家事務所は8つの典型的な事例を報告し、多くの文学小説のウェブサイトがリストアップされた。

推薦する

コンテナとマイクロサービス技術はセキュリティにどのような影響を与えるでしょうか? (優れた)

[51CTO.com クイック翻訳] クラウドネイティブのアプリケーションとインフラストラクチャには...

「疫病との戦い」から都市統治の近代化まで、デジタルイノベーションが成都ハイテク区をよりスマートにする

中国政府による感染予防・抑制の常態化への対応として、先ほど終了した2回の会議では、感染予防・抑制に関...

集中することが正解です。自分の「小さくて美しい」ウェブサイトを構築する方法についてお話ししましょう。

最近、「小さくて美しい」という言葉が流行っています。タオバオでは、この言葉の普及に力を入れており、多...

Google、人工的なランキングブーストに対抗するためウェブサイトランキングアルゴリズムを調整

北京時間5月17​​日、海外メディアの報道によると、Googleは最近、検索エンジンのウェブサイトラ...

2021 年のクラウド コンピューティングのトップ 10 トレンド

世界のワークロードの94%は、世界をリードするクラウドデータセンターによって制御されるクラウド コン...

ロシアのホスティングプロバイダー: smartape.ru 簡単な紹介、ドメイン名、ホスティング、VPS、サーバー

smartape.ru は 2010 年に設立されたロシアのホスティング会社です。同社の事業には、ド...

馬華クラウド:全品20%オフ、香港cn2クラウドサーバー99元/年、安徽BGPクラウド29元(5M帯域幅付き)

馬華クラウドは、国慶節の休暇中にスーパープロモーションを実施します:(1)香港クラウドサーバー(CN...

他の従来のホスティング技術と比較したクラウド ホスティングの利点は何ですか?

今日の世界では、データは最も貴重なリソースであり、データの保存とセキュリティには多くの実際的な問題が...

オンラインマーケティングをより効率的に行うにはどうすればよいでしょうか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています入札プロモ...

限定版ドイツ VPS: unesty、月額 5 ユーロ、9G メモリ/4 コア (AMD)/75g SSD/1G 帯域幅/無制限トラフィック

unesty は、デフォルトの最小帯域幅 1Gbps、トラフィック無制限、組み込みの DDoS 防御...

Bilibiliの富の夢はどこにあるのでしょうか?

BilibiliでUPホスト/フルタイムUPホストになるとどれくらいのお金を稼ぐことができますか? ...

ウェブサイトの運営に関する私の意見「私はみんなのために、みんなは私のために」

ウェブサイト運営において、最も大切なことは「みんなのためにある」という理念を貫くことです。 「私はみ...

タオバオの誤発注事件からヒントを得たマーケティング計画

今日、オフィスの同僚がタオバオ商品の住所を送ってきました。住所のページには本物のナイキのランニングシ...

ウェブサイトの粘度最適化: 思っている以上に多くのことが必要です

訪問者の粘着性の最適化は、常にサイトの運用プロセスに組み込まれています。なぜなら、サイトにとって、訪...

ハイブリッド クラウドとパブリック クラウド: クラウド コンピューティングの最終形態はどちらでしょうか?

世界最大の 2 つのパブリック クラウド プラットフォームの収益は急増していますが、国際調査機関 R...