TFの使用

TFの使用

TF-IDF アルゴリズムは、多くのプロの SEO ワーカーによく知られています。これは、情報検索と情報マイニングによく使用される重み付けテクノロジです。Web ページ分析に適用すると、Web ページ内の関連キーワードに重み付けし、多くの Web ページ内の特定のキーワードの関連 Web ページ キーワードの重みを分析し、最終的なソート アルゴリズムに科学的根拠を提供します。

まず、TF*IDF の式を見てみましょう: TF*IDF 値 = TF×IDF(TF に IDF を掛けたもの) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。なぜこの式を分析する必要があるのでしょうか? ウェブページの TF-IDF 値が大きいほど、ウェブページ内のテキストコンテンツとインデックス用語の関連性が高くなり、検索エンジンで得られる重みが高くなり、その後のウェブページのランキングに大きなサポートを提供できます。

TF*IDF では、TF 用語頻度は文書に出現する用語の頻度を指しますが、IDF 逆文書頻度は、用語 t を含む文書の数が少ないほど IDF が大きく、用語 t のカテゴリ差別化能力が優れていることを意味します。IDF は、IDF(t) = log(N / DF(t)) と表すことができます。 DF(t)は特定の検索語(tで表される)を含む文書の数を表し、Nはインターネット上のWebページの総数を表します。

これらの概念を完全に理解するのは難しいので、明確に理解できるように例を挙げてみましょう。

TF-IDFを使用して「SEO診断」のランキング現象を説明する

たとえば、「SEO 診断」というキーワードの Web ページのランキングでは、上位 10 位以内の 3 つの Web サイトでこのキーワードに関連するいくつかの単語の頻度表示分析を確認します。

2つ目はA5のSEO診断で、「SEO」と「診断」の単語頻度はそれぞれ41と46で、「SEO診断」の単語頻度は20です。

3位のウェブサイトは長沙の会社です。「SEO」と「診断」の単語頻度はそれぞれ12と4で、「SEO診断」の単語頻度は1です。

私のブログ「Smelling the Rose」は 10 位にランクされています。この Web サイトでは、「SEO」の単語の頻度が最も高く、84 に達しています。また、「診断」の単語の頻度は 7 で、「SEO 診断」の単語の頻度は 4 です。

検索結果には「SEO診断」に関連するページが約153万件表示されています。Baiduにおける「SEO」と「診断」の上限は約1億件なので、N=1兆となります。したがって、3 つの Web ページ上の 3 つのキーワードの TF*IDF 値は次のように計算されます。

1.まず3つの単語のIDF値を計算します。

SEO: IDF = log(N / DF(t)) = log(10000/1) = 4

診断: IDF = log(N / DF(t)) = log(10000/1) = 4

SEO診断: IDF = log(N / DF(t)) = log(10000/0.015) = 7-log15≈6

2. 3つの単語のTF値を計算します。

3つのサイトのキーワードSEOのTF値は次のとおりです。

長沙:TF = log(TF(t,d)) = log12≈1.1

A5: TF = log(TF(t,d)) = log41≈1.64

バラの香りを嗅ぐ: TF = log(TF(t,d)) = log84≈1.92

3つのステーションのキーワード診断のTF値:

長沙:TF = log(TF(t,d)) = log4≈0.63

A5: TF = log(TF(t,d)) = log46≈1.68

バラの香りを嗅ぐ: TF = log(TF(t,d)) = log7≈0.84

3つのサイトのキーワードSEO診断のTF値:

長沙:TF = log(TF(t,d)) = log1 = 0

A5: TF = log(TF(t,d)) = log20≈1.45

バラの香りを嗅ぐ: TF = log(TF(t,d)) = log4≈0.63

3. 3つのサイトの3つの単語のTF*IDF値は次のとおりです。

TF*IDF値 SEO診断 SEO診断

長沙駅 5.13.521

A5 ウェブマスターネットワーク 7.567.729.7

バラの香りを嗅ぐ 8.684.464.78

上記の表から、私のブログ「SEO」の TF*IDF 値が最も高く、A5 Webmaster Network の「診断」と「SEO 診断」の TF*IDF 値が最も高いことがはっきりとわかります。

TF*IDF値から算出した相関関係だけで言えば、A5 Webmaster Networkにおける「SEO診断」という単語の順位は最も相関が高く、より良い順位になるはずです。私のブログは両者の間にランクされるはずで(一昨日の順位は確かに両者の間でした)、長沙駅は最後尾になるはずですが、実際の結果とは一定のギャップがあるようです。これは、ウェブサイト全体の重み、個々のウェブページの重みと品質、外部リンク、ユーザーインタラクション(つまり、ユーザーエクスペリエンス)など、ウェブサイトページのランキングには他にも重要な要素があり、これらはすべて考慮する必要があることを示しています。

また、同じウェブサイトのTF*IDF値を比較すると、長沙サイトと私のXixiao Roseブログは、ランキングを上げるためにキーワード「SEO」ランキングに対する要求が高く、「SEO」ランキングが決定的な役割を果たしているのに対し、A5ウェブマスターサイトの「SEO診断」のランキングは決定的な役割を果たしており、キーワード「SEO」ランキングがそのランキング変動に与える影響は小さいです。これには一定の根拠があります。例えば、一昨日、私のブログ「SEO診断」は3位にランクされました。当時、「SEO」というキーワードは10ページ目にランクされていました。現在は23ページ目に落ち、ランキングも10位に下がっています。そのため、TF*IDF研究をさらに活用することで、多くのキーワードランキングの現象を発見し、ターゲットを絞ったSEO最適化戦略を策定することができます。

もちろん、この計算は理想的な状態に基づいていますが、いくつかのSEO現象の原因を説明することもできます。TF * IDFアルゴリズムの基本的な考え方を理解し、それをWebサイトの最適化に適用できれば、Webサイトをより適切に最適化できるはずです。たとえば、私のブログでは、「SEO」という単語がWebサイトのランキングに与える影響を軽減でき、Webページのキーワード「SEO診断」のランキングをより適切に制御できる可能性があります。

この記事は、杭州 SEO (http://www.soxunseo.com) Soxun Network 編集者の Xu Ziyu によって公開されました。転載を歓迎します。転載の際は、このリンクを残してください。ご協力ありがとうございます。

元のタイトル: TF の使用

キーワード: 使用、TF、IDF、説明、SEO、診断、ランキング、現象、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ロングテールキーワードをうまく活用すれば、Baiduの重みを簡単に得ることができます。

>>:  無視されているウェブコンテンツの書き方

推薦する

電子商取引業者は愚かなほどマーケティングに熱中するのをやめるべき

中国は特殊な市場です。当社の製品販売はまさに、製品の本質よりもマーケティングが重要になる段階に達して...

「リンク交換の精神」について私の考えを共有させてください

外部リンク構築に関して、誰もがまず思い浮かべるのは友好的なリンク交換だと思います。リンク交換は、外部...

企業サイトの最適化で注意すべき4つの大きな誤解

ここでは、すべての企業サイト管理者をウェブマスターの階級に含めます。結局のところ、彼らもウェブサイト...

検索エンジンの3つの主要な問題

1. ユーザーの真のニーズは何ですか?検索エンジンのユーザーが入力するクエリは非常に短く、平均クエリ...

できるだけ少ない費用で、できるだけ多くのクラウドを楽しむにはどうすればよいでしょうか?

静止するアプリケーションで不変の情報を頻繁に使用する場合は、静的 Web ページから構築されたアプリ...

ウェブサイトのホームページが降格されたのはなぜですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますXiaox...

ベリー - 年間 6 ドル / 64 MB RAM / 2 GB ハード ドライブ / 150 GB データ フロー / G ポート / フェニックス シティ

EpiDrive 傘下の低価格 VPS ブランドである Berry Servers には、特別価格の...

これはすべて本当ですか?クアッドコア HD4870 X4 シングルカードイメージ

少し前に、私たちはネットユーザーに多くの「偽の」グラフィック カードを公開しました。 PS マスター...

IBMがターボノミックを15~20億ドルで買収へ

最近、IBM は、同社の AIOps 製品を改善するために、アプリケーション リソースとネットワーク...

オンラインコミュニティにおけるユーザー増加のための 5 つの思考モデル

インターネットの部族化は今後の主な傾向であり、インターネット社会学も盛んになるでしょう。従来の意味で...

企業のWeiboマーケティングを成功させるための8つの提案

Weiboマーケティングは必須です。しかし、ほとんどの企業はWeiboアカウントを開設して認証を受け...

クラウド災害サービス: パブリックかプライベートか?

クラウド災害復旧サービスのシナリオごとに、長所と短所があります。災害復旧 (DR) は技術的な決定で...

XiNiX-仮想ホスティング/年間支払い5ドル/cpanel/6シンガポールおよびその他の場所にデータセンターあり

XiNiX™ InfoTech Pvt. Ltd. には安価な仮想ホストがいくつかあり、オプションの...

国家インターネット情報局は31の違法ウェブサイトを閉鎖した。これらのウェブサイトはインターネットニュースサービスの資格を取得していない。

原題: 国家インターネット情報局が31の違法ウェブサイトを閉鎖北京ニュース(記者 江延馨)工業情報化...

本質に立ち返り、ウェブサイトが真にユーザーに役立つようにする

どのような種類のウェブサイトであっても、ウェブサイトとしての基本的な目的は、ユーザーや類似ユーザーが...