検索エンジンによるキーワードスタッフィングの認識

検索エンジンによるキーワードスタッフィングの認識

検索エンジンと検索エンジン最適化 (SEO) は、常に矛盾した関係にあります。適切な最適化は、検索エンジンが Web サイトのコンテンツを識別し、Web サイトの宣伝に役立ちます。しかし、良い面と悪い面があります。SEO 担当者の中には、含まれるページ数やページランキングを上げるために、さまざまな欺瞞的な手段を使って検索エンジンを欺く人もいます。

初期の SPAM 不正行為の 1 つは、ソフトウェアを使用して中国語の語彙から単語をつなぎ合わせて記事を作成することでした。このような記事には実用的な意味はなく、検索エンジンでしか見ることができませんでした。では、検索エンジンはどのようにしてそのような記事を識別するのでしょうか?

すべての検索エンジンには、Web ページの品質を監視する部門があることは周知の事実です。Baidu のような手動処理を伴う検索エンジンの場合、ユーザーがそのような Web サイトを見つけて Baidu に苦情を申し立てると、Baidu は単にその Web サイトをブロックします。しかし、サイトのブロックを自動的に処理する Google などの検索エンジンにとっては、キーワード スタッフィングの不正行為を特定することがさらに重要です。

キーワードスタッキングの不正行為を特定するために、検索エンジンは通常、統計分析手法を使用します。

検索エンジンはまずウェブページを単語に分割します。分割が完了すると、単語数 N​​ と記事の長さ L が得られます。多数の記事の統計から、記事の長さ L と単語数 N​​ の間には一定の分布関係があることがわかります。一般的に言えば、L/N は 4 から 8 の間であり、平均はおよそ 5 から 6 の間です。つまり、1000バイトの長さの記事には、125〜250個のトークンが必要です。中国語と英語の単語の構成は一貫していないため、この比率の範囲は英語と中国語で異なります。検索エンジンが L/N が極端に大きいと判断した場合、その記事にはキーワード スタッフィングがあります。L/N が極端に小さい場合、その記事はいくつかの単語で構成された意味のない記事である可能性があります。著者は、mud embryo 記事でさまざまな著者が公開した記事を確認しましたが、基本的にすべてこの比率の範囲に従っています。

さらに、多数の通常の記事の統計を通じて、記事内で最も密集しているキーワードの出現回数の合計は、N/Lと一定の分布関係にあることがわかりました。検索エンジンは、Webページ内の分布と統計結果の分布グラフを比較して、記事にキーワードスタッキング現象があるかどうかを判断できます。

さらに、検索エンジンはストップワードの割合に基づいて記事が自然な記事であるかどうかも判断します。ストップワードとは、「的」、「我」、「是」など、記事でよく使用される単語またはフレーズです。記事内のストップワードの割合が通常の範囲外である場合、Web ページを Web 品質監視部門に送信してレビューを受ける必要があります。

もちろん、Web ページと自然言語の記事を比較して分析し、記事が自然な記事であるかどうかを判断できるアルゴリズムは他にもあります。

「悪魔は1フィート高いが、道は10フィート高い」ということわざがあります。一部の不正行為者は、単語で記事を作成する不正行為の方法をあきらめ、代わりに文章で記事を作成する不正行為の方法を使用しています。不正行為者は、クローラーまたはその他の手段を使用してオンラインの記事から文章を取得し、ソフトウェアを使用して数十の記事から特定の文章を1つの記事につなぎ合わせます。これには、検索エンジンが意味解析を実行して不正行為があったかどうかを判断する必要があります。ただし、意味解析の研究はまだ研究段階にあり、これは次世代のインテリジェント検索エンジンの方向性でもあります。

しかし、自動記事生成を単純に否定することはできません。人工知能ベースの記事生成は、人間が自らの言語と知能を研究するための重要な方向性です。不正行為と不正行為防止は、人工知能に関する人間の研究を促進するでしょう。

最終的にソフトウェアが人間が理解できる記事を生成できる場合、これはスパムでしょうか、それとも本質でしょうか?十分にインテリジェントではない既存の RSS 集約記事は間違いなくスパムであると断言できますか?しかし、このような記事が大量に出現した場合、私たちはこの現象にどう対処すればよいのでしょうか。

参考文献: Lu Liang および Zhang Bowen 著「検索エンジンの原理、実践、応用」(2007 年)

原題: キーワードスタッキングの検索エンジン認識

キーワード: 検索エンジン

<<:  Beida Jade Bird 検索エンジン広告戦略のケーススタディ

>>:  適切な SEO 会社を見つけるための 7 つのステップ

推薦する

データマイニングの観点からウェブサイトのユーザーエクスペリエンスを向上させる

ウェブサイトのユーザーエクスペリエンスを向上させ、ユーザー満足度を高めるには、多くのことを行う必要が...

ZStack はどのようにしてハイブリッド クラウドの災害復旧を実現するのでしょうか?この記事を読めば分かるだろう

[51CTO.com からのオリジナル記事]この記事では、ZStack ハイブリッド クラウド ディ...

Kubernetes 制御プラットフォームを保護するための 10 のヒント

翻訳者 |李睿レビュー |チョンロウ51CTO 読者成長計画コミュニティ募集、コンサルティングアシス...

5Gとエッジコンピューティングの発展の展望

技術革新に伴い、5G とエッジ コンピューティングへの関心が高まっていますが、IT リーダーは決定を...

2016年第1四半期オムニチャネルユーザーランキング:店舗、ブラウザ、動画、ライブ放送、ソーシャルメディア!

最近、権威あるデータ会社QuestMoblieが2016年春のAPPランキングを発表しました。この長...

PTC: SaaS の道を歩み続け、デジタル技術で現実を変える

[51CTO.com からのオリジナル記事] 2019 年、PTC は Onshape を買収し、製...

初心者ウェブマスターのオンライン収益と SEO に関する理解

私は新人であり、ウェブマスターでもあるので、私は新人ウェブマスターですウェブサイトを構築する目的は、...

Yuehuai SEO: アンカーテキストを使用して高品質の外部リンクを作成するためのヒントについて簡単に説明します

ウェブサイトの最適化は、オンサイト最適化とオフサイト最適化の 2 つの側面に分かれています。その中で...

QuadraNet - $39/Q9300/8g メモリ/2x147gSAS/10T トラフィック/ロサンゼルス

QuadraNet データ センターには、100M ポート、月間 10T のトラフィック、ロサンゼル...

ウェブサイトがブロックされ、ダウングレードされる問題を解決する方法

K-ed またはダウングレードされたウェブサイトを回復するにはどうすればよいでしょうか。ほとんどの人...

入札プロジェクトはどのようにして複数のチャネルを通じてプロモーション情報を取得できますか? (パート2)

前回の記事「入札促進のための情報源をどうやって入手するか?」に引き続き、 》 3. 垂直フォーラムの...

外部リンクを取り締まり、ソフトな記事の外部リンクを構築するリスクを回避するという百度の決意に注目してください

プロモーションソフト記事は、ウェブサイトにとって最も費用対効果の高いマーケティング手法です。しかし、...

新世代のクラウドネイティブログアーキテクチャの設計と実践 - Loggie

オープンソースの詳細については、以下をご覧ください。 51CTO オープンソース基本ソフトウェアコミ...

EIGの3つの主要ホスティングブランドが仮想ホスティングを50%割引で提供

EIG の 3 つの主要ホスティング ブランド (netfirms.com、domain.com、m...