検索エンジンによるキーワードスタッフィングの認識

検索エンジンによるキーワードスタッフィングの認識

検索エンジンと検索エンジン最適化 (SEO) は、常に矛盾した関係にあります。適切な最適化は、検索エンジンが Web サイトのコンテンツを識別し、Web サイトの宣伝に役立ちます。しかし、良い面と悪い面があります。SEO 担当者の中には、含まれるページ数やページランキングを上げるために、さまざまな欺瞞的な手段を使って検索エンジンを欺く人もいます。

初期の SPAM 不正行為の 1 つは、ソフトウェアを使用して中国語の語彙から単語をつなぎ合わせて記事を作成することでした。このような記事には実用的な意味はなく、検索エンジンでしか見ることができませんでした。では、検索エンジンはどのようにしてそのような記事を識別するのでしょうか?

すべての検索エンジンには、Web ページの品質を監視する部門があることは周知の事実です。Baidu のような手動処理を伴う検索エンジンの場合、ユーザーがそのような Web サイトを見つけて Baidu に苦情を申し立てると、Baidu は単にその Web サイトをブロックします。しかし、サイトのブロックを自動的に処理する Google などの検索エンジンにとっては、キーワード スタッフィングの不正行為を特定することがさらに重要です。

キーワードスタッキングの不正行為を特定するために、検索エンジンは通常、統計分析手法を使用します。

検索エンジンはまずウェブページを単語に分割します。分割が完了すると、単語数 N​​ と記事の長さ L が得られます。多数の記事の統計から、記事の長さ L と単語数 N​​ の間には一定の分布関係があることがわかります。一般的に言えば、L/N は 4 から 8 の間であり、平均はおよそ 5 から 6 の間です。つまり、1000バイトの長さの記事には、125〜250個のトークンが必要です。中国語と英語の単語の構成は一貫していないため、この比率の範囲は英語と中国語で異なります。検索エンジンが L/N が極端に大きいと判断した場合、その記事にはキーワード スタッフィングがあります。L/N が極端に小さい場合、その記事はいくつかの単語で構成された意味のない記事である可能性があります。著者は、mud embryo 記事でさまざまな著者が公開した記事を確認しましたが、基本的にすべてこの比率の範囲に従っています。

さらに、多数の通常の記事の統計を通じて、記事内で最も密集しているキーワードの出現回数の合計は、N/Lと一定の分布関係にあることがわかりました。検索エンジンは、Webページ内の分布と統計結果の分布グラフを比較して、記事にキーワードスタッキング現象があるかどうかを判断できます。

さらに、検索エンジンはストップワードの割合に基づいて記事が自然な記事であるかどうかも判断します。ストップワードとは、「的」、「我」、「是」など、記事でよく使用される単語またはフレーズです。記事内のストップワードの割合が通常の範囲外である場合、Web ページを Web 品質監視部門に送信してレビューを受ける必要があります。

もちろん、Web ページと自然言語の記事を比較して分析し、記事が自然な記事であるかどうかを判断できるアルゴリズムは他にもあります。

「悪魔は1フィート高いが、道は10フィート高い」ということわざがあります。一部の不正行為者は、単語で記事を作成する不正行為の方法をあきらめ、代わりに文章で記事を作成する不正行為の方法を使用しています。不正行為者は、クローラーまたはその他の手段を使用してオンラインの記事から文章を取得し、ソフトウェアを使用して数十の記事から特定の文章を1つの記事につなぎ合わせます。これには、検索エンジンが意味解析を実行して不正行為があったかどうかを判断する必要があります。ただし、意味解析の研究はまだ研究段階にあり、これは次世代のインテリジェント検索エンジンの方向性でもあります。

しかし、自動記事生成を単純に否定することはできません。人工知能ベースの記事生成は、人間が自らの言語と知能を研究するための重要な方向性です。不正行為と不正行為防止は、人工知能に関する人間の研究を促進するでしょう。

最終的にソフトウェアが人間が理解できる記事を生成できる場合、これはスパムでしょうか、それとも本質でしょうか?十分にインテリジェントではない既存の RSS 集約記事は間違いなくスパムであると断言できますか?しかし、このような記事が大量に出現した場合、私たちはこの現象にどう対処すればよいのでしょうか。

参考文献: Lu Liang および Zhang Bowen 著「検索エンジンの原理、実践、応用」(2007 年)

原題: キーワードスタッキングの検索エンジン認識

キーワード: 検索エンジン

<<:  Beida Jade Bird 検索エンジン広告戦略のケーススタディ

>>:  適切な SEO 会社を見つけるための 7 つのステップ

推薦する

360検索エンジンのリリースはBaiduの8.23メジャーアップデートにつながるでしょうか?

8月16日、360検索エンジンがひっそりとリリースされました。わずか数日で大反響を呼び、インターネッ...

アリババDAMOアカデミーヤングオレンジ賞「ハードコア10人」受賞者が発表、鍾南山が若手科学者に激励の言葉を送る

9月9日、2020年度アリババDAMOアカデミーヤングオレンジ賞の受賞者が発表され、梁文華氏と他の1...

Webmaster.com からの毎日のレポート: Sina Weibo の開設が加速。中国のドメイン名は独立して運営されている

1. iOSアプリは65万に達し、Androidアプリの数もそれに迫っている7月25日、アップルは第...

クラウドセキュリティ: 攻撃者の一歩先を行く

クラウド セキュリティは現在、あらゆる主要なデジタル変革の取り組みにおいて重要な役割を果たしており、...

垂直型電子商取引は価格体系の崩壊に見舞われるか、大規模な破産を引き起こす可能性がある

買収を模索していたWeimianとRedbabyの最近の閉鎖から判断すると、JD.comのCEOであ...

Inspur Cloudは、政府機関や企業の顧客がデジタル変革を実現できるよう、分散型クラウドの構築を目指しています。

企業のデジタル変革が加速するにつれ、デジタルベースのビジネスアプリケーションシナリオはますます複雑に...

第7回中国クラウドコンピューティング標準およびアプリケーション会議が開催されます

【51CTO.comオリジナル記事】中国電子技術標準化研究所が主催し、51CTOが主催する「第7回中...

百科事典ウェブサイトにおけるソーシャルメディアマーケティングの考慮事項

百科事典のウェブサイトは、中国でよく使われる百度百科事典、滬東百科事典、索想百科事典など、通常、より...

#黒5# itldc: 無制限トラフィックの VPS、45% 割引、米国/シンガポールの 9 つのデータセンター、年間 14.8 ユーロから

ブルガリアの老舗企業(創業24年)であるItldcは、シンガポールや米国ロサンゼルスを含む世界9か所...

新規ユーザー獲得: アプリプロモーションのための 10 種類の共通チャンネル分類と 100 種類のチャンネル概要

現在、アプリのプロモーションはますます難しくなってきており、適切なチャネルを選択することが非常に重要...

タオバオはもう一つの「必殺技」を繰り出したと噂されている。超低価格商品の価格を緊急に引き下げるというものだ。

8月16日、ある販売業者は易邦電力網に独占的に、800元引きなどの低価格プロモーションプラットフォー...

SEO を改善するための検索エンジンスパイダーの詳細な分析

検索エンジン スパイダーは、検索エンジン自体のプログラムです。その機能は、Web サイトの Web ...

草の根宣言: 大物の前では決して諦めない!

序文ネットユーザーの中には、ペンネームを考えたらどうかと提案する人もいるので、自分をXinchenと...