検索エンジンと検索エンジン最適化 (SEO) は、常に矛盾した関係にあります。適切な最適化は、検索エンジンが Web サイトのコンテンツを識別し、Web サイトの宣伝に役立ちます。しかし、良い面と悪い面があります。SEO 担当者の中には、含まれるページ数やページランキングを上げるために、さまざまな欺瞞的な手段を使って検索エンジンを欺く人もいます。 初期の SPAM 不正行為の 1 つは、ソフトウェアを使用して中国語の語彙から単語をつなぎ合わせて記事を作成することでした。このような記事には実用的な意味はなく、検索エンジンでしか見ることができませんでした。では、検索エンジンはどのようにしてそのような記事を識別するのでしょうか? すべての検索エンジンには、Web ページの品質を監視する部門があることは周知の事実です。Baidu のような手動処理を伴う検索エンジンの場合、ユーザーがそのような Web サイトを見つけて Baidu に苦情を申し立てると、Baidu は単にその Web サイトをブロックします。しかし、サイトのブロックを自動的に処理する Google などの検索エンジンにとっては、キーワード スタッフィングの不正行為を特定することがさらに重要です。 キーワードスタッキングの不正行為を特定するために、検索エンジンは通常、統計分析手法を使用します。 検索エンジンはまずウェブページを単語に分割します。分割が完了すると、単語数 N と記事の長さ L が得られます。多数の記事の統計から、記事の長さ L と単語数 N の間には一定の分布関係があることがわかります。一般的に言えば、L/N は 4 から 8 の間であり、平均はおよそ 5 から 6 の間です。つまり、1000バイトの長さの記事には、125〜250個のトークンが必要です。中国語と英語の単語の構成は一貫していないため、この比率の範囲は英語と中国語で異なります。検索エンジンが L/N が極端に大きいと判断した場合、その記事にはキーワード スタッフィングがあります。L/N が極端に小さい場合、その記事はいくつかの単語で構成された意味のない記事である可能性があります。著者は、mud embryo 記事でさまざまな著者が公開した記事を確認しましたが、基本的にすべてこの比率の範囲に従っています。 さらに、多数の通常の記事の統計を通じて、記事内で最も密集しているキーワードの出現回数の合計は、N/Lと一定の分布関係にあることがわかりました。検索エンジンは、Webページ内の分布と統計結果の分布グラフを比較して、記事にキーワードスタッキング現象があるかどうかを判断できます。 さらに、検索エンジンはストップワードの割合に基づいて記事が自然な記事であるかどうかも判断します。ストップワードとは、「的」、「我」、「是」など、記事でよく使用される単語またはフレーズです。記事内のストップワードの割合が通常の範囲外である場合、Web ページを Web 品質監視部門に送信してレビューを受ける必要があります。 もちろん、Web ページと自然言語の記事を比較して分析し、記事が自然な記事であるかどうかを判断できるアルゴリズムは他にもあります。 「悪魔は1フィート高いが、道は10フィート高い」ということわざがあります。一部の不正行為者は、単語で記事を作成する不正行為の方法をあきらめ、代わりに文章で記事を作成する不正行為の方法を使用しています。不正行為者は、クローラーまたはその他の手段を使用してオンラインの記事から文章を取得し、ソフトウェアを使用して数十の記事から特定の文章を1つの記事につなぎ合わせます。これには、検索エンジンが意味解析を実行して不正行為があったかどうかを判断する必要があります。ただし、意味解析の研究はまだ研究段階にあり、これは次世代のインテリジェント検索エンジンの方向性でもあります。 しかし、自動記事生成を単純に否定することはできません。人工知能ベースの記事生成は、人間が自らの言語と知能を研究するための重要な方向性です。不正行為と不正行為防止は、人工知能に関する人間の研究を促進するでしょう。 最終的にソフトウェアが人間が理解できる記事を生成できる場合、これはスパムでしょうか、それとも本質でしょうか?十分にインテリジェントではない既存の RSS 集約記事は間違いなくスパムであると断言できますか?しかし、このような記事が大量に出現した場合、私たちはこの現象にどう対処すればよいのでしょうか。 参考文献: Lu Liang および Zhang Bowen 著「検索エンジンの原理、実践、応用」(2007 年) 原題: キーワードスタッキングの検索エンジン認識 キーワード: 検索エンジン |
<<: Beida Jade Bird 検索エンジン広告戦略のケーススタディ
>>: 適切な SEO 会社を見つけるための 7 つのステップ
ウェブサイトの最適化を行う人にとって、ランキングの問題は誰もが死ぬほど心配する問題です。必要な外部リ...
[[424013]] 1. はじめに従来のビッグデータ テクノロジーは、Google の GFS、...
「テクノロジーブログを読んでいますか?」「テクノロジーブログを高く評価していますか?」といった議論が...
多くの人は、安いドメイン名で遊ぶのが好きです。たとえば、複数のアカウントと複数の PayPal アカ...
後発勢力が巨人たちの生存基盤と堀の障壁を脅かすと、必然的に前例のない激しい反撃に直面することになり、...
まもなく創立 20 周年を迎える iwebfusion (2001 年設立の H4Y Technol...
クラウド時代において、新たな国際環境、規制要件、競争状況、ビジネスモデルにより、金融機関は自社の情報...
英デイリーメール紙によると、中国深圳在住でネット名「SexyCyborg」を持つ20代の女性プログラ...
昨年12月、成都市工商局は大規模共同購入サイト(商業共同購入サイトを指す)を是正するための特別キャン...
ZenlayerはすでにUAEデータセンターを立ち上げており、世界で最も豪華な都市であるドバイに位置...
国内のSEO業界の発展は打撃を受け、圧迫されているのでしょうか、それとも別の活路があるのでしょうか?...
モバイルインターネット情報TalkingDataは本日、「2014年モバイルインターネットデータレポ...
SEOER は 2012 年にウェブサイトのトラフィックをどのように増やすべきでしょうか? ウェブサ...
こんにちは、私は鄭歌です。多くの人がこの問題に遭遇すると思います。コンテナは正常に動作していましたが...
今月、zjiは香港のHuaweiクラウドサーバーと同じラインで、Huaweiの香港IPを使用して独立...