オリジナルのSparkプロジェクトによるスパムの識別と処理

オリジナルのSparkプロジェクトによるスパムの識別と処理

BaiduがオリジナルのSpark Planを発表し始めてから、ウェブサイトのコンテンツの品質が非常に重要になり始めました。逆に、ウェブサイトのコンテンツの質が非常に低い場合、ウェブサイトの成長と将来に大きな悪影響を及ぼします。したがって、現在のウェブマスターにとって、この危機を効果的に回避するために、できるだけ早くウェブサイト上のスパムコンテンツを特定して対処することが重要です。実際、第2世代のGreen Radish Algorithmのリリース後、大多数のウェブマスターに一定のバッファ時間を与えているため、ウェブサイト上のスパムコンテンツをクリーンアップすることが非常に重要になっています。

ウェブサイトのスパムの特定

現在、ウェブサイト上のスパムコンテンツについては、2つの一般的な認識があります。1つは、ウェブサイト上の大量の重複コンテンツと盗作コンテンツです。多くのウェブマスターがこの点に同意すると思いますが、一部のウェブマスターの友人にとって、これは絶対的ではありません。なぜなら、実際には、転載された高品質の記事の一部は、ウェブサイトに一定のプラス効果をもたらすからです。少なくとも、ユーザーは最新の情報を近くで入手できるようになります。したがって、一部の転載記事も必要であり、必ずしも完全にクリーンアップする必要はありません。

もう一つのポイントは、ウェブサイトには大量の盗作ソフト記事が掲載されており、これらのソフト記事では、一部のダイエット商品や**ソフト記事など、偽の商品を販売しているということです。ウェブサイトにこのようなコンテンツがある場合、Baiduに好まれず、スパムと判断されることがよくあります。

この2点以外にも、実はジャンクコンテンツと推定できるコンテンツが他にもあると私は考えています。それは、一部のウェブサイトでランダムに作成される、高品質な疑似オリジナルコンテンツです。これらの疑似オリジナルコンテンツは、一見オリジナルに見えますが、言葉が意味を表さず、記事も短いです。ユーザーは基本的にそのページに留まらず、開いたらすぐに閉じてしまいます。明らかにクリックベイトの疑いがあるタイトルで、このようなコンテンツは完全にジャンクコンテンツと推定できます。友人の中には、ウェブサイトのスパムコンテンツは訪問回数で判断できると考える人もいます。これは、Green Radish Algorithm が登場する前は役に立ったかもしれません。第 2 世代の Green Radish Algorithm のインテリジェンスは大幅に向上したため、訪問回数はもはや絶対的な要素ではありません。

なぜなら、一部のスパムコンテンツには、明らかにクリックベイトのタイトルが疑われるものが多いからです。コンテンツ自体は極めて質が悪いのですが、ユーザーの世界観を壊すタイトルがあるからこそ、ユーザーのクリックを引き付けることができるのです。しかし、基本的にこうしたユーザーは滞在時間が短いです。この点から見ると、訪問数は少なくありませんが、そのようなクリックベイトコンテンツが高品質であることを証明することはできません。

スパムコンテンツを削除する方法

ウェブサイトのスパムコンテンツが多ければ多いほど、ウェブサイトに多大な悪影響を与える可能性が高くなります。ウェブマスターが第 2 世代の Green Radish アルゴリズムによってウェブサイトを整理する時間枠が完全に終了する前に、ウェブマスターはウェブサイト上のスパムコンテンツを速やかに処理する必要があります。具体的な方法は 3 つあります。1 つはブルート フォース削除です。これは最も単純で直接的な方法ですが、ウェブマスターがウェブサイトのコンテンツをたどる必要があり、時間がかかります。 2 つ目の方法は、ロボット プロトコルを使用して特定の列をブロックし、検索エンジンによるクロールを防ぐことです。たとえば、スパム領域やソフト テキスト領域のコンテンツにはジャンク コンテンツが集中しています。列を直接ブロックすることで、コンテンツをすばやく削除できます。

最後のポイントは、再編成されたウェブサイトを再び検索エンジンに送信し、検索エンジンがコンテンツを整理した後のウェブサイトを感じ取り、検索エンジンがそれを再認識して重み付けできるようにすることです。これにより、大量のスパムコンテンツが原因でウェブサイトの評価が下がるという危険な状況を効果的に回避できます。この記事の出典:http://www.zgmrrcw.com 中国美才網が最初にA5で出版しました。原著は転載しにくいので、リンクをそのままにしておいてください。ありがとうございます!


元のタイトル: 元の Spark プロジェクトによるスパム コンテンツの識別と処理

キーワード: オリジナル、Spark、計画、ジャンク、コンテンツ、識別、処理、Baidu、開始、発表、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  百度が医療業界を抑圧する理由について簡単に議論する

>>:  オリジナルコンテンツ VS ユーザーエクスペリエンス: 優れたコンテンツとは?

推薦する

Google Play の 2015 年のベスト ゲームとアプリが発表されました

今年も年末がやってきました。毎年恒例の Google Play ストアのベスト アプリ リストが予定...

ウェブマスターネットワークレポート: ウェブサイトの取引が静かに増加、Taobao が検索ソートルールを変更

1.8.15 電子商取引戦争が今日始まる、過去の栄光は二度と戻らないかもしれない8月は太陽が焼けつく...

新しい政策の下で:変革と思考の転換:WeChatマーケティング

2013年はWeChatが爆発的に成長した年だと言えます。WeChat Momentsを開くと、広告...

ガートナー:世界のパブリッククラウドのエンドユーザー支出は2022年に5,000億ドルに近づく

ガートナーの最新予測によると、パブリッククラウドサービスに対する世界のエンドユーザー支出は、2021...

Vultr - 50 ドルの無料 VPS トライアル/Windows

今月初めに、Vultr.com が市場シェアを拡大​​し続けるために 50 ドルを無料で提供したこと...

検索結果で上位にランクインする方法

世界最高のギターのウェブサイトをデザインしている自分を想像してみてください。このサイトには、さまざま...

Godaddy VPS サーバー価格の値下げ

VPS、サーバー 15% オフ 割引コード: fbServer15 は 1/5/ まで有効です。すべ...

サービスメッシュと OpenTelemetry の連携を探る: 分散トレース

この記事が公開された後、一部の読者から javaagent の「非侵入性」についてコメントがありまし...

危機一髪のタオバオマーケティング:一瞬でヒット商品を生み出すメリットとデメリット

この記事も私の個人的な経験に基づいています。タオバオは商売が難しいと言われていますが、その難しさは相...

クラウド コンピューティングの運用と保守がなぜ「高価」になったのでしょうか?

クラウドコンピューティングのビジネスモデルは、IT をサービスとして実現することです。外部であれ内部...

natanetwork: インドネシア VPS、月額 8 ドル、2G メモリ/2 コア/100g ハード ドライブ/無制限トラフィック/1Gbps 帯域幅

インドネシアの会社であるNatanetworkは、インドネシアのVPS(インドネシアのクラウドサーバ...

奇妙なスナップショットのせいでサイトをキックオフしますか?ウェブマスターの皆さん、スナップショットについてよくご存知ですか?

多くのウェブマスターはスナップショットについて異なる感想を持っていると思います。百度の公式サイトはス...

Amazon Web Services: 中国企業の海外進出を支援する6つの機能

近年、デジタル技術の推進により、ますます多くの中国企業が海外事業拡大のペースを加速させています。中国...

SEO トレーニング市場はあなたを救うために何ができるでしょうか?

いつからかは分かりませんが、SEOという3文字が中国のネットユーザーの視野に徐々に入り始めました。い...

中小製造業者は、クラウド コンピューティングの 6 つの主要なコストをどのようにして克服できるでしょうか?

[[205152]]中国におけるクラウドコンピューティングは急速に発展している産業です。業界のプレイ...