Baidu のオリジナル Spark Project 検索エンジンが重複コンテンツを識別する方法

Baidu のオリジナル Spark Project 検索エンジンが重複コンテンツを識別する方法

百度検索エンジンは、インターネットの情報内容を是正するために、「百度オリジナルスパーク計画」を大規模に開始しました。この計画を強力に実行するために、関連する特別ページを設立し、高品質のサイトをスパーク計画に参加するよう招待しました。今は「重複コンテンツ」や「ジャンクコンテンツ」が溢れる時代です。Spark プロジェクトの検索エンジンはどのようにして重複コンテンツを識別するのでしょうか?

検索エンジンは、ユーザーに高品質のコンテンツを提供するために、ユーザーが関連コンテンツを検索したときに、大量の重複結果を表示するのではなく、いくつかのフィルタリング メカニズムを使用して重複コンテンツを除外します。Web サイトに大量の重複コンテンツがある場合、検索エンジンのフィルタリング プロセス中に Web サイトに影響する可能性があります。

検索エンジンは、サイトのコンテンツをクロールする前に、すでにページを事前にクロールしています。Web サイトに重複ページが多数ある場合、スパイダーはこれらのページを 1 つずつ検索します。返された結果はフィルタリングされますが、サイト ページをクロールするためのスパイダーの予算は無駄になり、スパイダーが他の高品質のページをクロールする機会が減少します。重複ページは Web サイト全体の重量を分散させるため、スパイダーが取得できる意味のあるページの数も減少します。

ウェブマスターは、検索スパイダーがどのバージョンの重複ページをクロールするかを判断できず、検索エンジン自体も指示をクリアできません。スパイダーが返すページは、ユーザーの検索ごとに異なる場合があり、既存の重複ページにも異なる偏りがある可能性があります。ユーザーが検索したときに返されるページは、最も返されるページですか?最高のトラフィックコンバージョン率をもたらすことができますか?これらはすべて未知数です。重複ページの重みの分散を減らすには、ロボットファイルへの組み込みをブロックするか、重みを転送するための正規タグを追加します。

上記で分析したように、重複コンテンツはスパイダーのクローリングに影響します。同時に、インターネット エコシステムの公正かつ健全な発展と、高品質のオリジナル サイトの共同利益を確保するため、検索エンジンは、重複サイト、不正なサイト、スパム サイトを罰し、収集ステーションによって奪われるオリジナル コンテンツの価値を低下させます。検索エンジンはそのような発言をしていますが、重複コンテンツをどのように識別するのでしょうか?

重複コンテンツは、異なるサイトまたは同じウェブサイト上で発生する可能性があります。最適化されていない SEO 最適化 CMS システムでは、ウェブサイト上に同じページにアクセスできる URL アドレスが複数存在する可能性があります。これも重複コンテンツです。スパイダーはこのような状況に遭遇すると、どのページが重要なページであるかを判断します。まず、ロボット ファイルからクロール禁止のアドレスがあるかどうかを確認します。ある場合、重複ページのアドレスのクロールを停止します。ない場合は、コンテンツのクロールを続行します。クロール中に、noindex のあるこれらのページはスパイダー向けに準備されていないことを示すメタ タグに遭遇します。この場合、スパイダーは重複したページをクロールし続けないため、スパイダーのクロールの難易度が下がります。重複コンテンツであっても、スパイダーは価値のあるバージョンのみをクロールします。

Baidu の Spark Plan では、ウェブマスターの皆様にオリジナル サイトへの参加を呼びかけています。あなたのサイトがこの Web サイト上で初めてのものであり、コピーや模倣ではなく、独自のコンテンツと形式を持ち、社会的合意価値を持つリソースであり、関連する国家規制に準拠しており、二次的ロードや疑似オリジナルではない場合、Baidu オリジナル Spark Plan サイトにサイトを送信できます。この方法により、サイトの重みが高くないため、サイトのコンテンツが重みの高いウェブサイトによって転載された後、スパイダーは転載されたサイトをオリジナルコンテンツであると認識し、自分のサイトは実際には転載収集サイトである、という問題を軽減できます。

検索エンジンは、ウェブサイトのコンテンツがオリジナルかどうか、また重複コンテンツのページのうちどのページがオリジナルページであるかをどのように判断するのでしょうか。これは、これまでどの検索エンジンも発表したことのないアルゴリズムです。しかし、婁迪人材網(http://www.0738rc.com)は、百度の公式データから、「オリジナル」ラベルの付いたウェブサイトについて、オリジナルスパークプランの開始前後のトラフィックを比較したところ、オリジナルURLのトラフィックが大幅に増加したことを知りました。同時に、オリジナルスパークプランの発売後、オリジナルURLのトラフィックが大幅に増加し、徐々に安定しました。ウェブサイトがBaiduオリジナルプランに参加できれば、ウェブサイトのトラフィックを増やすのに大いに役立つことがわかります。


元のタイトル: Baidu のオリジナル Spark Project 検索エンジンが重複コンテンツを識別する方法

キーワード: Baidu、オリジナル、Spark、計画、検索、エンジン、方法、重複の特定、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ユーザーエクスペリエンスを無視すると、ウェブサイトは消滅する

>>:  WeChat 5.0 による企業の成功の秘訣

推薦する

「SDK+運用強化」:Mobはアプリの安定した開発と反復を全面的にサポートします

[51CTO.comよりオリジナル記事] 2018年11月23日から24日にかけて、上海でGIAC ...

優れたコピーを書くにはどうすればいいでしょうか?まずこの4つの要素をマスターしましょう

初心者が優れたコピーを書くにはどうすればいいでしょうか?この記事の著者は、コピーライティングの要素を...

VMwareのサービス定義ファイアウォールは各仮想マシンに合わせてカスタマイズされており、セキュリティは受動的ではなくなります。

[51CTO.com からのオリジナル記事] ビッグデータとクラウドコンピューティングの応用により、...

動画ウェブサイトの新たな活路?自社制作ドラマの社内外派生マーケティング

動画ウェブサイトにとって最大の悩みの種は、コンテンツと収益性です。コンテンツがあればユーザートラフィ...

URL構造の最適化におけるよくある2つの誤解の分析例

サイトの包含ランキングは、競争の激しい Web 業界でサイトが生き残れるかどうかに関係します。サイト...

【年】海外でも使いやすく、購入しやすく、価格も手頃な#高防御サーバー#おすすめ

この記事では海外の「高防御サーバー」について解説します!サーバーが攻撃され、国内の高防御サーバーが使...

#CheapServer# chicagovps-シカゴ/ニューヨーク/ロサンゼルス、サーバーセール

多くの人が知っている、ColoCrossing の独自ブランドである ChicagoGoVPs 。主...

ウェブサイトをキャンセルするのは非常に困難です。15のウェブサイトのうち40%がプライバシーを保護していません

法制晩報(記者:李松平英英一多)オンラインショッピングをした後、第三者のプロモーション情報が届き、ホ...

従来のオンライン採用に「打ち解けて」適応する方法

Weibo、SNS、モバイルインターネットなどの新しい形態の出現により、伝統的なインターネットモデル...

Kafka はなぜこんなに速いのでしょうか?

ソフトウェア アーキテクチャの分野はここ数年で劇的に変化しました。すべてのシステムが単一のデータベー...

書道ウェブサイト: 熟達せずに何百もの反応を引き出すことはできるのでしょうか?

ビジネスを始めるにしても、ウェブサイトを構築するにしても、私たちの先人たちが与えてくれたアドバイスは...

Pacificrack: 中秋節フラッシュセール、複数の高構成 VPS が年間 13.15 ドルから

中秋節期間中、Pacificrack は VPS フラッシュセールを開始しました。多くの高構成 VP...

キーワードSEOフォーラムで2位にランクインした私の経験を共有します

私は実に感動しています。SEO インタラクティブ フォーラムの成功体験を皆さんと共有したいと長い間思...

ブランドマーケティングの5つの基本理解

ブランドに関しては、専門家が 1,000 人いれば 1,000 通りの定義があります。成熟した心は異...

SEO 作業に関する哲学的思考と組み合わせた考察

著者は数年にわたり SEO に携わっており、主に SEO に関する記事、ビデオ、トレーニングから S...