オリジナルコンテンツを判断する検索エンジンの盲点

オリジナルコンテンツを判断する検索エンジンの盲点

百度は8月10日、ウェブマスタークリニックのオープンデーを開催した。多くのウェブマスターは、百度が自分のウェブサイトのオリジナルコンテンツを転載と判定し、転載されたウェブサイトをオリジナルと判定しているという問題を指摘した。李氏はまた、ウェブサイト上のオリジナルコンテンツを識別するアルゴリズムは近い将来改善されるだろうと述べた。詳細については、「8 月 10 日の Baidu Webmaster Clinic オープン デーの質問集」をご覧ください。

そして8月11日、Googleは検索結果に大幅な調整を加え、著作権を侵害しているウェブサイトのランキングを下げると発表しました。Googleは著作権者から大量の著作権侵害通知を受け取ると、Google検索結果でそのウェブサイトのランキングを下げることになります。インターネットの最も重要なトラフィックの入り口として、検索エンジンはウェブサイトとユーザーを結びつける役割を担っています。ユーザー、検索エンジン、ウェブサイトは相互に利益のある共生システムとなっています。しかし、検索エンジンにとって難しいオリジナルコンテンツの判断は、ユーザーやウェブサイトにどのような影響を与えるのでしょうか。

ユーザー記事:

ユーザーは長い間、検索エンジンを通じて必要な情報を見つけることに慣れてきました。検索エンジンはユーザーのためのツールであり、ほとんどのユーザーは情報のソースを気にすることはほとんどなく、情報自体が自分のニーズを満たしているかどうかだけを気にします。つまり、大多数のユーザーは、情報の作成者やその情報がどの Web サイトから提供されているかを気にしません。ユーザーが検索エンジンを通じてSinaやSohuなどの大手ウェブサイトにアクセスすると、情報に対する信頼が目に見えない形で強化されます。たとえその情報が大規模なウェブサイトのオリジナルでなかったとしても。

検索エンジン:

検索エンジン サービスの目的は Web サイトではなくユーザーです。検索エンジンの主な役割は、ユーザーに価値のある情報を提供することです。一般ユーザーは情報の独創性に関心がありません。しかし、検索結果の公平性とネットワーク環境全体の秩序を維持するために、検索エンジンは複雑なネットワーク内で独創性と転載を判断する必要があります。検索エンジンは、大量の高品質のオリジナルコンテンツを生成してより多くのトラフィックをもたらすWebサイトに高い重み付けとより良いランキングを与え、大量のコンテンツを転載および盗用するWebサイトのランクを下げます。しかし、その前提となるのは、検索エンジンがオリジナルコンテンツと転載コンテンツを正確に識別できることです。Baiduだけでなく、Googleでさえも、これを満足のいくレベルで実現できていません。

技術的な背景はさておき、常識的に考えれば、まずは時間の問題が頭に浮かびます。転載されたコンテンツよりも、オリジナルのコンテンツの方が先に登場するのは間違いありません。記事1は元々ウェブサイトAによって作成されたと仮定します。それがSinaによって転載された後、他の主要なウェブサイトもSinaから転載し、一度に大量の転載がインターネット上に現れました。統計によると、検索エンジンは現在、インターネット全体のデータの約30%しか見つけて取り込んでおらず、これはすでに天文学的な数字です。限られたリソースでは、検索エンジンはインターネット全体の情報をリアルタイムで監視することはできません。そのため、Sinaは記事1の原著者になりました。

第二に、記事の著作権情報に基づいて、ますます多くの記事に著作権表示が付けられるようになります。多くの悪質な転載者はこの情報を削除しますが、この情報を残す人は常に存在します。スパイダーは、記事の著作権情報に基づいて、オリジナル記事と転載記事を識別します。理論的には可能です。実際、多くの悪質な転載では、元の著作権情報を削除するだけでなく、独自の著作権を追加し、同じ記事に複数の元のソースがあるという現象を引き起こします。

さらに、検索エンジンの作業には、クロール、単語の分割、ノイズ除去、キーワードの抽出が含まれます。記事の内容とあまり関係のない著作権情報は、ノイズ除去の過程で削除されることがよくあります。検索エンジンがアルゴリズムを調整し、著作権情報を保持したとしても、上記のような不正複製のジレンマは避けられません。

Webサイト:

ウェブサイトは、検索エンジンを満足させるために大量の高品質な情報を提供するだけでなく、ユーザーを維持するために優れたユーザー エクスペリエンスを提供する必要があります。しかし、ウェブサイトは、いじめられている若い妻のように、検索エンジンからいじめられることがよくあります。多くのウェブマスターは検索エンジンについてよく不満を言いますが、検索エンジンの顧客はウェブサイトではなくユーザーであり、検索エンジンにはウェブサイトにトラフィックを提供する義務がないという点を見落としています。

しかし、検索エンジンの不公平性と技術的欠陥により、大規模なウェブサイトが強くなり、小規模なウェブサイトが弱くなるという恐ろしいマシュー効果が生じています。大規模なウェブサイトはランダムに盗用しますが、それでも高いランキングと一定のトラフィックを維持しています。小規模なウェブサイトは制作に一生懸命取り組んでいますが、結局はランキングも訪問者も少なく、他人のためのツールとしてしか機能しません。

検索エンジンのユーザーは情報生産者を気にしていないように見えますが、これは検索エンジンの上流顧客であるウェブサイト、そしてインターネット環境全体の生死に関係しており、検索エンジンが克服しなければならない盲点でもあります。

原題: オリジナルコンテンツを判断する検索エンジンの盲点

キーワード: オリジナルコンテンツ、検索エンジン認識、ウェブマスター、ウェブサイト、ウェブサイトプロモーション、収益化

<<:  SEOを行う上でユーザーエクスペリエンスは重要です

>>:  ランキング間の密接な関係を合理的に見る方法

推薦する

クラウドデータ移行では、これら6つの隠れたボトルネックを回避する必要があります

ペタバイト単位のデータをクラウドに移動するのは困難な作業です。クラウドでアクセスするとアプリケーショ...

Vultr 無料 $5 (VPS-12 データセンター)

Vultr は本日、ウェブサイトの再設計を完了し、5 ドルのトライアル割引をリリースしました。割引は...

ショッピングガイドの移行:2,000以上のTaobaoアプリがオフラインになり、U-stationに移行

【Ebrun Power Network News】Taobaoはこのほど、バイヤーアプリケーション...

アリババクラウドが北京冬季オリンピックのクラウドデータセンターを発表、北京はグリーンデジタルオリンピックの「聖火ランナー」に

空を明るくし、木を植えて緑を作り出す、8年前の北京夏季オリンピックで作られた「緑のサンプル」は世界を...

分散システムの中核 - ログ

ログとは何ですか?ログは、時系列順に追加された、完全に順序付けられたレコードのシーケンスです。実際、...

pacificrack: 新しいポリシー、更新料 50% オフ、通常バージョン パッケージへのアップグレード、より柔軟なリソース!

Pacificrack が先月、これまで販売していた超低価格の VPS の更新価格をすべて調整するこ...

Containerd の使い方を 1 つの記事で解説

[[417270]] Containerd を学習する前に、Docker の開発履歴を簡単に確認する...

水戸テンプレート: 金融会社のウェブサイトテンプレートの推奨

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています今は「大衆...

クラウドネイティブによるグレースケールシステム構築

[[399091]] 1 週間前、「大規模な K8s クラスターに直面した際に、ユーザーよりも先に問...

Sina Weiboの無料リソースをすべて絞り出す - 実用的なWeiboツールの詳細説明(パート2)

パート3: ファン管理ファン管理はどのWeiboアカウントにとっても最も重要なタスクであると私は考え...

急速に台頭するクラウドデータアーキテクチャ

クラウド データ アーキテクチャの人気の高まりは、次のようなテーマを示唆しています。オンプレミス デ...

#BlackFriday# racknerd: 複数のデータセンターの VPS が年間 10.88 ドルと低価格で、更新価格も同じです!

racknerd は、複数のオプション データ センター、年間 10.88 ドルという低価格の VP...

インターネット取引プラットフォームの征服:ウェブサイト取引の静かな台頭を分析

21世紀に入り、世界はインターネット時代に入り、電子商取引が普及しています。2013年には、インター...

日々の話題:株式公開を控えた宝峰ビデオはなぜ今、困難な状況に陥っているのか?

A5ウェブマスターネットワーク(www.admin5.com)は6月10日、国内のビデオ会社であるB...