ページを正確に識別することは検索エンジンの義務であり、贈り物ではない

2010 年 4 月 13 日、Baidu Tieba Webmaster Club で、中国の有名な SEO 専門家 ZAC が「他の人に代わって質問します: オリジナルコンテンツは認識されません」という投稿で次のように質問しました。「オリジナルコンテンツは、転載または盗用されたコンテンツよりもランクが低くなることがよくあります。ウェブマスターは、これを防止または改善するために何ができるでしょうか。私のサイトはオリジナルコンテンツを毎日更新し、Baidu も毎日更新していますが、他の人の再投稿が含まれると、私の記事は検索できなくなります。オリジナルコンテンツに 4 か月近くこだわりましたが、Baidu は依然として私を 500 位以上に落としました。」

2年前、ZACはウェブマスターを代表して、Baiduを代表するLeeとオリジナルの包含問題について話し合いました。

2年以上が経過しましたが、上記の質問で述べた状況はまったく変化せず、むしろ悪化しています。さまざまな「コピー収集された疑似オリジナル」の貴重なオリジナルコンテンツのページは、キーワードインデックスの形式でBaidu Web検索によって簡単にネットユーザーに検索するように推奨されていますが、オリジナルコンテンツを最初にリリースしたWebサイトはリストに載っていません。これは、Baidu の欠陥を狙い、「模倣と疑似独創性の収集」に基づく、いわゆる SEO の継続的な増殖を客観的に容認するものである。

予想通り、今年8月10日に開催された百度の「ウェブマスタークリニックオープンデー」イベントでは、原本識別の問題が再びウェブマスターやSEO担当者らが百度の検索エンジニアのリー氏に問い続ける質問となった。

また、当然のことながら、Baidu の検索エンジニアである Lee 氏の回答は、2 年前の回答の繰り返しでした。「そうですね、Baidu の戦略はまだ完璧ではなく、常に改善していると言えます」-「より完全な独自の認識アルゴリズムを設計しています。」

百度の動向を追っている人なら、百度の李氏の「より完全なオリジナル識別アルゴリズムを設計している」という回答が、百度のウェブ検索不正対策チームが7月2日に発表した「低品質サイト対策が発効しました」という発言を完全に否定していることに容易に気づくだろう。「低品質ウェブサイト（疑似オリジナルおよび非オリジナルウェブサイト）を取り締まる措置が発効しました」。当時、「低品質サイト対策が発効しました」で誇らしげにこう述べていたことを、誰もが今でも覚えている。「高品質でオリジナルなリソースを提供するウェブマスターは、低品質サイトのランキングを下げたり、排除したりしたため、百度からのトラフィックが増えるでしょう。」

しかし、それから2か月も経たないうちに、Baiduの検索エンジニアであるLee氏の回答は、Baiduウェブ検索不正対策チームの声明を完全に否定するものとなり、本当に驚きました。

さらに、2年の間隔を置いて2回、「オリジナルコンテンツ」の特定に関する質問に直面したとき、百度の李氏は「周りを見て他のことを言う」という手法を採用して、それらを表面的に処理しました。2年前の李氏の回答は、「ユーザーエクスペリエンスの観点から、一部の転載は必ずしもオリジナルより悪いわけではありません...。ただ、多くの国内転載はカットされており、それがオリジナルの作成者に損害を与えています」であり、不正な国内転載の問題に焦点を当てていました。今年、百度の李氏は、「（百度が受け取ったオリジナルであると主張する苦情の）80％以上は無効です。中国の老医が3〜5日で不治の病を治すことができると主張するウェブサイトさえ多数ありますが、コンテンツ全体が理解不能であり、高品質のウェブサイトであると主張しています」と回答しました。

リー氏の発言が真実であることは否定できないが、実際の細部を積み重ねても実際の全体とイコールになるわけではない。こうしたよくある状況の存在は、中国のインターネットコミュニティに高品質のオリジナルコンテンツが存在しないことを意味するものではなく、百度がウェブサイトのオリジナルリリースを識別できない理由でもない。「ダイヤモンドドリルがなければ、陶芸をやろうとするな」ということわざがある。百度李氏の発言は、百度のオリジナル作品の識別能力と重複ページ削除能力がまったく向上していないことを証明しているだけだ。

強調しておかなければならないのは、原文ページの識別能力の低さがすべての検索エンジンの弱点であることを認識した後、多くの草の根の原文著者が記事の末尾に著作権表示を追加して最初のリリース URL をマークし、同時に検索エンジンと転載ウェブマスターに「コンテンツ同期」方式で高品質の業界ウェブサイトの投稿をガイドしたことです。取得されたリンクはほとんどがプレーンテキストリンクでしたが、Baidu の検索エンジニア Lee は「問題を明確にしましょう。プレーンテキスト形式 (タグなし) のリンクを識別して処理できますか? 答えはイエスです。検索エンジンのスパイダーは、インターネット上のリンクを迅速に発見してクロールする必要があります。リンクの形式については、重要ではありません」と述べ、彼らに自信を与えました。

しかし、これらのウェブマスターを失望させたのは、業界の権威ある投稿・転載サイトの多くが、百度李氏が言うように「頭と尻尾を切り落とした転載」をしておらず、権威の高い投稿・転載サイトのウェブページが「コピー・収集した疑似オリジナル」サイトよりも明らかに早く生成され、検索エンジンに組み込まれているにもかかわらず、百度が無視したオリジナルの初公開ページが依然として多数存在し、「コピー・収集した疑似オリジナル」サイトのランキングは高いままだったことです。これらのページの多くは、記事の一部をランダムに切り取っただけで、記事のテーマを十分に表現しておらず、百度が提唱する「より良いユーザーエクスペリエンス」の基準をまったく満たすことができませんでした。

オリジナルページの識別は常に検索エンジンの弱点でしたが、オリジナルの最初のリリースページを指す多くの高権威 URL に直面したときに、すべての検索エンジンが Baidu ほど悪いパフォーマンスを示すわけではないことに注意する必要があります。国内の有名なSEO専門家である王童氏が言うように、中国のインターネットで「コピーして集めた偽オリジナル」が横行する状況に直面した時、Googleは「中国語を最も理解している」と主張するBaiduのように、著作権表示URLガイダンス付きのオリジナル初公開ページ（公開時間、リンクの普及度、リンク先のウェブサイトのページの重みなどの基準に加えて）に関しては、同じような悲惨な敗北を喫することはなかった。関連検索の上位は、コピーして集めた偽オリジナルページで大部分を占め、オリジナル初公開ページは跡形もなく消えた。

これは、「中国語を最もよく理解している」Baiduが、キーワードインデックスを通じて検索者にURLを推奨する前に、（高品質の情報ページと重要な推奨補足ページを識別して決定するために）本来の識別と重複ページの削除作業を基本的に完了していないことを示しています。その理由は、その技術レベルが非常に低く、追いつくのを急いでいるためであり、Baidu Leeの声明はBaiduの言い訳を絶えず探しているだけです。

さらに、比較すると、Google がオリジナルの初公開アドレスを識別するパフォーマンスが優れていることは、Baidu がオリジナルの初公開ページを気にしていないことを証明しています。Baidu はより多くのオリジナルコンテンツにのみ関心がありますが、適切な著作権認識が欠けています。これが、Baidu のオリジナル Web サイトを識別するアルゴリズムが長い間遅れをとっている主な理由であると私は考えています。「できないのではなく、そうしたくないのです。」

国内の著名なSEO担当者である王童氏が「百度の628調整は、オリジナルウェブサイトを取り締まることが目的だ」と述べたとき、多くのウェブマスターやSEO担当者が同じように感じたのも不思議ではない。

実際、オリジナルの初公開ページを識別する技術が大幅に向上すれば、検索エンジンの不正防止機能が大幅に向上し、利益のためにさまざまな方法で検索エンジンを欺くSEO業者の試みを直接阻止し、高品質のオリジナルコンテンツに真剣に取り組んでいる人々に自信を与えることができます。

百度が実際の行動を通じて数多くの中小オリジナルサイト運営者の労力を尊重し、彼らが常に知性と才能を発揮してオリジナルな仕事をするよう奨励してこそ、「模倣コンテンツと偽オリジナルコンテンツの収集」の隙間探しに忙しいより多くのサイト運営者とSEO担当者が「サイトの核心価値を最もよく反映する」オリジナルコンテンツに力を注ぐよう導くことができるのだ。 Baiduにとって、このステップは困難ではあるものの、検索エンジンの将来の発展に有益な大きな動きです。

さらに、ウェブマスターから報告された「オリジナルコンテンツの包含問題」を、より合理的なアルゴリズムでできるだけ早く解決することは、多くの草の根ウェブマスターに対する百度からの好意ではなく（有名なウェブサイトは単に百度を気にかけておらず、淘宝網は百度を直接ブロックしている）、現在の「著作権法」およびその他の関連法の下で百度が果たさなければならない「基本的義務」であることを百度ウェブ検索に思い出させる必要があります。 Baidu や他の企業は、あまり自信過剰にならないようにすべきだ。

どこへ行くか？道はあなたの足元にあり、すべてはあなたが選ぶ検索エンジン次第です（この記事は元々 gouyn12 によって公開されたもので、すべての著作権は留保されており、著者がコンテンツの責任を負います。転載する場合は、リンクの形で記事の元のソースを示してください http://www.gouyn12.com/cnnet/327.html）。

元のタイトル: 正確なページ識別検索エンジンの責任は贈り物ではない

キーワード: オリジナルの最初のリリースページ、正確な識別、検索エンジン、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: 360度検索トラフィックの急増には理由があり、将来的にそれを維持できるかどうかが鍵となる

>>: Yammerの創設者はシリコンバレーの終焉を予測