360 社に対する「ロボット契約違反」を理由とした百度の巨額請求の解釈: データ争奪戦

トラブルメーカー360が直面している巨額の訴訟が、まもなく裁判にかけられる。百度は奇虎360に対し、同社のウェブサイトのコンテンツをクロールしてコピーすることで「ロボットプロトコル」（ロボットプロトコル、クローラープロトコルとも呼ばれる）に違反し不正競争行為を行ったとして訴訟を起こし、1億元の賠償を要求した。訴訟は今年2月に提起されたが、ロボットプロトコルが複雑すぎたためか、裁判まで半年以上かかった。

ロボットクローリング事件の根本原因は百度のデータ優位性

筆者は今年 1 月 6 日に 360 の 360 Encyclopedia の内部テストを初めて発見しました。多数のエントリは、インターフェイススタイルからエントリ属性、拡張読み取りまでほぼ一貫していました。当時、私は 2013 年の 360 Search の開発方向は、製品ラインの面では、ニュース、Web ページ、Q&A、地図、音楽、ビデオなど、Baidu のモデルに完全に従うものになるだろうと推測していました (ソフトウェアとアプリケーションの検索は 360 独自のものです)。しかし、その後、Qihoo 360は「雷モバイル検索」「ソフトウェア検索」「優良医師検索」「ショッピング検索」を発売し、Baidu製品との差別化を図った。

一方、百度は総合検索において先行者利益を有し、10年以上のデータと技術の蓄積があり、この点で360が追いつくことはほぼ不可能である。他方、360の百度データのクローリング行為は、訴訟問題やリダイレクトなどの技術的手段など、さまざまな方法で後者によって抑制されている。 360 度検索結果で Baidu Knows、百科事典などのページをクリックすると、ユーザーはリダイレクトされ、2 回目のクリックでは完全な検索エクスペリエンスを享受できなくなります。

360 Search がゼロから開発され、すぐに 22% (CNZZ 最新) の市場シェアを獲得して中国で 2 番目に大きな検索エンジンになったとき、360 が PC クライアントチャネルを制御する上での優位性が十分に実証されました。逆に、Baidu には検索の面で 360 に対抗する方法があります。それはデータです。 Googleや360などの検索エンジンを注意深く観察すると、Baidu Knows、Encyclopedia、Tiebaのコンテンツがホームページの結果に表示される可能性が非常に高く、Soso Wenwen、iAsk、Qihoo Answersは補助的であることがわかります。検索エンジンに Baidu のデータがなければ、ユーザーが望む結果を見つけられる可能性は大幅に低下します。

2004年以来、百度は毎年、鉄破、知道、百科という主要製品を発売してきた。今、Baidu のデータの優位性は、同社の当初の UGC 戦略の賢明さを示しています。これらのユーザーが作成したデータは百度の中核資産となり、百度の公式運営スタッフも消えることのない貢献を果たした。しかし、百度が苦労して蓄積したデータを360が直接利用したことは、当然百度にとって受け入れ難いものだった。データの豊富さが検索エクスペリエンスを大きく左右します。

ロボットプロトコルは、Web サイトが自らの利益を保護するためのツールですか?

Robots プロトコルは、Web サイトの所有者と検索エンジン間の議論の後に形成され、Robots.txt を通じて実装されました。ウェブマスターはこれを使用して、検索エンジンに対してどの程度オープンであるかを決定し、クローラーに効率的にクロールする方法を指示します。現在では広く採用されています。 Google や Baidu などの検索エンジンはこのルールを厳守しています。通常、Web サイトは、サーバーのルートディレクトリにある「Robots.txt」で、検索エンジンがクロールできるコンテンツとできないコンテンツを指定できます。また、どの検索エンジンがクロールできるか、どの検索エンジンがクロールできないかを指定することもできます。特定の検索エンジンを制限するために、Robots の本来の目的は「BadRob」、つまり悪質なクローラーを制限することでした。悪いというのは、セキュリティやプライバシーの問題がある、またはクロールが頻繁に行われすぎてサーバーに負荷がかかることを意味します。

実際、ロボットはもともと検索エンジンを制限するために使用されていました。検索エンジンの夢はすべてのデータを取得することですが、ロボットはこれを制限します。ロボットは、サイトマップを設定したり、デッドリンクをブロックしたり、クローラーが大きなファイルをクロールするのを防ぐことでサーバーの負荷を軽減したりすることもできます。しかし、全体として、検索エンジンはロボットを歓迎しません。ウェブマスターによると、検索エンジンからのトラフィックを増やしたい場合は、ロボットファイルを使用しないことが最善です。

しかし、Baidu は検索会社であり、コンテンツウェブサイトです。Google や 360 などの検索エンジンによってクロールされると、Robin Li の役割はウェブサイト所有者の役割になります。ロボットプロトコルもこれを保護します。 360 でロボット制限を有効にする主な目的は、自社のデータの優位性を維持し、競争を防ぐことです。ロボットプロトコルは現在、ウェブサイト所有者が自らの利益を保護するためのツールとして徐々に定着しつつあります。

2008年、タオバオは詐欺リスクを理由にロボットプロトコルを使用してGoogleやBaiduなどの検索エンジンをブロックした。今年、タオバオは同様の理由でWeChatをブロックした。 JD.com はまた、ロボットプロトコルを通じて Alibaba のショッピング検索エンジン Yitao をブロックしました。これは、Yitao が JD.com の製品レビューを許可なくクロールし、これらのレビューによって JD.com に数億ポイントのインセンティブリソースの損失が発生したためです。 Suning.comもこれに倣い、Yitaoをブロックした。

360がBaiduに不満を抱いているのは、Baiduのロボットが一部のウェブサイトを許可する方式を採用しており、360は除外されていることだ。 Sogou などの他の検索エンジンでも Baidu のコンテンツを検索できます。百度に近い内部関係者によると、検索エンジンが百度のロボットプロトコルのホワイトリストに追加されることを望む場合、通常は同社との書面による契約に署名する必要がある。 360は数日前にBaiduとサッカーの試合を行ったが、当面は書面による契約を結ぶのは難しいだろう。

Baidu が 360 をブロックし、Taobao が Baidu をブロックし、JD.com と Suning.com が Yitao をブロックしたのは、いずれも競合他社に対処するために Robots プロトコルを使用していたためであり、相手のクローラーが「不良クローラー」だったからではないことは明らかです。

ユーザー生成コンテンツの著作権所有権が注目される

ロボットは「口頭での合意」と同じくらい効果的です。しかし、検索エンジン業界に参入する人は皆、ゲームのルールに従う必要があり、これは自己規律に依存します。しかし、協定違反そのものが法的制裁の対象となるかどうかは判断が難しい。紛争の焦点が著作権に関係する場合、360 の行動がセーフハーバー原則に準拠しているかどうかによって決まります。

360 は、Baidu が Robots プロトコルをこのように使用すべきではないと考えています。彼らがクロールしたデータはユーザーによって作成されたものであり、Baidu はそれをブロックすべきではありません。そして、Baidu は自らをブロックするべきではない。たとえ 360 が不満を抱いているとしても、より適切なアプローチは、Robots プロトコルの改訂を推進し、業界にそれを受け入れるよう説得することだが、これは難しい。しかし現在、360 は合意事項に従わずに直接クローリングする方法を採用しており、これは「暴力に暴力で対抗する」ような感じがする。「ルールが不公平であったり、誰かが私に対してルールを乱用したりした場合、私はルールを守りません。」

ユーザーが作成したコンテンツは、ウェブサイトの許可なしにクロールされる可能性がありますか? Baidu ユーザーが作成したコンテンツには明確な所有権がありません。中国では、Zhihu などの少数の UGC コミュニティのみが CC 契約 (クリエイティブコモンズ) を結んでいます。Baidu のコンテンツがユーザーのものか Baidu のものかにかかわらず、UGC コミュニティにはより明確な著作権契約が必要です。しかし、360 は Baidu にデータを開示するよう要求することはできない。さらに、Baidu はこれらのデータを生成するために、運用、テクノロジー、ソフトウェアおよびハードウェアリソースなどのコストを実際に支払っています。

では、海外に前例はあるのだろうか？ 12年前、北カリフォルニアの米国地方裁判所で、eBayはBidder's Edgを訴えた。Bidder'EdgはeBayのデータをクロールするためにRobotsプロトコルに違反し、BEは敗訴した。しかし2011年4月、マイクロソフトは、Googleが競合検索エンジンによるYouTubeへのアクセスを制限したとして欧州連合でGoogleを訴え、マイクロソフトが勝訴した。

百度が360に対して起こした訴訟の結果を予測するのは難しい。参考になる判例もそれぞれ異なる答えを出しているからだ。しかし、この事件の結果は、インターネットコンテンツの所有権や非法的合意をめぐる今後の国内紛争にとって重要な参考となることは間違いないだろう。

この事件は、360 Search の今後の発展の方向性にも大きな影響を与えるでしょう。 Qihoo は 2008 年に Q&A を開始しましたが、Baidu Knows との間にはまだギャップがあります。次に、360は知乎などのコンテンツコミュニティを買収し、独自のUGCコミュニティの構築も強化する可能性があります。非常にシンプルです。人材と知性がインターネット企業の最も価値のある現在の資産であるならば、データは将来最も重要な固定資産になるでしょう。 360 の現在のデータは、基盤となるセキュリティデータに集中しており、アプリケーションデータが少なすぎます。これが、他人のデータをクロールすると1億元の訴訟を起こされるリスクがある根本的な理由です。

原題: 360 社に対する「ロボット協定違反」を理由とした百度の巨額請求の解釈: データ争奪戦

キーワード: クレーム、360、百度

<<: テンセントホールディングスのWeChatは商業銀行の先駆者になるかもしれない

>>: SEO実践体験：ウェブサイトがKになる問題を解決する方法