Baidu がオリジナルコンテンツをどのように決定するかを確認し、オリジナルプロジェクトについて話し合います。

Baidu がオリジナルコンテンツをどのように決定するかを確認し、オリジナルプロジェクトについて話し合います。

1. 検索エンジンはなぜ独創性を重視するのでしょうか?

1.1 広範なデータ収集

Baidu の調査によると、従来のメディアの新聞からエンターテインメント サイトのゴシップ、ゲーム ガイドから製品レビュー、さらには大学図書館が発行するリマインダーに至るまで、ニュースや情報の 80% 以上が手動で複製または機械によって収集されていることがわかりました。質の高いオリジナルコンテンツは、コレクションの大海の中の一滴であると言えます。検索エンジンにとって、その大海の中の一滴を見つけるのは困難であり、挑戦でもあります。

1.2 検索ユーザーエクスペリエンスの向上

デジタル化により配信コストが削減され、ツール化により収集コストが削減され、機械による収集動作によりコンテンツのソースが混乱し、コンテンツの品質が低下します。収集プロセスでは、意図的か否かにかかわらず、不完全なコンテンツ、誤った形式、ジャンク Web ページの添付などの問題が次々と発生し、検索結果の品質とユーザー エクスペリエンスに深刻な影響を及ぼしています。検索エンジンが独創性を重視する根本的な理由は、ユーザー エクスペリエンスを向上させることです。ここでの独創性とは、高品質のオリジナル コンテンツを指します。

1.3 独創的な著者と記事を奨励する

転載・収集は、高品質の原著サイトからのトラフィックを流用し、原著作者の名前を冠することができなくなり、高品質の原著サイトの所有者や作者の収入に直接影響を及ぼします。長期的には、オリジナルクリエイターの熱意に影響を与え、イノベーションを阻害し、新しい高品質のコンテンツの制作を妨げることになります。質の高い独創性を奨励し、革新を奨励し、オリジナルのサイトや著者に適切なトラフィックを提供し、それによってインターネット コンテンツの繁栄を促進することは、検索エンジンの重要な役割であるはずです。

2. 収集は非常に巧妙で、元のものを特定するのは困難です

2.1 オリジナルを装い、重要な情報を収集し改ざんする

現在、多数のウェブサイトがオリジナルコンテンツを一括収集し、その後、手動または機械的な方法を使用して、作成者、リリース時間、ソースなどの重要な情報を改ざんし、オリジナルであるように見せかけています。このようなオリジナルを装ったコンテンツは、検索エンジンによって識別され、適切に調整される必要があります。

2.2 コンテンツジェネレーター、疑似オリジナリティの創出

自動記事生成ツールなどのツールを使うと、記事を「作成」して目を引くタイトルを付けることができます。コストは非常に低く、オリジナル性の高い記事になること間違いなしです。しかし、独創性は、意味をなさないゴミをランダムに作成するのではなく、社会的合意の価値を持たなければならず、価値のある高品質のオリジナル コンテンツと見なすことができます。コンテンツはユニークですが、社会的に合意された価値はありません。検索エンジンは、このような疑似オリジナリティを特定して取り締まる必要があります。

2.3 Webページは多様であり、構造化された情報を抽出することは困難である

サイトによって構造がかなり異なり、HTML タグの意味や分布も異なるため、タイトル、著者、時間などの重要な情報を抽出する難易度も大きく異なります。現在の中国のインターネットの規模を考えると、包括的で正確かつタイムリーな情報を提供することは容易ではありません。検索エンジンとウェブマスターが協力し、よりスムーズに運営する必要があります。ウェブマスターがより明確な構造を使用してウェブページのレイアウトを検索エンジンに伝えれば、検索エンジンはオリジナルで関連性の高い情報を効率的に抽出できるようになります。

3. Baidu はどのようにして独創性を識別するのでしょうか?

3.1 独自のプロジェクトチームを立ち上げて持久戦に挑む

課題に直面しながら、検索エンジンのユーザー体験を向上させ、質の高いオリジナルクリエイターとオリジナルウェブサイトが正当な利益を得られるよう支援し、中国インターネットの発展を促進するため、当社は多数の人材を集めて、技術、製品、運営、法務など、オリジナルプロジェクトチームを結成しました。これは一時的な組織でも、1、2か月のプロジェクトでもありません。当社は長期戦に備えています。

3.2 オリジナル識別「オリジン」アルゴリズム

インターネット上には何百億、何千億ものウェブページがあります。そこからオリジナルのコンテンツを掘り出すのは、干し草の山から針を探すようなものです。当社独自の識別システムは、Baidu のビッグデータ クラウド コンピューティング プラットフォーム上に実装されており、中国のインターネット Web ページ全体の重複集約とリンク ポイント関係の分析を迅速に実現できます。まず、コンテンツの類似性を通じてコレクションと独創性を集約し、類似したウェブページを原典識別の候補セットとしてグループ化します。次に、原典候補セットに対して、著者、リリース時間、リンク方向、ユーザーコメント、著者とサイトの歴史的独創性、転送軌跡など、数百の要素を通じて原典ウェブページを識別して判断します。最後に、価値分析システムを通じて原典コンテンツの価値を判断し、最終的な分類を適切に導きます。

現在、私たちの実験と実際のオンラインデータを通じて、「Origin」アルゴリズムは一定の進歩を遂げ、ニュースと情報の分野におけるほとんどの問題を解決しました。もちろん、他の分野でも「Origin」が解決を待っている独自の課題はまだまだあり、私たちは決意を持って前進しています。

3.3 オリジナルSparkプロジェクト

当社は、オリジナルコンテンツの識別とソートアルゴリズムの調整に注力してきましたが、現在のインターネット環境では、オリジナルコンテンツを迅速に識別し、オリジナルの問題を解決することは大きな課題に直面しています。コンピューティングデータの規模は膨大で、収集方法は無限であり、サイトごとにWebサイトの構築方法とテンプレートが大きく異なり、コンテンツの抽出は複雑であるなどです。これらの要因は、元のアルゴリズムの認識に影響を与え、誤った判断につながることもあります。現時点では、百度とウェブマスターは協力してインターネットの生態環境を維持する必要があります。ウェブマスターはオリジナルコンテンツを推奨し、検索エンジンは一定の判断を経てオリジナルコンテンツを優先します。両者は共同で生態環境の改善を推進し、独創性を奨励します。これが「オリジナルスパーク計画」であり、現在直面している深刻な問題を迅速に解決することを目指しています。さらに、ウェブマスターによるオリジナルコンテンツの推奨は「オリジン」アルゴリズムに適用され、Baidu がアルゴリズムの欠点を発見し、継続的に改善し、よりインテリジェントな認識アルゴリズムでオリジナルコンテンツを自動的に識別するのに役立ちます。

現在、オリジナルスパーク計画も初期成果を達成しており、第1段階では、いくつかの主要なオリジナルニュースサイトのオリジナルコンテンツに、Baiduの検索結果でオリジナルマークと著者表示が与えられ、ランキングとトラフィックの相当な向上も達成されました。

最後に、独創性は長期的な改善を必要とする生態学的問題です。私たちは、インターネット生態学の進歩を促進するために、ウェブマスターに投資し、協力し続けます。独創性は、みんなが一緒に維持する必要がある環境問題です。ウェブマスターは、より多くのオリジナルコンテンツを作成し、より多くのオリジナルコンテンツを推奨する必要があります。Baiduは、ソートアルゴリズムの改善、オリジナルコンテンツの奨励、オリジナルの著者とオリジナルサイトに合理的なソートとトラフィックを提供するために、引き続き努力します。


元のタイトル: Baidu がオリジナルコンテンツをどのように評価するかを見て、オリジナルプロジェクトについて語りましょう

キーワード:

<<:  オンラインマーケティングの今後の発展方向:ブランドプラスコンテンツマーケティング

>>:  中国SEOの豆知識: 外部リンク

推薦する

Weiboマーケティング:マーケティングをしているつもりでも、実は火遊びをしている

今朝早く、Weiboで最も人気のある投稿が2つありました。1つは@小米球迷后援会によって投稿され、も...

Oracle はクラウド移行コストを 30% 削減できると主張していますが、顧客はそれを受け入れてくれるでしょうか?

周知のとおり、すべての IT プロジェクトの中で、ERP システムの移行は最もコストのかかるものにな...

Vultr - 6 月の VPS の第 1 波では 10 ドルを無料でプレゼントします。

Vultr は API 機能を強化し、新しい 10 ドルの割引コード GIVEME10 を発表しまし...

Kubernetes スキルを向上させる 5 つの方法

クラウド ネイティブの成長の中で、開発者は、アプリケーションを実行するサーバーとリソースを共有する、...

コンタボはどうですか?東京のVPSの簡単なレビュー

Contabo は本日、東京に新しいデータセンターを開設しました。ウェブマスターはすぐに最低構成の日...

Struts2 の脆弱性パッチによりエラーが発生 Baidu Accelerator が独占的な防御ソリューションを提供

4月23日、セキュリティ研究者らは、Apache Struts2の脆弱性情報S2-020において、C...

中間レビュー: 2020 年のクラウド障害最大 10 件

ほんの数か月前、コロナウイルスは誰も予想できなかった方法でクラウドプロバイダーを試しました。世界中で...

リン・シウ:SEO の 20 のポイント

絶対にしてはいけない SEO の間違い 10 選1) フラッシュサイト(すべてフラッシュ) 2) フ...

取引プロセスを最適化して、ターゲットユーザーの消費意欲を高める

オンライン取引プラットフォームにとって、より重要なのは実際のコンバージョン率です。訪問者が実際に消費...

アリババ、米国上場のIPO申請を提出

北京時間5月7日、アリババグループは本日、米国証券取引委員会(SEC)にIPO(新規株式公開)目論見...

美団が行動を起こし、モバイクが新たなスタートを切る、自転車市場は資本ゲームの行き詰まりから抜け出せるか?

近年の中国のインターネットは、映画「ソーシャル・ネットワーク」やアメリカのテレビシリーズ「シリコンバ...

WeChat のソーシャル リレーションシップ マイクロ コミュニティは模倣か、それとも進歩か?

WeChatで公式通知を受け取りました。WeChat 5.1は内部テストを開始しており、最も重要な機...

数百の独立系ソフトウェアベンダーがAWS Marketplace Chinaに掲載されています

2021 年 4 月 6 日、Western Cloud Data が運営する AWS Market...

クラウドコンピューティングの「新たな3極」が形成されつつある

有名な統計学者 CR Law は『統計と真実』の中で次のように述べています。合理性に基づいて、すべて...