Baidu がオリジナルコンテンツをどのように決定するかを確認し、オリジナルプロジェクトについて話し合います。

Baidu がオリジナルコンテンツをどのように決定するかを確認し、オリジナルプロジェクトについて話し合います。

1. 検索エンジンはなぜ独創性を重視するのでしょうか?

1.1 広範なデータ収集

Baidu の調査によると、従来のメディアの新聞からエンターテインメント サイトのゴシップ、ゲーム ガイドから製品レビュー、さらには大学図書館が発行するリマインダーに至るまで、ニュースや情報の 80% 以上が手動で複製または機械によって収集されていることがわかりました。質の高いオリジナルコンテンツは、コレクションの大海の中の一滴であると言えます。検索エンジンにとって、その大海の中の一滴を見つけるのは困難であり、挑戦でもあります。

1.2 検索ユーザーエクスペリエンスの向上

デジタル化により配信コストが削減され、ツール化により収集コストが削減され、機械による収集動作によりコンテンツのソースが混乱し、コンテンツの品質が低下します。収集プロセスでは、意図的か否かにかかわらず、不完全なコンテンツ、誤った形式、ジャンク Web ページの添付などの問題が次々と発生し、検索結果の品質とユーザー エクスペリエンスに深刻な影響を及ぼしています。検索エンジンが独創性を重視する根本的な理由は、ユーザー エクスペリエンスを向上させることです。ここでの独創性とは、高品質のオリジナル コンテンツを指します。

1.3 独創的な著者と記事を奨励する

転載・収集は、高品質の原著サイトからのトラフィックを流用し、原著作者の名前を冠することができなくなり、高品質の原著サイトの所有者や作者の収入に直接影響を及ぼします。長期的には、オリジナルクリエイターの熱意に影響を与え、イノベーションを阻害し、新しい高品質のコンテンツの制作を妨げることになります。質の高い独創性を奨励し、革新を奨励し、オリジナルのサイトや著者に適切なトラフィックを提供し、それによってインターネット コンテンツの繁栄を促進することは、検索エンジンの重要な役割であるはずです。

2. 収集は非常に巧妙で、元のものを特定するのは困難です

2.1 オリジナルを装い、重要な情報を収集し改ざんする

現在、多数のウェブサイトがオリジナルコンテンツを一括収集し、その後、手動または機械的な方法を使用して、作成者、リリース時間、ソースなどの重要な情報を改ざんし、オリジナルであるように見せかけています。このようなオリジナルを装ったコンテンツは、検索エンジンによって識別され、適切に調整される必要があります。

2.2 コンテンツジェネレーター、疑似オリジナリティの創出

自動記事生成ツールなどのツールを使うと、記事を「作成」して目を引くタイトルを付けることができます。コストは非常に低く、オリジナル性の高い記事になること間違いなしです。しかし、独創性は、意味をなさないゴミをランダムに作成するのではなく、社会的合意の価値を持たなければならず、価値のある高品質のオリジナル コンテンツと見なすことができます。コンテンツはユニークですが、社会的に合意された価値はありません。検索エンジンは、このような疑似オリジナリティを特定して取り締まる必要があります。

2.3 Webページは多様であり、構造化された情報を抽出することは困難である

サイトによって構造がかなり異なり、HTML タグの意味や分布も異なるため、タイトル、著者、時間などの重要な情報を抽出する難易度も大きく異なります。現在の中国のインターネットの規模を考えると、包括的で正確かつタイムリーな情報を提供することは容易ではありません。検索エンジンとウェブマスターが協力し、よりスムーズに運営する必要があります。ウェブマスターがより明確な構造を使用してウェブページのレイアウトを検索エンジンに伝えれば、検索エンジンはオリジナルで関連性の高い情報を効率的に抽出できるようになります。

3. Baidu はどのようにして独創性を識別するのでしょうか?

3.1 独自のプロジェクトチームを立ち上げて持久戦に挑む

課題に直面しながら、検索エンジンのユーザー体験を向上させ、質の高いオリジナルクリエイターとオリジナルウェブサイトが正当な利益を得られるよう支援し、中国インターネットの発展を促進するため、当社は多数の人材を集めて、技術、製品、運営、法務など、オリジナルプロジェクトチームを結成しました。これは一時的な組織でも、1、2か月のプロジェクトでもありません。当社は長期戦に備えています。

3.2 オリジナル識別「オリジン」アルゴリズム

インターネット上には何百億、何千億ものウェブページがあります。そこからオリジナルのコンテンツを掘り出すのは、干し草の山から針を探すようなものです。当社独自の識別システムは、Baidu のビッグデータ クラウド コンピューティング プラットフォーム上に実装されており、中国のインターネット Web ページ全体の重複集約とリンク ポイント関係の分析を迅速に実現できます。まず、コンテンツの類似性を通じてコレクションと独創性を集約し、類似したウェブページを原典識別の候補セットとしてグループ化します。次に、原典候補セットに対して、著者、リリース時間、リンク方向、ユーザーコメント、著者とサイトの歴史的独創性、転送軌跡など、数百の要素を通じて原典ウェブページを識別して判断します。最後に、価値分析システムを通じて原典コンテンツの価値を判断し、最終的な分類を適切に導きます。

現在、私たちの実験と実際のオンラインデータを通じて、「Origin」アルゴリズムは一定の進歩を遂げ、ニュースと情報の分野におけるほとんどの問題を解決しました。もちろん、他の分野でも「Origin」が解決を待っている独自の課題はまだまだあり、私たちは決意を持って前進しています。

3.3 オリジナルSparkプロジェクト

当社は、オリジナルコンテンツの識別とソートアルゴリズムの調整に注力してきましたが、現在のインターネット環境では、オリジナルコンテンツを迅速に識別し、オリジナルの問題を解決することは大きな課題に直面しています。コンピューティングデータの規模は膨大で、収集方法は無限であり、サイトごとにWebサイトの構築方法とテンプレートが大きく異なり、コンテンツの抽出は複雑であるなどです。これらの要因は、元のアルゴリズムの認識に影響を与え、誤った判断につながることもあります。現時点では、百度とウェブマスターは協力してインターネットの生態環境を維持する必要があります。ウェブマスターはオリジナルコンテンツを推奨し、検索エンジンは一定の判断を経てオリジナルコンテンツを優先します。両者は共同で生態環境の改善を推進し、独創性を奨励します。これが「オリジナルスパーク計画」であり、現在直面している深刻な問題を迅速に解決することを目指しています。さらに、ウェブマスターによるオリジナルコンテンツの推奨は「オリジン」アルゴリズムに適用され、Baidu がアルゴリズムの欠点を発見し、継続的に改善し、よりインテリジェントな認識アルゴリズムでオリジナルコンテンツを自動的に識別するのに役立ちます。

現在、オリジナルスパーク計画も初期成果を達成しており、第1段階では、いくつかの主要なオリジナルニュースサイトのオリジナルコンテンツに、Baiduの検索結果でオリジナルマークと著者表示が与えられ、ランキングとトラフィックの相当な向上も達成されました。

最後に、独創性は長期的な改善を必要とする生態学的問題です。私たちは、インターネット生態学の進歩を促進するために、ウェブマスターに投資し、協力し続けます。独創性は、みんなが一緒に維持する必要がある環境問題です。ウェブマスターは、より多くのオリジナルコンテンツを作成し、より多くのオリジナルコンテンツを推奨する必要があります。Baiduは、ソートアルゴリズムの改善、オリジナルコンテンツの奨励、オリジナルの著者とオリジナルサイトに合理的なソートとトラフィックを提供するために、引き続き努力します。


元のタイトル: Baidu がオリジナルコンテンツをどのように評価するかを見て、オリジナルプロジェクトについて語りましょう

キーワード:

<<:  オンラインマーケティングの今後の発展方向:ブランドプラスコンテンツマーケティング

>>:  中国SEOの豆知識: 外部リンク

推薦する

ユーザーエクスペリエンス: 印象派のホームページ再設計の視覚的側面に関する簡単な説明

。 。。少し前、私は Impression Pie のサイト全体の再設計に取り組んでいました。これに...

Google、アプリをよりスムーズにする新しいAndroid開発フレームワーク「Sky」を発表

arstechnicaによると、GoogleはSkyと呼ばれる新しいAndroid開発フレームワーク...

微博はナスダック上場に成功し、上場初日に19%上昇した。

さらに読む:微博は20.24ドルで取引を終え、新規株式公開から19.06%上昇した。新浪微博のIPO...

ウェブサイトを検索エンジンにとってより魅力的なものにする方法

インターネット マーケティングはマーケティングの主流となっています。ますます多くの企業がインターネッ...

仮想化プラットフォームの移行と変換における 4 つの典型的な問題

本日は、VMware プラットフォームや PowerVM プラットフォームなどの仮想プラットフォーム...

工場技術者からSEOになるまでの4年間の苦い物語

今日、私は「初心者ウェブマスターのウェブサイト構築経験は SEO 記事よりも価値がある」という記事を...

hxkvm: サンノゼ高防御VPS\CC遮断、52元から、2Gメモリ\30gSSD\1Tトラフィック

海星雲(2009年設立)は、米国サンノゼデータセンターに20Gbps防御可能な(中国からの攻撃トラフ...

Webmaster.com からの毎日のレポート: CCB が電子商取引市場に参入、Taobao の悪いレビュー投稿者は月に 1 万元以上を稼ぐ

1. 浙江省裁判所による訴訟に関係する資産を競売にかけるオンライン司法オークションプラットフォームを...

2017-2018年のクラウドコンピューティングスタートアップへの大規模資金調達リストをマークダウン

スタートアップが成功するには、その背後にあるアイデアがユニークで、意味があり、ニーズを満たすものでな...

IDC: 中国のEA SaaS市場規模は2026年に183.1億米ドルに達する

IDCの最新の「IDC中国エンタープライズアプリケーション管理(EA)SaaS市場2021年下半期追...

2012年12月29日のBaiduランキングの変化についての私の個人的な意見

2012 年 1 か月間、Baidu には基本的に大きな変化はありませんでした。ランキングの変更は、...

加盟店コレクション: 日本のVPS、Alipay決済

日本の VPS を購入するのは簡単ではありません。そのほとんどは日本での現地決済が必要で、コミュニケ...

クラウド コンピューティングのセキュリティとは何ですか?クラウド コンピューティングの 3 つのサービス モデルは何ですか?

クラウド コンピューティングのセキュリティとは何ですか?クラウド コンピューティング セキュリティま...