Baidu がオリジナルコンテンツをどのように決定するかを確認し、オリジナルプロジェクトについて話し合います。

Baidu がオリジナルコンテンツをどのように決定するかを確認し、オリジナルプロジェクトについて話し合います。

1. 検索エンジンはなぜ独創性を重視するのでしょうか?

1.1 広範なデータ収集

Baidu の調査によると、従来のメディアの新聞からエンターテインメント サイトのゴシップ、ゲーム ガイドから製品レビュー、さらには大学図書館が発行するリマインダーに至るまで、ニュースや情報の 80% 以上が手動で複製または機械によって収集されていることがわかりました。質の高いオリジナルコンテンツは、コレクションの大海の中の一滴であると言えます。検索エンジンにとって、その大海の中の一滴を見つけるのは困難であり、挑戦でもあります。

1.2 検索ユーザーエクスペリエンスの向上

デジタル化により配信コストが削減され、ツール化により収集コストが削減され、機械による収集動作によりコンテンツのソースが混乱し、コンテンツの品質が低下します。収集プロセスでは、意図的か否かにかかわらず、不完全なコンテンツ、誤った形式、ジャンク Web ページの添付などの問題が次々と発生し、検索結果の品質とユーザー エクスペリエンスに深刻な影響を及ぼしています。検索エンジンが独創性を重視する根本的な理由は、ユーザー エクスペリエンスを向上させることです。ここでの独創性とは、高品質のオリジナル コンテンツを指します。

1.3 独創的な著者と記事を奨励する

転載・収集は、高品質の原著サイトからのトラフィックを流用し、原著作者の名前を冠することができなくなり、高品質の原著サイトの所有者や作者の収入に直接影響を及ぼします。長期的には、オリジナルクリエイターの熱意に影響を与え、イノベーションを阻害し、新しい高品質のコンテンツの制作を妨げることになります。質の高い独創性を奨励し、革新を奨励し、オリジナルのサイトや著者に適切なトラフィックを提供し、それによってインターネット コンテンツの繁栄を促進することは、検索エンジンの重要な役割であるはずです。

2. 収集は非常に巧妙で、元のものを特定するのは困難です

2.1 オリジナルを装い、重要な情報を収集し改ざんする

現在、多数のウェブサイトがオリジナルコンテンツを一括収集し、その後、手動または機械的な方法を使用して、作成者、リリース時間、ソースなどの重要な情報を改ざんし、オリジナルであるように見せかけています。このようなオリジナルを装ったコンテンツは、検索エンジンによって識別され、適切に調整される必要があります。

2.2 コンテンツジェネレーター、疑似オリジナリティの創出

自動記事生成ツールなどのツールを使うと、記事を「作成」して目を引くタイトルを付けることができます。コストは非常に低く、オリジナル性の高い記事になること間違いなしです。しかし、独創性は、意味をなさないゴミをランダムに作成するのではなく、社会的合意の価値を持たなければならず、価値のある高品質のオリジナル コンテンツと見なすことができます。コンテンツはユニークですが、社会的に合意された価値はありません。検索エンジンは、このような疑似オリジナリティを特定して取り締まる必要があります。

2.3 Webページは多様であり、構造化された情報を抽出することは困難である

サイトによって構造がかなり異なり、HTML タグの意味や分布も異なるため、タイトル、著者、時間などの重要な情報を抽出する難易度も大きく異なります。現在の中国のインターネットの規模を考えると、包括的で正確かつタイムリーな情報を提供することは容易ではありません。検索エンジンとウェブマスターが協力し、よりスムーズに運営する必要があります。ウェブマスターがより明確な構造を使用してウェブページのレイアウトを検索エンジンに伝えれば、検索エンジンはオリジナルで関連性の高い情報を効率的に抽出できるようになります。

3. Baidu はどのようにして独創性を識別するのでしょうか?

3.1 独自のプロジェクトチームを立ち上げて持久戦に挑む

課題に直面しながら、検索エンジンのユーザー体験を向上させ、質の高いオリジナルクリエイターとオリジナルウェブサイトが正当な利益を得られるよう支援し、中国インターネットの発展を促進するため、当社は多数の人材を集めて、技術、製品、運営、法務など、オリジナルプロジェクトチームを結成しました。これは一時的な組織でも、1、2か月のプロジェクトでもありません。当社は長期戦に備えています。

3.2 オリジナル識別「オリジン」アルゴリズム

インターネット上には何百億、何千億ものウェブページがあります。そこからオリジナルのコンテンツを掘り出すのは、干し草の山から針を探すようなものです。当社独自の識別システムは、Baidu のビッグデータ クラウド コンピューティング プラットフォーム上に実装されており、中国のインターネット Web ページ全体の重複集約とリンク ポイント関係の分析を迅速に実現できます。まず、コンテンツの類似性を通じてコレクションと独創性を集約し、類似したウェブページを原典識別の候補セットとしてグループ化します。次に、原典候補セットに対して、著者、リリース時間、リンク方向、ユーザーコメント、著者とサイトの歴史的独創性、転送軌跡など、数百の要素を通じて原典ウェブページを識別して判断します。最後に、価値分析システムを通じて原典コンテンツの価値を判断し、最終的な分類を適切に導きます。

現在、私たちの実験と実際のオンラインデータを通じて、「Origin」アルゴリズムは一定の進歩を遂げ、ニュースと情報の分野におけるほとんどの問題を解決しました。もちろん、他の分野でも「Origin」が解決を待っている独自の課題はまだまだあり、私たちは決意を持って前進しています。

3.3 オリジナルSparkプロジェクト

当社は、オリジナルコンテンツの識別とソートアルゴリズムの調整に注力してきましたが、現在のインターネット環境では、オリジナルコンテンツを迅速に識別し、オリジナルの問題を解決することは大きな課題に直面しています。コンピューティングデータの規模は膨大で、収集方法は無限であり、サイトごとにWebサイトの構築方法とテンプレートが大きく異なり、コンテンツの抽出は複雑であるなどです。これらの要因は、元のアルゴリズムの認識に影響を与え、誤った判断につながることもあります。現時点では、百度とウェブマスターは協力してインターネットの生態環境を維持する必要があります。ウェブマスターはオリジナルコンテンツを推奨し、検索エンジンは一定の判断を経てオリジナルコンテンツを優先します。両者は共同で生態環境の改善を推進し、独創性を奨励します。これが「オリジナルスパーク計画」であり、現在直面している深刻な問題を迅速に解決することを目指しています。さらに、ウェブマスターによるオリジナルコンテンツの推奨は「オリジン」アルゴリズムに適用され、Baidu がアルゴリズムの欠点を発見し、継続的に改善し、よりインテリジェントな認識アルゴリズムでオリジナルコンテンツを自動的に識別するのに役立ちます。

現在、オリジナルスパーク計画も初期成果を達成しており、第1段階では、いくつかの主要なオリジナルニュースサイトのオリジナルコンテンツに、Baiduの検索結果でオリジナルマークと著者表示が与えられ、ランキングとトラフィックの相当な向上も達成されました。

最後に、独創性は長期的な改善を必要とする生態学的問題です。私たちは、インターネット生態学の進歩を促進するために、ウェブマスターに投資し、協力し続けます。独創性は、みんなが一緒に維持する必要がある環境問題です。ウェブマスターは、より多くのオリジナルコンテンツを作成し、より多くのオリジナルコンテンツを推奨する必要があります。Baiduは、ソートアルゴリズムの改善、オリジナルコンテンツの奨励、オリジナルの著者とオリジナルサイトに合理的なソートとトラフィックを提供するために、引き続き努力します。


元のタイトル: Baidu がオリジナルコンテンツをどのように評価するかを見て、オリジナルプロジェクトについて語りましょう

キーワード:

<<:  オンラインマーケティングの今後の発展方向:ブランドプラスコンテンツマーケティング

>>:  中国SEOの豆知識: 外部リンク

推薦する

インターネット上でウェブサイトを構築するのは複雑ではありません。鍵となるのは、5 つの「本質」を理解することです (パート 2)

前回の記事では、ドメイン名登録の安全性、適時性、適用性について主に説明しました。ウェブマスターがドメ...

Apple、スマートウォッチとiPhone 6を発売

北京時間9月10日の早朝、Appleは米国カリフォルニア州クパチーノのフリントセンターで記者会見を開...

buyvm - メカニカルディスクはSSDに無料で交換可能、これも購入の理由

buyvm は 2010 年以来、低価格 VPS ランキングで常に上位 3 位にランクされています。...

BURSTNET - 25%割引コードが復活

Burst の 20% オフ割引コードが利用可能になってからどれくらい経ちましたか? Burst の...

vpsace-128M メモリ VZ 年払い 9 米ドル

以前、vpsace のプロモーションについて書きました (こちらを参照)。 全体的な状況: Inte...

Baidu が「神経質」なレポートを発表しました。SEO 担当者の今後の進路はどうなるのでしょうか?

前回、Baidu が当社のウェブサイトを 2 回禁止したため、ランキングは 100 位に落ちました。...

#BlackFriday# ドメイン名の登録と更新、SSL 証明書に関する情報がすべて 1 つの投稿にまとめられています。

毎年恒例のブラックフライデー・ゴールデンウィークは、ドメイン名やSSL証明書などを購入するのに最も安...

Googleを理解する: どのウェブページが高品質であるかを判断する

Mudou のブログの記事のほとんどはオリジナルなので、Google に掲載されることは常に理想的で...

imidc: 直接接続帯域幅、香港 VPS は年間 49 ドルから (20~80M 帯域幅)、香港専用サーバー (30M 帯域幅) は月額 59 ドルから

imidc は、香港データセンターの香港 VPS と香港独立サーバーの帯域幅をアップグレードした後、...

フレンドリーリンクでのマーキー要素の使用が欺瞞的かどうかを分析する

HTML コードで marquee 要素を使用すると、スクロールするテキスト サブタイトルを作成でき...

クラウド コンピューティング仮想化三部作の第 1 部: CPU とメモリの仮想化

みなさんこんにちは。私は IT プリセールス エンジニアのバーニーです。仮想化技術がクラウドコンピュ...

ウェブサイトのキーワードがホームページに表示されるまでの時間を予測する3つの方法

まず、キーワード予測が必要な理由を説明します。ここで考慮すべき点は、Webサイトの運用と会社の運用(...

abcvg: OVHは、あらゆるデータセンターでさまざまな専用サーバーを超低価格で提供しています

abcvg は非常に典型的で長年営業している再販業者で、主に OVH、Hetzner、online、...

GoogleとNutanixのハイブリッドクラウドレイアウト

現在、主要なパブリッククラウドベンダーはすでにハイブリッドクラウド戦略を導入しています。ハイブリッド...

Sentry Monitoring - フルスタック開発者向けの分散トレース

[[427214]]フルスタック開発者向けの分散トレースに関するシリーズのパート 1 へようこそ。こ...