百度の収集メカニズムを推測して収集量を急速に増やす方法

ウェブサイトが検索エンジンから十分なトラフィックを獲得したい場合は、ウェブサイトの包含を改善し、サイトのページにより多くの潜在的なキーワードを配置して、検索ランキングでできるだけ高い位置を占めるようにする必要があります。国内のウェブサイトが一般的にターゲットとする SEO 市場は Baidu 検索エンジンですが、ウェブマスターは最終的に、含まれているホームページ以外にはサイト上のページが非常に少ないことに気付くでしょう。なぜ検索エンジンは私たちの内部ページをインデックスしなくなったのでしょうか? 多くのウェブサイトは、これまで常にホームページにメインキーワードを追加し、その後、コレクションやマシンを使用してサイトにいくつかのランダムな記事を追加することで、Baidu スナップショットの日付でウェブサイトの「新鮮さ」を維持してきました (Sunny House Blog は、これは無意味であると考えています)。インターネットの混乱は止まることなく、今日まで発展し続けています。これが、検索エンジンが Web ページを気軽にインデックスしなくなった理由だと思います。 Baidu にウェブサイト上のより多くのページ情報をインデックスさせるには、検索エンジンのインデックス作成メカニズムの観点から始める必要があります。

百度のインデックスメカニズムを推測するには、「スパイダー」の動作原理を理解する必要がある。

Baidu 検索エンジンには、一般に「スパイダー」（英語名は「Baiduspider」）と呼ばれる自動プログラムがあり、その機能は、インターネット上の Web ページ、画像、ビデオ、その他のコンテンツにアクセスし、インデックスデータベースを構築して、ユーザーが Baidu 検索エンジンで Web サイトの Web ページ、画像、ビデオ、その他のコンテンツを検索できるようにすることです。検索エンジンの基本的な動作原理には、次の 3 つのプロセスが含まれます。まず、インターネット上の Web ページ情報を検出して収集します。同時に、情報を抽出して整理し、インデックスライブラリを確立します。次に、リトリーバーは、ユーザーが入力したクエリキーワードに基づいてインデックスライブラリからドキュメントをすばやく取得し、ドキュメントとクエリの関連性を評価し、出力する結果を並べ替えて、クエリ結果をユーザーに返します。

1. 「スパイダー」は単なるコレクターであり、より高度なものです。

世界最大の中国検索エンジンとして、現在何百万もの中国のウェブサイトを処理する必要があり、ウェブサイトの内部ページの数は空に星の数ほどあります。さて、科学的な観点から仮定してみましょう。Baidu の「スパイダー」は自動プログラムと呼べるものなので、ますます進化し (未来のロボットがますます賢くなるのと同じように)、キャプチャしたページコンテンツが有用かどうかを自動的に判断できるようになります。有用であれば、データを直接ポケットに入れ、現在のページのリンクに基づいて新しいページにクロールして、サイクルでキャプチャします。ポケットがいっぱいになると、情報をサーバーに戻し、一連のより専門的な計算を通じて比較し、データベースに正式に含める必要があるかどうかを判断します。プロセス全体はコレクターのようなもので、事前に設定された収集ルールに従い、ルールに準拠していない情報を除外します。

2. データベースに含まれると判断される情報

私はよく有名なデジタル Web サイトを訪れますが、そのコンテンツの多くは定型的な方法で互いに収集 (コピー) され、変更も加えられていないのに、主要な検索エンジンに含まれて表示されていることに気づきます。かわいそうなウェブマスターは何千ものデータを収集するために一生懸命働きましたが、しばらく待った後、ホームページかサイト上のいくつかのページだけが含まれていました。これは不公平だ、なぜ自分の収集したデータは含められるのに、自分のデータは含められないのかと不満を言う人はいませんか? Baidu の検索エンジンの組み込みメカニズムにおける参照要素の 1 つは「重み」(つまり、検索エンジンによるサイトの権威の判断) です。

ウェブサイトが「スパイダー」に捕捉された最初の日から、スパイダーはウェブサイトのあらゆる動きを監視し、その「重み」の高さを測る尺度としてウェブサイトのドメイン名に「スコア」を与えます。 Sunshine Home Blogは、重みに影響を与える主な要因の1つは、「Sina.com」を例にとると、Baidu検索エンジンによって監視されている多くの独占コンテンツ（オリジナル）が「最初のシーン」から他の場所に転載されていること、およびさまざまな大小のウェブサイトに頻繁に表示されるテキストリンク付きまたはリンクなしの静的URLとウェブサイト名（Sina.com、Sina）が多いこと、つまり「露出率」であると考えています。

実際、検索エンジンがこのようなインデックスメカニズムを通じてデータを処理することは非常に賢明です。時間の節約になり、サーバーの負担が軽減されるだけでなく、非常に費用対効果の高い手段でもあります。

ウェブサイトの重みの包含処理

仮定: ステーション A とステーション B の重みは両方とも 9 ポイントで、ステーション C の重み 2 ポイントよりも大きい。

（1）サイトAがサイトBからコンテンツを収集する場合、ほとんどの検索エンジンはそれをインデックスし、すぐに検索結果を表示します。

（2）サイトAがサイトCからコンテンツを収集する場合、ほとんどの検索エンジンはそれをインデックスし、すぐに検索結果を表示します。

（３）サイトCがサイトAとサイトBのコンテンツを収集した場合、そのコンテンツが検索結果に含まれない場合や、含まれていても検索結果が表示されるまでに数日かかる場合があります。

権威の高いウェブサイトは、同じレベルのウェブサイトからコンテンツを取得しているかどうかに関係なく、より簡単に組み入れられ、すぐに表示されます。権威の高いウェブサイトは検索エンジンにおいて権威と露出度を表すため、検索エンジンは、ウェブサイトが提供する情報が収集されているかどうか、また長い歴史があるかどうかに関係なく、ネットユーザーにとって確実に必要であると考える可能性が高くなります。これは、この Web サイト上の情報が通常、多くの人に閲覧され、非常に速く広まることを意味します。検索エンジンでのユーザーの優れたエクスペリエンスを向上させるには、コンテンツをタイムリーに収集し、検索しているユーザーにできるだけ早く関連する結果を表示することが非常に重要です。

重み付けの低い Web サイトは、現在人気のあるコンテンツや古くなったコンテンツをコピーして転載しています。これらのコンテンツが「スパイダー」によって判断および分析されると、多くの Web サイト、特に重み付けの高い Web サイトがコンテンツを転載していることがわかり、データを検索エンジンのサーバーに戻して処理する必要はないと判断されます。なぜそのような判断をするのでしょうか。そのような情報はすでに検索エンジンのデータベースに存在し、権威の高い一部のウェブサイトから取得されているため、ユーザーが関連情報を検索した場合でも、多くの関連コンテンツを提供でき、権威が比較的強いからです。もしあなたが百度検索エンジンのエンジニアであれば、ユーザーが「扁桃炎」を検索したときに、百度百科事典が優れていて、ある健康ウェブサイトも非常に専門的であるとユーザーに伝えるでしょう。検索エンジンはユーザーの味方として、理由もなくあなたの周りの人にインチキ医者を勧めたりはしませんし、叱責を受ける可能性もあります。

たとえば、ある大手ウェブサイトが、昨年何度も転載された試験のエッセイを今日公開しました。ウェブサイトの高重み検索エンジンは、そのエッセイに信頼感を持っているため、この情報を提供する必要があると判断し、再公開しました。ユーザーが構成に関連する情報を検索すると、検索エンジンはデータベースにクエリを実行して関連する一致情報を探し、Web サイトの現在のページの重みに基づいてランク付けされた形式で検索結果を表示します。検索エンジンを友達だと思ってください。Baidu に「iPhone 4S」の最新ニュースがどこにあるか尋ねると、検索エンジンは「Pacific、Sina、NetEase という兄弟を知っている」と答えます。彼らは知っているようです。そこに行って、関連情報があるかどうかを確認できます。ない場合は、2 ページ目を開くか、あまりよく知らない友達が関連情報を持っているかどうかを確認します。

ウェブサイトの重さは検索エンジンにおけるウェブサイトの生命線です

これからは、コンテンツを更新する方法を学ぶだけでなく、Web サイトの露出を高め、Baidu の「スパイダー」に見つけてもらう方法も学ぶ必要があります。通常のウェブサイトと同じように扱い、更新とメンテナンス、オフサイトプロモーションの2つのステップを繰り返します。このウェブサイト構築のサイクルを完了すれば、ウェブサイトの重みは増し続け、インクルージョンの問題は自然に解消されます。最大のメリットは、検索エンジンでの全体的なキーワードランキングも向上することです。

原文: Sunshine Small House Blog 出典: http://www.GuangZZZ.com/post-6.html

原題：Baiduの収集メカニズムを推測して収集量を急速に増やす方法

キーワード: 検索エンジン、SEO、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<: 公証役場のウェブサイトが日本の出会い系サイトに変貌。当局は新たなウェブサイトに登録するとしている。

>>: Baidu アプリクラウドワールド妊娠と子育て SEO: 未来はどこにあるのか?