Baidu のウェブサイトのクロールとインデックスに関する分析

Baidu のウェブサイトのクロールとインデックスに関する分析

百度は28日、「検索エンジンインデックスシステムの概要」を正式に発表し、検索エンジンがどのようにページをクロールし、インデックスし、ランク付けするかについて概要を説明した。では、ウェブサイト管理者は、これらのルールをどのように活用して、ウェブサイト上の優れたコンテンツをユーザーにわかりやすく表示できるでしょうか? Qzhu 氏の意見では、解決する必要がある問題は次のとおりです。

最初の質問: ウェブサイトのデータを完全に取得するにはどうすればよいか

分析:この問題をウェブサイト構造の観点から説明すると、Baidu がウェブサイトのページを完全に網羅するには、検索エンジン スパイダーによるウェブサイトのクロールを最大限に高める必要があり、そのためにはシンプルで明確かつ階層的なウェブサイト構造が必要です。 Baidu の多くのドキュメントでは、合理的な Web サイト構造とは何か、つまりメッシュ フラット ツリー構造について言及されています。

1. ネットワークは、各ページに少なくとも 1 つのテキスト リンクが設定されていることを保証し、Web サイトを可能な限り包括的にクロールして組み込むことができるようにします。内部リンクの構築もランキングにプラスの影響を与える可能性があります。

2. フラット化により、ホームページから内部ページまでの階層が可能な限り少なくなり、クロールが容易になり、負荷をうまく分散できるようになります。

3. 典型的なツリー構造は、ホームページ - チャンネルページ - コンテンツページです。

検索エンジンがウェブサイト全体の各ページの位置を把握しやすくするために、トップ、パンくずリスト、ボトムナビゲーションなどのナビゲーションを追加しました。ナビゲーションの主な目的は、ウェブサイト内のページの位置を決定することだけであることに注意してください。ナビゲーションはこれらのリンクの最も重要な属性であるため、自然なものにし、キーワードを積み重ねないようにしてください。

ナビゲーションに似た機能は、URL の標準化です。簡潔で美しい URL は、ユーザーや検索エンジンがページの主な内容を自然に理解できるようにするだけでなく、Web サイトの場所のナビゲーション機能としても機能します。同様に、Qzhu は URL をできるだけ短くする必要があることを強調する必要があります。中国語の検索最適化では、URL にキーワードが含まれているかどうかは、ページのランキングにほとんど影響しません。たとえば、Qzhu によるこの記事「Baidu の検索原理の説明」では、URL1 は /seo/baiduguanyusousyuanlidechanshu.html、URL2 は /seo/123.html です。Qzhu の選択は URL2 です。

検索エンジンがページをクロールするときには、コンテンツを繰り返さないこととページビューを繰り返さないことという 2 つの点に特に注意する必要があります。前者は、ページ コンテンツの一意性を確保し、コンテンツの独創性を保護し、Web サイトに対する検索エンジンのスコアを高めるためのものであり、後者は、不要な内部競争を回避するためのものです。

2 番目の質問: 検索エンジンはどのようにインデックスを作成するのでしょうか?

分析: ユーザーが検索ボックスにキーワードや文章を入力すると、検索エンジンは結果を出力する前に、インターネット上の何十億もの Web ページを分析、整理し、データベースに保存する必要があります。また、インデックスも作成します。ユーザーがキーワードを入力すると、検索エンジンはページを重要度の高い順に並べ替えて、ユーザーに提示します。これは、ユーザーがキーワードを入力してからわずか数ミリ秒で検索エンジンが結果を出力できる理由でもあります。

では、検索エンジンはどのようにしてウェブサイトのページを分析し、インデックスを作成するのでしょうか?

現在、すべてのエンジンは、継続的な識別とマーキングを通じてページ コンテンツを分析します。各 URL には異なるタグが付けられ、データベースに保存され、独創性やページの重みなどの要素に従って並べ替えられます。 Qzhuの「Baiduの検索原理の説明」を例に挙げてみましょう。認識を通じて、このテキストはBaidu、について、検索、原理、説明に分けることができます。検索エンジンが単語を分割する方法の詳細については、Qzhu による別の記事「検索エンジンがファイルを理解する方法」をお読みください。

検索エンジンのページ分析のプロセスは、実際には、タイトル、キーワード、コンテンツ、リンク、アンカー、コメント、その他の重要でない領域など、元のページのさまざまな部分を識別してマークすることであることに注意してください。したがって、ページを最適化するときは、タイトル、キーワードのレイアウト、メインコンテンツ、内部および外部リンクの説明、コメントに特に注意する必要があります。

3 番目の質問: 検索エンジンはどのように結果を出力するのでしょうか?

分析: コンテンツがマークされ、インデックス付けされた後、ユーザーがキーワードを検索すると、検索エンジンはさまざまな組み合わせとさまざまなランキングアルゴリズム要素を組み合わせて、重要度の逆順にさまざまな結果を出力できます。

例:

バイドゥ-0x123abc

-0x13445dについて

検索 - 0x234d

原則-0x145cf

説明 - 0x354df

各単語の下には異なるページがあります。

0x123abc-1,3,4,7,8,11。 。

0x13445d-2,5,8,9,11

検索するキーワードが 0x123abc+0x13445d の場合、8 と 11 が結果に一致します。

要件を満たす結果は、デッドリンク、重複データ、ポルノ、ジャンク結果などのフィルタリングを含む、何層ものフィルタリングを通過する必要があることに注意してください。 。 。ユーザーのニーズに最も合った結果が上部に並べられ、ウェブサイトの全体的な評価、ウェブページの品質、コンテンツの品質、リソースの品質、一致度、分散性、適時性などの有用な情報が含まれる場合があります。詳細については、Qzhu のどの要素がウェブサイトのランキングを向上させることができるかを確認できます。

この記事はもともとTongxiang SEO (http://www.seozoro.com/) によって公開されました。転載の際には著者の著作権を尊重し、出典を明記してください。


原題: Baidu のウェブサイトのクロールとインデックスに関する分析

キーワード: インデックス、クロール、Baidu

<<:  Baidu SEOを行う際には、Googleにも十分注意してください。

>>:  外部リンクの効果を高めるにはどうすればいいでしょうか?

推薦する

RFCHOST - VPS 新年 20% オフ、高品質 GIA CN2/ロシア ハバロフスク、Alipay

RFCHOST 新年プロモーション、ロサンゼルス GIA CN2 ライン、ロシア ハバロフスク、これ...

電子商取引時代のオンラインプロモーションにおいて中小企業が勝利するにはどうすればいいのでしょうか?

1998年の「電子商取引の年」以来、電子商取引は世界中で急速に発展してきました。世界各国は、この新し...

百科事典 |クラウドコンピューティングとは何ですか?

ご存知のとおり、クラウド ストレージはビッグ データを扱うのではなく、物理サーバーやオペレーティング...

予測不可能な検索エンジンに対応する方法

今のSEOに携わる人たちは、とても惨めな人たちであることは明らかです。彼らは毎日、上司からの問い合わ...

Weiboゲームとeスポーツホワイトペーパー2018!

オープンなWeiboプラットフォームは、ゲームメーカー、KOL、関心のあるユーザーを結び付けます。現...

ファイバーステートはどうですか?ソルトレイクシティデータセンター専用サーバーの詳細レビュー

Fiberstateは新しいビジネスです。主な業務は、ソルトレイクシティのコンピュータールームでのサ...

BATクラウドコンピューティング競争は同じ結論に終わりました。国内の一流メーカーと二流メーカーの間には明らかな差があります。

2月22日、百度は初めてクラウドコンピューティングの業績を公開した。2018年第4四半期の収益は11...

夫婦がスマート教育ウェブサイト「Lynda」を開設し、1年で7000万ドルを稼いだ

1990年代に夫婦がウェブサイトを開設しました。当初は技術指導ビデオを提供するのみでしたが、その後、...

クラウドコンピューティングの8つの一般的な用途

クラウド コンピューティングとは、ユーザーがインターネット経由でクラウド サービスに対して料金を支払...

WeChat for Businessを通じてPrometheusアラートを実装する方法を教えます

1. プロメテウスのアーキテクチャコンポーネントの紹介Prometheusサーバー: メトリックを収...

一般的に、クラウド コンピューティングのコストの主なカテゴリは何ですか?

中国におけるクラウドコンピューティングは急速に発展している産業です。業界のプレイヤーたちは非常に激し...

cheapwindowsvps - Windows VPS が永久に 30% オフ、コンピュータ ルーム 10 室/タイ/シンガポール/Alipay

cheapwindowsvps.com は現在、すべての VPS を 30% 割引で提供しています。...

ブランドマーケティング競合製品調査

マーケティングは戦争のようなものです。自分自身と敵を知って初めて、あらゆる戦いに勝つことができます。...

百度はアルゴリズムを更新し、データ収集法に違反する5種類のウェブサイトの取り締まりに重点を置く

【はじめに】昨日、小湘宇文はA5に「百度サーバー問題、ウェブサイトのスナップショットは実はオンライン...