検索エンジンにおけるウェブクローラーの設計分析

検索エンジンにおけるウェブクローラーの設計分析

簡単に言えば、Web クローラーは、使用する「オフライン読み取り」ツールに似ています。オフラインであっても、インターネットに接続する必要があります。そうしないと、どうやってダウンロードできるのでしょうか?それで、違いは何でしょうか?

1) Web クローラーは高度に構成可能です。

2) ウェブクローラーはキャプチャしたウェブページ内のリンクを解析できる

3) Webクローラーはシンプルなストレージ構成を持つ

4) ウェブクローラーはウェブページの更新に基づいたインテリジェントな分析機能を備えている

5) ウェブクローラーは非常に効率的である

では、実際には要件である機能に基づいて、クローラーをどのように設計すればよいのでしょうか?どのステップに重点を置くべきでしょうか?

1) URLトラバーサルと記録

Larbin はこれをうまくやっています。実際、URL をトラバースするのは非常に簡単です。たとえば、次のようになります。

cat [結果] tr \" \\n gawk '{print $2}' pcregrep ^http://

URLのリストを取得できます。

2) マルチプロセスとマルチスレッド

それぞれに利点があります。現在、booso.com などの一般的な PC は、1 日に 5G のデータを簡単にクロールできます。約20万のウェブページ。

3) 時間更新制御

最も愚かなことは、重量を更新する時間がなく、一気に登り、戻ってもう一度登ることです。

通常、次のクロールのデータは前回のクロールと比較されます。5 回連続して変化がない場合は、この Web ページをクロールする時間間隔が 2 倍になります。

5 回連続のクロール中に Web ページが更新されると、クロール時間は元の時間の半分に短縮されます。

効率性が成功の鍵の 1 つであることに注意してください。

4) 這う深さはどのくらいですか?

それは状況によります。非常に強力で、Web クローラーを実行するサーバーが何万台もある場合は、この点をスキップすることをお勧めします。

私のように Web クロール用のサーバーが 1 つしかない場合は、次の統計を知っておく必要があります。

ウェブページの深さ: ウェブページの数: ウェブページの重要度

0 : 1 : : 10

1:20::8

2: :600: :5

3: :2000: :2

4上記:6000:一般的には計算できない

まあ、レベル 3 まで登れば十分です。さらに深く進むと、データ量が 3/4 倍になり、重要度が大幅に低下します。これを「ドラゴンの種を植えてノミを収穫する」といいます。

5) クローラーは通常、互いのウェブページを直接クロールしません。通常はプロキシを経由してクロールします。このプロキシには、負荷を軽減する機能があります。相手のウェブページが更新されていない場合は、ヘッダータグを取得するだけで十分です。一度にすべてを送信する必要がないため、ネットワーク帯域幅を大幅に節約できます。

Apache Web サーバーに記録された 304 は通常キャッシュされます。

6) 時間があるときにrobots.txtを確認してください

7) ストレージ構造。

これは意見の問題です。Google は gfs システムを使用しています。サーバーが 7 台または 8 台ある場合は、NFS システムを使用することをお勧めします。サーバーが 70 台または 80 台ある場合は、afs システムを使用することをお勧めします。サーバーが 1 台しかない場合は、どちらでも問題ありません。

以下は、私が作成したニュース検索エンジンがデータを保存する方法のコード スニペットです。

NAME=`echo $URL perl -p -e 's/([^\w\-\.\@])/$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord($1))/eg'`mkdir -p $AUTHOR

newscrawl.pl$URL--user-agent="news.booso.com ( http://booso.com)"-outfile=$AUTHOR/$NAME


次の文に特に注意してください。

1. 通常、次のクロールのデータは前回のクロールと比較されます。5 回連続して変更がない場合は、Web ページをクロールする時間間隔が 2 倍になります。5 回連続のクロール中に Web ページが更新された場合は、設定されたクロール時間が元の時間の 1/2 に短縮されます。

ウェブページの更新頻度は、検索エンジンのスパイダーによるウェブサイトのクロールの度合いに重大な影響を及ぼします。ウェブページがクロールされる回数が多いほど、含まれる可能性が高くなり、含まれるページの数も増えます。インクルージョンは SEO の最も基本的な部分です。

原題: 検索エンジンにおけるウェブクローラーの設計分析

キーワード: ネットワーク

<<:  Googleがユーザーに注意喚起:リンクの交換はPRインデックスを下げる

>>:  ウェブサイトのPR価値とページのPR価値について簡単に説明します

推薦する

有能なウェブマスターになる方法について語る [パート 2]

前回は主にデータ セキュリティ、Web サイト セキュリティ、サーバー セキュリティなどの問題につい...

副業でお金を稼ぎますか?副収入を得るのに役立つ起業家向けウェブサイト 5 選

私はいつも自分自身にこの質問をしてきました。誰かが広告を出しているのを見るといつも、私は尋ねたくなり...

lisahostはどうですか? 3ネットワークCMIラインの香港VPSの詳細テスト

lisahost は香港の VPS サービスを新たに開始しました。公式発表によると、中国電信は発信ト...

クラウド コンピューティングは、教育を変える次のブレークポイントとなるでしょうか?

現在、世界的にデジタル経済が活況を呈しており、さまざまな新興テクノロジーが次々と登場していますが、ク...

競合他社に敬意を表し、彼らから学ぶ

SEO を行う際に、競合他社に敬意を払い、彼らから学ぶことができれば、将来歩める道はより広くなるでし...

UCloud CEO の Ji Xinhua 氏が「トップ 10 の革新的な経済人」賞を受賞

12月26日、「第51回クレジットカード新霊獣夜・中国(杭州)イノベーション経済人表彰式」が盛大に開...

Tripodcloud: 米国西海岸向け多目的 CN2 GIA ライン 大容量ハードディスク VPS、16% オフ プロモーション

Tripodcloudは最近、補充のためにVPSマシンを一式追加し、ホストキャットに特別に16%割引...

ダブル11の背後にあるブラックテクノロジー:アリババクラウドネットワークエンタープライズ製品ファミリーのアップグレード

企業顧客の高水準のネットワーク要件を満たすため、Alibaba Cloudは12月13日にネットワー...

xxmhost ロサンゼルス、米国 cn2 gia vps 簡単な評価、モバイル アウトバウンド CMI すべて強制双方向 cn2

xxmhost(Red Panda Cloud、2009年設立)は、中国と香港の合弁VPSプロバイダ...

estnoc: 香港の VPS に直接接続、帯域幅が大きい、スピードが速い、ウェブサイト構築、「言葉では言い表せない」推薦

香港には大きな帯域幅を持つ VPS はほとんどなく、大きな帯域幅と直接接続を備えた香港の VPS は...

ウェブサイトのキーワードを最適化するにはどうすればいいですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています検索エンジ...

「体重が給料に影響する理論」から考える良質なコンテンツのレイアウト

「コンテンツは王、外部リンクは皇帝」ということわざにあるように、高品質のコンテンツと外部リンクがあれ...

hostxen: 新規顧客は50元、香港/シンガポール/日本/米国、月額70元、6Gメモリ/2コア/40g SSD/無制限トラフィック、Windows/Linuxをサポート

hostxen (~) は現在、検証に合格した新規顧客に 50 元のアカウント残高を提供しており、こ...

SEOのための外部リンクと内部リンクを分析する

SEO最適化における外部リンクと内部リンクの違いは常識であり、ほとんどのウェブマスターはすでにそれを...

.cnドメイン名についての冗談はやめてください

CNNICによると、2012年5月29日午前0時から、個人は.cnドメイン名を登録できるようになり、...