ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

このシリーズ:

  • 「Webクローラー作成ガイド(1):NetEase Cloud Musicプレイリスト」
  • 「Webクローラーの書き方を教える(2): ミニクローラーのアーキテクチャ」
  • 《Webクローラーの書き方をステップバイステップで教える(3):オープンソースのクローラーフレームワークの比較》
  • 《Webクローラーの書き方を教えます(4):Scrapy入門》
  • 「Web クローラーの書き方を教える (5): PhantomJS の実践」

[[230059]]

筆者は以前、「Who Am I – No System Is Safe」という映画を見たことがあります。映画の中のハッカーのボス「Who Am I」は、FBIや他のハッカー組織による追跡を避けるためにプロキシを使用して身を隠しました。

タスクID:フラグ:クローラー:情報
提出済み 価値 例示する
合計数 10000 キャプチャされたURLの合計数: キャプチャが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クロールに失敗した URL の数: クロールに失敗した URL に 1 を加えた数
スイッチ 1 タスクステータス: 0: 停止、1: 開始、2: 一時停止、3: 一時停止と開始
優先度 1 タスクの優先度
再試行回数 0 再試行回数
状態 0 タスク実行ステータス: 1: 進行中、2: 完了
参照 0 URL 参照カウント: 消費された URL ごとに 1 を減算します。生成された URL ごとに 1 が加算されます。 0 の場合、タスクは完了です。
最大スレッド数 100 タスクの最大スレッド数
残りのスレッド数 10 利用可能な残りのスレッド数
最終フェッチ時間 1496404451532 最終クロール時間

タスクID:フラグ:パーサー:情報

提出済み 価値 例示する
合計数 10000 分析の合計数: 分析が完了したら、成功しても失敗しても 1 を加算します。
失敗回数 0 解析失敗回数: 解析失敗、プラス 1
クローラーステータス 0 クロールステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: クローラーが Web ページを保存するたびに 1 ずつ増加します。パーサーが Web ページを解析するたびに、この値は 1 ずつ減少します。値が 0 であっても、タスクが完了したことを意味するわけではありません。 crawlerStatus が 2 で ref が 0 の場合、タスクは完了します。

タスクID:フラグ:フィルター:情報

提出済み 価値 例示する
合計数 10000 クリーニングの合計回数: クリーニングが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クリーニング失敗回数: クリーニング失敗、プラス1
クローラーステータス 0 解析ステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: パーサーがデータを保存するたびに 1 ずつ増加します。フィルターがデータをクリーンアップするたびに、この値は 1 ずつ減少します。値が 0 になっても、タスクが完了したことを意味するわけではありません。 parserStatus が 2 で ref が 0 の場合、タスクは完了します。

プロセス制御 – フェイルオーバー

Crawler_core マシンがクラッシュすると、データ回復手順が開始され、このマシンの未完了のタスクがすべてパブリック キャッシュに復元されます。

<<:  仮想空間における静的パスと疑似静的パスの利点は何ですか?

>>:  クラウドコンピューティングの支出を削減する5つの簡単な方法

推薦する

Jianshi TechnologyのLiu Xinming氏:ソフトウェア開発をより安全かつ効率的に

[51CTO.com からのオリジナル記事] インターネット業界の急速な発展に伴い、IT 実務家は多...

ウェブサイトがBaiduの審査サイクルをスムーズに通過するためのいくつかの重要な段階

ご存知のとおり、ウェブサイトの運用最適化は段階的なプロセスです。ウェブサイト構築後の SEO の各段...

SparkプロジェクトによってもたらされたSEOの変更についてお話ししましょう

翻訳するスパーク計画はSEO業界にどのようなSEOの変化をもたらすのでしょうか?ご存知のとおり、スパ...

「2021スマートエコノミーサミットフォーラム」開催、百度スマートクラウドの4大アップグレードが産業インテリジェンスを加速

7月29日、北京で「2021スマート経済サミットフォーラム」が開催された。会議では、産業インテリジェ...

rackhost-$3.5/10g ポート/無制限トラフィック/KVM/512M メモリ VPS

Rackhostはホストキャットに2回登場しました。2002年から運営しているこのホスティング業者(...

フォレスター:パブリッククラウド市場規模は2026年までに1兆ドルを超える

Forrester の最近のレポートによると、パブリック クラウド市場は 2022 年の 4,466...

SEO チュートリアル講義 13: SEO では、さまざまなタイミングで Web サイトの戦略的ポジショニングをどのようにカスタマイズすればよいでしょうか?

私は長い間 SEO チュートリアルを書いていませんでしたが、多くの友人がそれについて不満を抱いていま...

Baiduの外部リンクツールに関するいくつかの意見と簡単な議論

最近、Baidu の外部リンク ツールについての記事が数多くあることに気づきました。今日は、Baid...

プライベートクラウドの構築には、ALLINONE と階層独立構築・最適化のどちらを使うべきでしょうか?

プライベート クラウドを構築するには 2 つのアプローチがあります。 1 つは、ALLINONE ア...

不均一な業界パフォーマンスに合わせて最適化戦略を調整する方法

ウェブサイトの最適化は普遍的な技術でしょうか? ある程度の最適化作業経験を持つ人なら、それがすべての...

Baiduの自然ランキングを分析してユーザーのニーズを理解する

Baidu の自然なランキングを使用して Web サイトを分析すると、お互いの長所を学び、弱点を克服...

テンセントと奇虎の敵対関係:テンセントが開放を加速し、360の株価が急騰

テンセントの市場支配力の乱用に対するQihoo 360の控訴が最高人民法院で始まる中、インターネット...

B2B業界のウェブサイト電話営業が持つべき精神

B2B 業界のウェブサイト電話営業担当者は、一定の専門知識と営業スキルを備えているだけでなく、電話営...

JD.comの子会社MiniTiaoは、同社が賃金を滞納していることを明らかにし、親会社を公に非難した。

上場を控えたJD.comは、Yixunとの統合危機に直面したばかりだ。その後すぐに、主に日本と韓国の...