ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

このシリーズ:

  • 「Webクローラー作成ガイド(1):NetEase Cloud Musicプレイリスト」
  • 「Webクローラーの書き方を教える(2): ミニクローラーのアーキテクチャ」
  • 《Webクローラーの書き方をステップバイステップで教える(3):オープンソースのクローラーフレームワークの比較》
  • 《Webクローラーの書き方を教えます(4):Scrapy入門》
  • 「Web クローラーの書き方を教える (5): PhantomJS の実践」

[[230059]]

筆者は以前、「Who Am I – No System Is Safe」という映画を見たことがあります。映画の中のハッカーのボス「Who Am I」は、FBIや他のハッカー組織による追跡を避けるためにプロキシを使用して身を隠しました。

タスクID:フラグ:クローラー:情報
提出済み 価値 例示する
合計数 10000 キャプチャされたURLの合計数: キャプチャが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クロールに失敗した URL の数: クロールに失敗した URL に 1 を加えた数
スイッチ 1 タスクステータス: 0: 停止、1: 開始、2: 一時停止、3: 一時停止と開始
優先度 1 タスクの優先度
再試行回数 0 再試行回数
状態 0 タスク実行ステータス: 1: 進行中、2: 完了
参照 0 URL 参照カウント: 消費された URL ごとに 1 を減算します。生成された URL ごとに 1 が加算されます。 0 の場合、タスクは完了です。
最大スレッド数 100 タスクの最大スレッド数
残りのスレッド数 10 利用可能な残りのスレッド数
最終フェッチ時間 1496404451532 最終クロール時間

タスクID:フラグ:パーサー:情報

提出済み 価値 例示する
合計数 10000 分析の合計数: 分析が完了したら、成功しても失敗しても 1 を加算します。
失敗回数 0 解析失敗回数: 解析失敗、プラス 1
クローラーステータス 0 クロールステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: クローラーが Web ページを保存するたびに 1 ずつ増加します。パーサーが Web ページを解析するたびに、この値は 1 ずつ減少します。値が 0 であっても、タスクが完了したことを意味するわけではありません。 crawlerStatus が 2 で ref が 0 の場合、タスクは完了します。

タスクID:フラグ:フィルター:情報

提出済み 価値 例示する
合計数 10000 クリーニングの合計回数: クリーニングが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クリーニング失敗回数: クリーニング失敗、プラス1
クローラーステータス 0 解析ステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: パーサーがデータを保存するたびに 1 ずつ増加します。フィルターがデータをクリーンアップするたびに、この値は 1 ずつ減少します。値が 0 になっても、タスクが完了したことを意味するわけではありません。 parserStatus が 2 で ref が 0 の場合、タスクは完了します。

プロセス制御 – フェイルオーバー

Crawler_core マシンがクラッシュすると、データ回復手順が開始され、このマシンの未完了のタスクがすべてパブリック キャッシュに復元されます。

<<:  仮想空間における静的パスと疑似静的パスの利点は何ですか?

>>:  クラウドコンピューティングの支出を削減する5つの簡単な方法

推薦する

Baidu のマッチングアルゴリズムがウェブサイトのランキングに与える影響

多くのウェブマスターの友人は私と同じだと思います。彼らは時々 SEO ブログ、SEO フォーラム、ま...

キャッシュバック型タオバオ加盟店を禁止するタオバオの動機と野望

タオバオは、咳をするだけで広範囲に影響を及ぼすほど巨大だ。タオバオ・アライアンスが来年からキャッシュ...

新年のマーケティング戦争

要点春節が近づくにつれ、消費者ブランドはペプシとのマーケティング戦争を開始し、王老吉はマーケティング...

QuadraNet - $39/Q9300/8g メモリ/1T ハードディスク/15T トラフィック/5IPv4/ロサンゼルス

QuadraNet は時々現れて、ジャンクなものをいくつか出します。彼らによると、これは超低価格のサ...

6年間の技術革新:アリババのグローバル化とコンプライアンスへの挑戦と探求

グローバル化されたテクノロジーは、グローバル化されたビジネスに根ざしています。 5段階の進化を経て、...

農産物のオンライン化には4つの大きな課題がある:収益モデルの検討が必要

[中国にはいくつかの形態の農業協同組合が存在するが、農産物の70%以上は依然として個人投資家によって...

ブログマーケティングでは、心を変えて古いボトルに新しいワインを入れる必要があります。経験

近年、ブログの台頭と電子商取引サイトの急速な発展により、オンラインプロモーション方法の 1 つである...

セレブたちも国境を越えた活動に夢中で、宋千、唐燕、江淑英らは皆東方見出しに参加した!

近年、コンピュータやインターネットの急速な発展により、人々のライフスタイル、支払い方法、さらにはスタ...

景文インターネット:業務再開を記念して、クラウドサーバー(VPS)20%割引、香港cn2\シンガポール\米国cn2\日本データセンター

景文インターネットは、感染症対策と業務・生産再開における段階的な成果を祝い、優遇プロモーションを実施...

公安省は、インターネット関連の重要事件の第2弾として、50のウェブサイトとサービスプロバイダーを対象とすると発表した。

10月18日のニュース:公安部は本日、サイバー犯罪対策の国家特別キャンペーンの強化に関する第2回ビデ...

調査によると、クラウド監視および管理ツールは不十分であることが判明

Enterprise Management Associates (EMA) の最近の調査では、企業...

最近百度が目撃した奇妙な現象のいくつかを詳しく見てみる

過去には、2012 年は世界の終わりだとよく言われていましたが、SEO の世界では、2012 年は多...

百度の共有機能に関する5つの重要な分析

しばらく何も書いていなかったので、いつも何かが欠けているように感じていました。ここ数か月、Baidu...

Apple Music、映画、書籍サービスが中国に進出

アップルは9月30日、中国本土のユーザー向けにApple Music、iTunesムービー、iBoo...