ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

このシリーズ:

  • 「Webクローラー作成ガイド(1):NetEase Cloud Musicプレイリスト」
  • 「Webクローラーの書き方を教える(2): ミニクローラーのアーキテクチャ」
  • 《Webクローラーの書き方をステップバイステップで教える(3):オープンソースのクローラーフレームワークの比較》
  • 《Webクローラーの書き方を教えます(4):Scrapy入門》
  • 「Web クローラーの書き方を教える (5): PhantomJS の実践」

[[230059]]

筆者は以前、「Who Am I – No System Is Safe」という映画を見たことがあります。映画の中のハッカーのボス「Who Am I」は、FBIや他のハッカー組織による追跡を避けるためにプロキシを使用して身を隠しました。

タスクID:フラグ:クローラー:情報
提出済み 価値 例示する
合計数 10000 キャプチャされたURLの合計数: キャプチャが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クロールに失敗した URL の数: クロールに失敗した URL に 1 を加えた数
スイッチ 1 タスクステータス: 0: 停止、1: 開始、2: 一時停止、3: 一時停止と開始
優先度 1 タスクの優先度
再試行回数 0 再試行回数
状態 0 タスク実行ステータス: 1: 進行中、2: 完了
参照 0 URL 参照カウント: 消費された URL ごとに 1 を減算します。生成された URL ごとに 1 が加算されます。 0 の場合、タスクは完了です。
最大スレッド数 100 タスクの最大スレッド数
残りのスレッド数 10 利用可能な残りのスレッド数
最終フェッチ時間 1496404451532 最終クロール時間

タスクID:フラグ:パーサー:情報

提出済み 価値 例示する
合計数 10000 分析の合計数: 分析が完了したら、成功しても失敗しても 1 を加算します。
失敗回数 0 解析失敗回数: 解析失敗、プラス 1
クローラーステータス 0 クロールステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: クローラーが Web ページを保存するたびに 1 ずつ増加します。パーサーが Web ページを解析するたびに、この値は 1 ずつ減少します。値が 0 であっても、タスクが完了したことを意味するわけではありません。 crawlerStatus が 2 で ref が 0 の場合、タスクは完了します。

タスクID:フラグ:フィルター:情報

提出済み 価値 例示する
合計数 10000 クリーニングの合計回数: クリーニングが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クリーニング失敗回数: クリーニング失敗、プラス1
クローラーステータス 0 解析ステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: パーサーがデータを保存するたびに 1 ずつ増加します。フィルターがデータをクリーンアップするたびに、この値は 1 ずつ減少します。値が 0 になっても、タスクが完了したことを意味するわけではありません。 parserStatus が 2 で ref が 0 の場合、タスクは完了します。

プロセス制御 – フェイルオーバー

Crawler_core マシンがクラッシュすると、データ回復手順が開始され、このマシンの未完了のタスクがすべてパブリック キャッシュに復元されます。

<<:  仮想空間における静的パスと疑似静的パスの利点は何ですか?

>>:  クラウドコンピューティングの支出を削減する5つの簡単な方法

推薦する

hiformance - VPS 最低 $10/年/KVM/1T トラフィック/5 つのデータ センター/Windows/#2 倍のリソースを送信#

Hiformanceは今年のブラックフライデーから数々のプロモーションを開催し、海外のネットユーザー...

BeastNode - 7 ドル / 1g メモリ / 35g SSD / 2T トラフィック / シングルホップ / シカゴ / アムステルダム

BeastNode.com はカリフォルニアに登録された会社です。主に MINECRAFT ゲームに...

blastvm-$7/Xen/Win2003/768m メモリ/25g ハードディスク/1T トラフィック/ダラス

Blastvm の現在の事業には、仮想ホスティング、再販業者、VPS [openvz+kvm+マネー...

オンラインマーケティングの3年間の実践経験を共有: オンラインマーケティングについての簡単な講演

簡単に言えば、インターネット マーケティングとはオンラインで顧客を見つけることです。今日の情報化時代...

Terraform エコシステムを Kubernetes の世界に結び付ける

背景主要クラウドベンダーの製品ポートフォリオが拡大するにつれ、基本的なコンピューティング設備、ミドル...

ブランドプロモーションの第一歩:マーケティングアイデアを刺激する5つの方法

ブランドプロモーションは、大企業や大手ブランドだけが使う高尚なコンセプトではありません。実際、企業が...

Linodeの10ドル割引コードの説明

過去 2 日間、Linode はホスティング業界で最もホットな話題となりました。11 年の歴史を持つ...

企業がソフト記事マーケティングを実施する場合、どのような詳細を考慮すべきでしょうか?

ご存知のとおり、ソフトテキストマーケティングの役割と効果は、企業価値の向上、企業ブランドのアピール、...

SEO Baiduウェブマスタープラットフォームとの直接対話が再開

改良された Baidu Webmaster プラットフォームがリリースされました。インターフェースの...

Kafka レプリカ間のデータ同期を実現するにはどうすればよいですか?

みなさんこんにちは、私は仙宇です最近かなり忙しくて、1週間近く記事を更新していませんでした。もう更新...

OpenStackはプライベートクラウドの構築においてまだ比類のない存在である

昨年 10 月に SUSE が OpenStack 市場からの撤退を発表したとき、業界は騒然となり、...

モバイルインターネット広告インサイトレポート

本日は、モバイルインターネット広告の変化に関するレポートを皆さんにお伝えしたいと思います。オンライン...

Quickpacket ラスベガス VPS シンプルレビュー (Xen 512 メモリ)

私は、Fiberhub ラスベガス データ センターで、XEN 仮想化に基づく QuickPacke...

ブランドを宣伝する方法: 慎重に、そして大胆に

週末、私は弊社のクライアントの 1 社の活動を体験するために現場に行きました。彼らはネイティブ ティ...