ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

ウェブクローラーの書き方をステップバイステップで教えます(6):分散クローラー

このシリーズ:

  • 「Webクローラー作成ガイド(1):NetEase Cloud Musicプレイリスト」
  • 「Webクローラーの書き方を教える(2): ミニクローラーのアーキテクチャ」
  • 《Webクローラーの書き方をステップバイステップで教える(3):オープンソースのクローラーフレームワークの比較》
  • 《Webクローラーの書き方を教えます(4):Scrapy入門》
  • 「Web クローラーの書き方を教える (5): PhantomJS の実践」

[[230059]]

筆者は以前、「Who Am I – No System Is Safe」という映画を見たことがあります。映画の中のハッカーのボス「Who Am I」は、FBIや他のハッカー組織による追跡を避けるためにプロキシを使用して身を隠しました。

タスクID:フラグ:クローラー:情報
提出済み 価値 例示する
合計数 10000 キャプチャされたURLの合計数: キャプチャが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クロールに失敗した URL の数: クロールに失敗した URL に 1 を加えた数
スイッチ 1 タスクステータス: 0: 停止、1: 開始、2: 一時停止、3: 一時停止と開始
優先度 1 タスクの優先度
再試行回数 0 再試行回数
状態 0 タスク実行ステータス: 1: 進行中、2: 完了
参照 0 URL 参照カウント: 消費された URL ごとに 1 を減算します。生成された URL ごとに 1 が加算されます。 0 の場合、タスクは完了です。
最大スレッド数 100 タスクの最大スレッド数
残りのスレッド数 10 利用可能な残りのスレッド数
最終フェッチ時間 1496404451532 最終クロール時間

タスクID:フラグ:パーサー:情報

提出済み 価値 例示する
合計数 10000 分析の合計数: 分析が完了したら、成功しても失敗しても 1 を加算します。
失敗回数 0 解析失敗回数: 解析失敗、プラス 1
クローラーステータス 0 クロールステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: クローラーが Web ページを保存するたびに 1 ずつ増加します。パーサーが Web ページを解析するたびに、この値は 1 ずつ減少します。値が 0 であっても、タスクが完了したことを意味するわけではありません。 crawlerStatus が 2 で ref が 0 の場合、タスクは完了します。

タスクID:フラグ:フィルター:情報

提出済み 価値 例示する
合計数 10000 クリーニングの合計回数: クリーニングが完了したら、成功か失敗かに関係なく1を加算します。
失敗回数 0 クリーニング失敗回数: クリーニング失敗、プラス1
クローラーステータス 0 解析ステータス: 0: 進行中、2: 完了
参照 10 URL 参照カウント: パーサーがデータを保存するたびに 1 ずつ増加します。フィルターがデータをクリーンアップするたびに、この値は 1 ずつ減少します。値が 0 になっても、タスクが完了したことを意味するわけではありません。 parserStatus が 2 で ref が 0 の場合、タスクは完了します。

プロセス制御 – フェイルオーバー

Crawler_core マシンがクラッシュすると、データ回復手順が開始され、このマシンの未完了のタスクがすべてパブリック キャッシュに復元されます。

<<:  仮想空間における静的パスと疑似静的パスの利点は何ですか?

>>:  クラウドコンピューティングの支出を削減する5つの簡単な方法

推薦する

Kubernetes 永続ストレージ管理に関する簡単な説明

1. はじめにバージョン 1.0 以降、Kubernetes では、ストレージ プロビジョニングの独...

武漢 SEO ブログ: ウェブサイトを再構築する際に既存のランキングを保護する方法

最近、武漢 SEO ブログは、パフォーマンスを向上させるためにウェブサイトを再構築してほしいという友...

「最初から課金」が産業現場の持続的発展と収益性の鍵

セグメント化された業界ウェブサイトは、個人がウェブサイトを構築する方向性の 1 つでした。大規模で包...

母子保健産業ブランドマーケティングインサイトレポート

話を元に戻して、今日は母子医療業界におけるブランドマーケティングの現状についてお話ししたいと思います...

エッジコンピューティングによるオフィス環境の多様化

感染症流行から1年が経過したが、ハイブリッド型勤務モデルの台頭など、企業に対するデジタルトランスフォ...

テクノロジーには暖かさがある:天一雲がラサの暖房に「スマートブレイン」を導入

最近、国内ではジェットコースターのような気温の低下が起こっている。北京など各地は「急速凍結」モードに...

vmbox - $20/年/2IP/1g メモリ/50g ハードディスク/2T トラフィック/ロサンゼルス

3 つのデータ センター: SingleHop のアムステルダムとフェニックス、Quadranet ...

新しい時代では、SEOウェブサイト最適化業界は自信を築くことによってのみプロセスを楽しむことができます

ご存知のとおり、検索エンジン最適化は現在、SEOと呼ばれています。電子商取引の継続的な発展に伴い、多...

おすすめ: ipage - 17% オフ/年額 23 ドル/無制限ホスティング/無制限 Web サイト構築/無料 .com/net

クリスマス特別プロモーション: 無制限ホスティング、年間支払い 23.88 米ドル、2 年間支払い ...

分散環境で DNS サービスの攻撃対象領域を拡大する方法

私は現在、RCNTEC株式会社に勤務しており、日々分散環境に取り組んでいます。 ISC BIND を...

独自の処理の詳細とアルゴリズムにおける独自性の割合に関する実験

ホワイトハットSEOは、長期的な観察、ターゲットを絞った実験、そして手法の改良というプロセスに過ぎま...

豆板は明確な方向性を持った新製品で再び商業化に挑戦する。芸術と商業はウィンウィンの関係を築くことができるのか?

つい先日の2014年5月7日は、Douban Readingの有料書店が正式にオープンしてから2周年...

ウェブサイトの計画における2つの誤解

最初の誤解は、多くの企業がウェブサイトの計画と構築は非常に簡単なことだと考えていることです。IT 技...

ウェブマスターネットワークからの毎日のレポート:Baidu 360は国境紛争に直面し、Xiaomi Boxは生き残るために腕を切り落とす

1. Baidu 360 はまたも国境紛争に直面。次の戦いはモバイル検索との戦いになるだろう1月26...