Scrapy を使用して分散クローラーを開発しますか?一番早い方法は何か知っていますか?分散クローラーを 1 分で開発または変更することは本当に可能ですか? では、早速実践方法を見ていき、その後で詳細についてお話していきましょう。 すぐに始めましょう ステップ0: まず、Scrapy-Distributed をインストールします。
必要なランタイムがない場合は、テスト用に 2 つの Docker イメージ (RabbitMQ と RedisBloom) を起動できます。
ステップ 1 (オプション): 既存のクローラーがある場合は、この手順をスキップして手順 2 に直接進むことができます。 クローラー プロジェクトを作成します。ここではサイトマップ クローラーを例に挙げます。
次に、spiders フォルダー内のスパイダー プログラム ファイルを変更します。
ステップ2: 設定ファイル settings.py の SCHEDULER、DUPEFILTER_CLASS を変更し、RabbitMQ と Redis の関連設定を追加するだけで、すぐに分散クローラーを取得できます。 Scrapy-Distributed は、デフォルトの RabbitMQ キューとデフォルトの RedisBloom フィルターを初期化するのに役立ちます。
また、Spider クラスに 2 つのクラス属性を追加して、RabbitMQ キューまたは RedisBloom フィルターを初期化することもできます。
ステップ3:
RabbitMQ キューと RedisBloom フィルターを確認してください。正常に動作していますか? ご覧のとおり、Scrapy-Distributed のサポートにより、構成ファイルを変更するだけで、通常のクローラーを RabbitMQ キューと RedisBloom フィルターをサポートする分散クローラーに変更できるようになります。 RabbitMQ と RedisBloom 環境では、構成の変更に 1 分しかかかりません。 Scrapy-Distributedについて 現在、Scrapy-Distributed は主に Scrapy-Redis と scrapy-rabbitmq の 2 つのライブラリを指します。 Scrapy の経験があれば、分散クロールを迅速に実行できる Scrapy-Redis ライブラリをご存知かもしれません。 RabbitMQ をクローラー タスク キューとして使用しようとしたことがある場合は、scrapy-rabbitmq プロジェクトをご覧になったことがあるかもしれません。 Scrapy-Redis はすでに非常に便利であり、scrapy-rabbitmq も RabbitMQ をタスク キューとして実装できることは事実ですが、いくつか欠陥があります。ここで簡単にいくつかの疑問を提起したいと思います。
そこで、この時に Scrapy-Distributed フレームワークが誕生しました。非侵入型設計により、settings.py の設定を変更するだけで、フレームワークはデフォルトの構成に従ってクローラーを配布できます。 Scrapy-Redis と scrapy-rabbitmq の問題点のいくつかを解決するために、Scrapy-Distributed は次のことを行います。
現在、フレームワークに多くの機能が追加されています。関心のある友人は、プロジェクト リポジトリの開発に引き続き注目し、一緒にアイデアについて話し合うことができます。 |
>>: 分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますSEO 高...
百度はここ2日間でアップデートされ、多くのウェブサイトに含まれる外部リンクの数が急増しました。多くの...
エンタープライズクラウド管理会社RightScale Inc.の新しい予測によると、企業は2018年...
システムを更新するときに、W: mdadm: /etc/mdadm/mdadm.conf にアレイが...
Baidu Share は、Baidu が Web ページのアドレスを収集して共有するために提供して...
杭州、8月7日(王毅記者)今朝、金華市婺城区裁判所は、国内最大のオンラインねずみ講事件「万家ショッピ...
最高のクラウド データ ウェアハウスは、多くの企業がクラウド コンピューティングを導入し、物理的なデ...
クラウド コンピューティングは、展開の流動性と自動化の向上という点で、非常に大きな機能をもたらします...
パーソナライズされた検索は、見た目は美しいものの、実装が難しいフレーズです。ここでは、小さくて美しい...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています消費者連盟...
クラウド コンピューティングの急速な発展に伴い、トップレベルのフレームワークから始めて、全体的なデー...
Forrester Researchは最近、「Now Tech: 中国のエンタープライズ コンテナ ...
今日、ある著者が A5 でソフト記事を書いた経験を共有しているのを見ました。その記事は非常に興味深く...
HUAWEI CONNECT 2018において、Sinopec Yingke Information...
月収10万元の起業の夢を実現するミニプログラム起業支援プランMetO ウェブサイト構築システムは、ハ...