Scrapy を使用して分散クローラーを開発しますか?一番早い方法は何か知っていますか?分散クローラーを 1 分で開発または変更することは本当に可能ですか? では、早速実践方法を見ていき、その後で詳細についてお話していきましょう。 すぐに始めましょう ステップ0: まず、Scrapy-Distributed をインストールします。
必要なランタイムがない場合は、テスト用に 2 つの Docker イメージ (RabbitMQ と RedisBloom) を起動できます。
ステップ 1 (オプション): 既存のクローラーがある場合は、この手順をスキップして手順 2 に直接進むことができます。 クローラー プロジェクトを作成します。ここではサイトマップ クローラーを例に挙げます。
次に、spiders フォルダー内のスパイダー プログラム ファイルを変更します。
ステップ2: 設定ファイル settings.py の SCHEDULER、DUPEFILTER_CLASS を変更し、RabbitMQ と Redis の関連設定を追加するだけで、すぐに分散クローラーを取得できます。 Scrapy-Distributed は、デフォルトの RabbitMQ キューとデフォルトの RedisBloom フィルターを初期化するのに役立ちます。
また、Spider クラスに 2 つのクラス属性を追加して、RabbitMQ キューまたは RedisBloom フィルターを初期化することもできます。
ステップ3:
RabbitMQ キューと RedisBloom フィルターを確認してください。正常に動作していますか? ご覧のとおり、Scrapy-Distributed のサポートにより、構成ファイルを変更するだけで、通常のクローラーを RabbitMQ キューと RedisBloom フィルターをサポートする分散クローラーに変更できるようになります。 RabbitMQ と RedisBloom 環境では、構成の変更に 1 分しかかかりません。 Scrapy-Distributedについて 現在、Scrapy-Distributed は主に Scrapy-Redis と scrapy-rabbitmq の 2 つのライブラリを指します。 Scrapy の経験があれば、分散クロールを迅速に実行できる Scrapy-Redis ライブラリをご存知かもしれません。 RabbitMQ をクローラー タスク キューとして使用しようとしたことがある場合は、scrapy-rabbitmq プロジェクトをご覧になったことがあるかもしれません。 Scrapy-Redis はすでに非常に便利であり、scrapy-rabbitmq も RabbitMQ をタスク キューとして実装できることは事実ですが、いくつか欠陥があります。ここで簡単にいくつかの疑問を提起したいと思います。
そこで、この時に Scrapy-Distributed フレームワークが誕生しました。非侵入型設計により、settings.py の設定を変更するだけで、フレームワークはデフォルトの構成に従ってクローラーを配布できます。 Scrapy-Redis と scrapy-rabbitmq の問題点のいくつかを解決するために、Scrapy-Distributed は次のことを行います。
現在、フレームワークに多くの機能が追加されています。関心のある友人は、プロジェクト リポジトリの開発に引き続き注目し、一緒にアイデアについて話し合うことができます。 |
>>: 分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ
LEBで2位にランクされたRamnodeは、安定したサーバー+高性能+Gポートを備えています。後に純...
2018年4月22日 - 福建省福州市の福州海峡国際会議展示センターで第1回デジタル中国建設成果サミ...
Quadranet の直営ブランド「Pacificrack」(通称「PR VPS」) では、「新年フ...
単純にSEO受注の観点から言えば、SEOサイクルを正確に見積もるのはかなり面倒な作業です。現在有名な...
近年、金融サービスの急速な発展に伴い、膨大なデータに基づく高同時実行リアルタイムトランザクションには...
月給5,000~50,000のこれらのプロジェクトはあなたの将来です義烏は古くから中国の「小商品都」...
新規参入の ionswitch, LLC はシアトル データ センター (BGP、AS395970)...
チップ設計における目標は、物事をより速く、より良くすることです。今では、クラウドが加わったことで、状...
3 つのデータ センター: SingleHop のアムステルダムとフェニックス、Quadranet ...
検索について言えば、ロングテールワードが多くのサイトにとって常にトラフィックの主なソースであったこと...
最近、何人かの友人がフォーラムでランキングを上げる問題について議論しています。実際、盲目的に上昇を追...
DoControl が最近発表したレポートによると、今日の企業では管理されていないデータが大量に存在...
近年、電子商取引は急速に発展し、多くの人がタオバオのオンラインショッピングの世界に参加しています。今...
OVHはどうですか? OVH米国西海岸はどうですか? OVH のヒルズボロ データ センターはどうで...
Kubernetes の採用は爆発的に増加していますが、宣伝されているにもかかわらず、Kuberne...