Scrapy 分散クローラー、キュー、ブルームフィルターを 1 分で入手

[[348974]]

Scrapy を使用して分散クローラーを開発しますか?一番早い方法は何か知っていますか？分散クローラーを 1 分で開発または変更することは本当に可能ですか?

では、早速実践方法を見ていき、その後で詳細についてお話していきましょう。

すぐに始めましょう

ステップ0:

まず、Scrapy-Distributed をインストールします。

 pip で scrapy-distributed をインストールします

必要なランタイムがない場合は、テスト用に 2 つの Docker イメージ (RabbitMQ と RedisBloom) を起動できます。

 # RabbitMQ コンテナをプルして実行します。  
 docker run -d --name rabbitmq -p 0.0.0.0:15672:15672 -p 0.0.0.0:5672:5672 rabbitmq:3  
 # RedisBloom コンテナをプルして実行します。  
 docker run -d --name redis-redisbloom -p 0.0.0.0:6379:6379 redislabs/rebloom:latest

ステップ 1 (オプション):

既存のクローラーがある場合は、この手順をスキップして手順 2 に直接進むことができます。

クローラープロジェクトを作成します。ここではサイトマップクローラーを例に挙げます。

 scrapy startproject 簡単な例

次に、spiders フォルダー内のスパイダープログラムファイルを変更します。

 scrapy_distributed.spiders.sitemap から SitemapSpider をインポート 
 scrapy_distributed.queues.amqp から QueueConfig をインポートします 
 scrapy_distributed.dupefilters.redis_bloom から RedisBloomConfig をインポートします 
クラス MySpider(SitemapSpider):  
名前= "例"    
サイトマップのURL = ["http://www.people.com.cn/robots.txt"]  
    queue_conf:キュー構成キュー構成= キュー構成(  
 name = "example" 、 durable = True 、 arguments ={"x-queue-mode": "lazy", "x-max-priority": 255} です。  
    ）  
    redis_bloom_conf: RedisBloomConfig RedisBloomConfig = RedisBloomConfig(キー= "example:dupefilter" )  
    def parse(自己、レスポンス): 
         self.logger.info(f"レスポンスを解析、URL: {response.url}")

ステップ2:

設定ファイル settings.py の SCHEDULER、DUPEFILTER_CLASS を変更し、RabbitMQ と Redis の関連設定を追加するだけで、すぐに分散クローラーを取得できます。 Scrapy-Distributed は、デフォルトの RabbitMQ キューとデフォルトの RedisBloom フィルターを初期化するのに役立ちます。

 # RabbitMQとRedisBloomを統合したスケジューラ 
 # RabbitMQのスケジューラのみを使用する場合は、ここで scrapy_distributed.schedulers.amqp.RabbitScheduler を記入できます 
スケジューラ= "scrapy_distributed.schedulers.DistributedScheduler"    
 SCHEDULER_QUEUE_CLASS = "scrapy_distributed.queues.amqp.RabbitQueue"    
 RABBITMQ_CONNECTION_PARAMETERS = "amqp://guest:guest@localhost:5672/example/?heartbeat=0"    
 DUPEFILTER_CLASS = "scrapy_distributed.dupefilters.redis_bloom.RedisBloomDupeFilter"    
 BLOOM_DUPEFILTER_REDIS_URL = "redis://:@localhost:6379/0"    
 BLOOM_DUPEFILTER_REDIS_HOST = "ローカルホスト"    
 BLOOM_DUPEFILTER_REDIS_PORT = 6379    
 # Redis Bloomクライアントの設定はコピーするだけ 
 REDIS_BLOOM_PARAMS = {  
    "redis_cls": "redisbloom.client.クライアント"  
 }  
 # ブルームフィルタの誤判定率の設定。設定が書かれていない場合、デフォルト値は 0.001 です。  
 BLOOM_DUPEFILTER_ERROR_RATE = 0.001  
 # ブルーム フィルターの容量構成。設定が書かれていない場合、デフォルト値は100_0000です。  
ブルーム_デュプフィルター_容量= 100_0000

また、Spider クラスに 2 つのクラス属性を追加して、RabbitMQ キューまたは RedisBloom フィルターを初期化することもできます。

クラス MySpider(SitemapSpider):  
    ......  
    # 引数パラメータを通じてさらに多くのパラメータを設定できます。この例では、遅延モードと最大優先度を設定します 
    queue_conf:キュー構成キュー構成= キュー構成(  
 name = "example" 、 durable = True 、 arguments ={"x-queue-mode": "lazy", "x-max-priority": 255} です。  
    ）  
    # キー、エラーレート、容量を使用して、それぞれブルームフィルターの Redis キー、エラー率、容量を設定します。  
    redis_bloom_conf: RedisBloomConfig RedisBloomConfig = RedisBloomConfig(キー= "example:dupefilter" 、 error_rate = 0 .001 、 capacity = 100_0000 )  
    ......

ステップ3:

スクレイピークロールの例

RabbitMQ キューと RedisBloom フィルターを確認してください。正常に動作していますか?

ご覧のとおり、Scrapy-Distributed のサポートにより、構成ファイルを変更するだけで、通常のクローラーを RabbitMQ キューと RedisBloom フィルターをサポートする分散クローラーに変更できるようになります。 RabbitMQ と RedisBloom 環境では、構成の変更に 1 分しかかかりません。

Scrapy-Distributedについて

現在、Scrapy-Distributed は主に Scrapy-Redis と scrapy-rabbitmq の 2 つのライブラリを指します。

Scrapy の経験があれば、分散クロールを迅速に実行できる Scrapy-Redis ライブラリをご存知かもしれません。 RabbitMQ をクローラータスクキューとして使用しようとしたことがある場合は、scrapy-rabbitmq プロジェクトをご覧になったことがあるかもしれません。 Scrapy-Redis はすでに非常に便利であり、scrapy-rabbitmq も RabbitMQ をタスクキューとして実装できることは事実ですが、いくつか欠陥があります。ここで簡単にいくつかの疑問を提起したいと思います。

Scrapy-Redis は Redis のセットを使用して重複を排除します。リンクの数が多くなるほど、占有するメモリも多くなります。多数のタスクを実行する分散クローラーには適していません。
Scrapy-Redis は Redis リストをキューとして使用します。多くのシナリオでは、タスクのバックログが発生し、メモリリソースが急速に消費されることになります。たとえば、Web サイトのサイトマップをクロールする場合、リンクがキューに入る速度は、キューから出る速度よりもはるかに速くなります。
scrapy-rabbitmq などの RabbitMQ の Scrapy コンポーネントは、キューの作成時に RabbitMQ でサポートされるさまざまなパラメータを提供しず、キューの永続性などのパラメータを制御することはできません。
scrapy-rabbitmq などの rabbitmq フレームワークのスケジューラはまだ分散 dupefilter をサポートしていないため、ユーザーは関連するコンポーネントを自分で開発または接続する必要があります。
Scrapy-Redis や scrapy-rabbitmq などのフレームワークは侵入的です。これらのフレームワークを使用して分散クローラーを開発する必要がある場合は、独自のクローラーコードを変更し、フレームワークの Spider クラスを継承して分散機能を実現する必要があります。

そこで、この時に Scrapy-Distributed フレームワークが誕生しました。非侵入型設計により、settings.py の設定を変更するだけで、フレームワークはデフォルトの構成に従ってクローラーを配布できます。

Scrapy-Redis と scrapy-rabbitmq の問題点のいくつかを解決するために、Scrapy-Distributed は次のことを行います。

RedisBloom の Bloom フィルターが使用され、メモリの消費量が少なくなります。
RabbitMQ キューによって宣言されたすべてのパラメータ構成をサポートし、RabbitMQ キューが遅延モードをサポートしてメモリ使用量を削減できるようにします。
RabbitMQ のキュー宣言はより柔軟です。異なるクローラーは同じキュー構成を使用することも、異なるキュー構成を使用することもできます。
Scheduler の設計では、複数のコンポーネントの組み合わせがサポートされています。 RedisBloom の DupeFilter を単独で使用することも、RabbitMQ の Scheduler モジュールを単独で使用することもできます。
Scrapy 配布の非侵入型設計が実装されています。通常のクローラーは、設定を変更するだけで配布できます。

現在、フレームワークに多くの機能が追加されています。関心のある友人は、プロジェクトリポジトリの開発に引き続き注目し、一緒にアイデアについて話し合うことができます。

<<: クラウドで生産性を向上させる方法

>>: 分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ