Scrapy を使用して分散クローラーを開発しますか?一番早い方法は何か知っていますか?分散クローラーを 1 分で開発または変更することは本当に可能ですか? では、早速実践方法を見ていき、その後で詳細についてお話していきましょう。 すぐに始めましょう ステップ0: まず、Scrapy-Distributed をインストールします。
必要なランタイムがない場合は、テスト用に 2 つの Docker イメージ (RabbitMQ と RedisBloom) を起動できます。
ステップ 1 (オプション): 既存のクローラーがある場合は、この手順をスキップして手順 2 に直接進むことができます。 クローラー プロジェクトを作成します。ここではサイトマップ クローラーを例に挙げます。
次に、spiders フォルダー内のスパイダー プログラム ファイルを変更します。
ステップ2: 設定ファイル settings.py の SCHEDULER、DUPEFILTER_CLASS を変更し、RabbitMQ と Redis の関連設定を追加するだけで、すぐに分散クローラーを取得できます。 Scrapy-Distributed は、デフォルトの RabbitMQ キューとデフォルトの RedisBloom フィルターを初期化するのに役立ちます。
また、Spider クラスに 2 つのクラス属性を追加して、RabbitMQ キューまたは RedisBloom フィルターを初期化することもできます。
ステップ3:
RabbitMQ キューと RedisBloom フィルターを確認してください。正常に動作していますか? ご覧のとおり、Scrapy-Distributed のサポートにより、構成ファイルを変更するだけで、通常のクローラーを RabbitMQ キューと RedisBloom フィルターをサポートする分散クローラーに変更できるようになります。 RabbitMQ と RedisBloom 環境では、構成の変更に 1 分しかかかりません。 Scrapy-Distributedについて 現在、Scrapy-Distributed は主に Scrapy-Redis と scrapy-rabbitmq の 2 つのライブラリを指します。 Scrapy の経験があれば、分散クロールを迅速に実行できる Scrapy-Redis ライブラリをご存知かもしれません。 RabbitMQ をクローラー タスク キューとして使用しようとしたことがある場合は、scrapy-rabbitmq プロジェクトをご覧になったことがあるかもしれません。 Scrapy-Redis はすでに非常に便利であり、scrapy-rabbitmq も RabbitMQ をタスク キューとして実装できることは事実ですが、いくつか欠陥があります。ここで簡単にいくつかの疑問を提起したいと思います。
そこで、この時に Scrapy-Distributed フレームワークが誕生しました。非侵入型設計により、settings.py の設定を変更するだけで、フレームワークはデフォルトの構成に従ってクローラーを配布できます。 Scrapy-Redis と scrapy-rabbitmq の問題点のいくつかを解決するために、Scrapy-Distributed は次のことを行います。
現在、フレームワークに多くの機能が追加されています。関心のある友人は、プロジェクト リポジトリの開発に引き続き注目し、一緒にアイデアについて話し合うことができます。 |
>>: 分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ
最近、Weibo を使っています。一番嬉しいのは、ファンの数が増えることです。一番嫌なのは、フォロワ...
[[381734]]この記事はWeChatの公開アカウント「LoyenWang」から転載したもので...
サンドボックス効果: 新しい Web サイトが構築され、検索エンジンに送信されると、検索エンジンはス...
私は医療ネットワークマーケティングに従事しています。最近、Baidu の頻繁な行動により、多くのサイ...
私たちがまだ hostUS の特別な香港 VPS を応援している間に、hosthatch はひっそり...
過去には、2012 年は世界の終わりだとよく言われていましたが、SEO の世界では、2012 年は多...
ソフト記事は、初心者のウェブマスターであっても、SEO の豊富な経験を持つマスターであっても、その言...
photonvpsのトラフィックが33Tにアップグレードされたというニュースを見ました(XENベース...
現在、ミルクティーは若者にとって通常の消費財の一つとなり、彼らの特定の社会的ニーズを運び、オフィスで...
国家著作権局と他の4つの部門は、オンライン上の著作権侵害や海賊版と戦うために、2012年に4か月間の...
[51CTO.comよりオリジナル記事] 中国市場で唯一の国際パブリッククラウドを展開する21Via...
w3space は 2009 年に設立された小規模な VPS プロバイダーです。主に openvz ...
今日の情報化時代において、オンライン マーケティングは目新しいものではありません。多くの伝統的な企業...
A2hosting、ブラックフライデーがやって来ました! SSD ハード ドライブを搭載した仮想ホス...
草の根のウェブマスターや中小企業のサイト運営者にとって、検索エンジンから正確なターゲットトラフィック...