スクレイピーデータをExcelとして保存

スクレイピーデータをExcelとして保存

背景

Scrapy はデフォルトで csv として保存でき、Excel で開くことができます。 scrapy crawl spider_name -o data.csvを使用するだけです。しかし、csv 形式には、中国語のエンコードの問題やカンマ区切りなど、多くの不便な点があります。これらは解決できますが、一般ユーザーにとってはまだ十分に使いやすいとは言えません。

そこで、データを xlsx ファイルに直接保存して、すべての問題を完全に解決することを考えました。主にScrapyのpipeline.pyとpythonのオープンソースライブラリOpenPyxlを使用しました。

パイプラインについて

pipelineは、Scrapy のモジュールです。スパイダーによってデータがキャプチャされた後、 pipelineによって処理されます。通常、 pipelineには複数の「プロセス」があり、データはこれらの「プロセス」を順番に通過します。製品が特定の「プロセス」に合格しない場合は、廃棄されます。

pipelineには一般的にいくつかの用途があります。

  • クリーンな HTML データ (たとえば、不要なタグをクリーンにする)
  • データがキャプチャされたことを確認する(たとえば、特定のフィールドが含まれているかどうかを確認する)
  • 重複をチェックする(重複データをフィルタリングする)
  • キャプチャしたデータをデータベースに保存する

ここでは最後の関数を使用し、xlsx ファイルとして保存します。

OpenPyxlについて

OpenPyxlは、Excel 2007 xlsx/xlsm ファイルを読み書きするための Python ライブラリです。では、早速、いくつか例を挙げてみましょう。

 from openpyxl import Workbookwb = Workbook() # class instanceiationws = wb.active # worksheet をアクティブ化ws['A1'] = 42 # A1 テーブルにデータを入力しますws.append(['Kobe', '1997', 'Guard', 'Season reimbursement']) # データの行を追加しますwb.save('/home/alexkh/nba.xlsx') # ファイルを保存します

元のタイトル: Excel として保存された Scrapy データ

キーワード: Excel

<<:  Python エンベロープを使用してメールと添付ファイルを送信する

>>:  [翻訳] リクエストとlxmlを使用したWebスクレイピング

推薦する

WordPress 3.5 がリリースされ、マルチメディア マネージャーが更新されました

WordPress は、セルフホスト型ブログおよび CMS プラットフォームのバージョン 3.5 を...

Alipay iOS版にセキュリティ脆弱性が露呈

最近、多くのメディアが、iOS版Alipayにセキュリティ上の脆弱性があると報じました。機内モードで...

電子商取引の背後にある価格戦争:今年20人以上の業界幹部が辞任

前回の急成長の後、2012年の電子商取引業界は「大魚が小魚を食べ、速い魚が遅い魚を蹴る」という統合の...

#100Gddos 保護-spartanhost-E3-1230v3/16g メモリ/1T ハードディスク/G ポート/シアトル

私が Spartanhost を推奨する理由は単純です。超安価な DDoS 保護、つまり基本的に無料...

WeChatファンを素早く追加する方法をいくつか紹介します

新しいメディアソーシャルツールとして、WeChatの価値はWeiboをはるかに上回っています。ユーザ...

Google が Flash ページのインデックスを停止

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスGoogle 検索は F...

P4スイッチをベースにしたUCloudのクラウドプラットフォームネットワーク実践

UCloud が 2012 年に設立されて以来、仮想ネットワークは常に IaaS 製品のコア コンポ...

ドメイン名とSEO

.edu ドメインと .org ドメインが信頼できるドメインとしてリストされていることに加えて、ドメ...

JVM仮想マシンを徹底的に理解したい場合は、この記事を読んでください。

[[272380]]導入この記事の使い方:この記事は、検索ツリーのような、仮想マシンのほとんどの知...

ビッグデータの霧を晴らす

確かに、このような話題があるのには理由があります。つい数日前、同僚からビッグデータの方向性について尋...

BBSの将来(I):適切な垂直位置とローカリゼーションを見つけることが方向性

表面的には、2012 年は BBS にとって輝かしい年ではなかった。BBS は現在、「生きた化石」と...

温州捷順網は中国電信に巨額のブロードバンド料金を滞納して倒産し、社長は逃亡したとみられる

中国IDCレビューネットワークは6月8日に次のように報じた。「2012年6月5日、温州捷順網絡が代表...

ブランドを構築することによってのみ、検索エンジンへの依存を克服できる

Baidu は今再び人気を博しています。Baidu は以前 360 と競争しようとしましたが、失敗し...