スクレイピーデータをExcelとして保存

スクレイピーデータをExcelとして保存

背景

Scrapy はデフォルトで csv として保存でき、Excel で開くことができます。 scrapy crawl spider_name -o data.csvを使用するだけです。しかし、csv 形式には、中国語のエンコードの問題やカンマ区切りなど、多くの不便な点があります。これらは解決できますが、一般ユーザーにとってはまだ十分に使いやすいとは言えません。

そこで、データを xlsx ファイルに直接保存して、すべての問題を完全に解決することを考えました。主にScrapyのpipeline.pyとpythonのオープンソースライブラリOpenPyxlを使用しました。

パイプラインについて

pipelineは、Scrapy のモジュールです。スパイダーによってデータがキャプチャされた後、 pipelineによって処理されます。通常、 pipelineには複数の「プロセス」があり、データはこれらの「プロセス」を順番に通過します。製品が特定の「プロセス」に合格しない場合は、廃棄されます。

pipelineには一般的にいくつかの用途があります。

  • クリーンな HTML データ (たとえば、不要なタグをクリーンにする)
  • データがキャプチャされたことを確認する(たとえば、特定のフィールドが含まれているかどうかを確認する)
  • 重複をチェックする(重複データをフィルタリングする)
  • キャプチャしたデータをデータベースに保存する

ここでは最後の関数を使用し、xlsx ファイルとして保存します。

OpenPyxlについて

OpenPyxlは、Excel 2007 xlsx/xlsm ファイルを読み書きするための Python ライブラリです。では、早速、いくつか例を挙げてみましょう。

 from openpyxl import Workbookwb = Workbook() # class instanceiationws = wb.active # worksheet をアクティブ化ws['A1'] = 42 # A1 テーブルにデータを入力しますws.append(['Kobe', '1997', 'Guard', 'Season reimbursement']) # データの行を追加しますwb.save('/home/alexkh/nba.xlsx') # ファイルを保存します

元のタイトル: Excel として保存された Scrapy データ

キーワード: Excel

<<:  Python エンベロープを使用してメールと添付ファイルを送信する

>>:  [翻訳] リクエストとlxmlを使用したWebスクレイピング

推薦する

ユーザー、トラフィック、詳細が合わさってフォーラムの人気が高まります

フォーラムの運営についてはウェブマスターによって理解が異なる場合がありますが、まとめると、現在フォー...

Kubernetes アーキテクチャ ガイド

Kubernetes アーキテクチャのさまざまなコンポーネントがどのように組み合わされているかを理...

budgetnode - 50% オフ / 年間 $12 / 512M メモリ / 20g ハード ドライブ / 1T トラフィック / DDoS 保護

Budgetnode は、サイバーマンデーの週にプロモーションを実施しており、メモリとデータ トラフ...

ハイブリッドクラウドは「発酵」を続け、大きなトレンドとなっている

[[439567]]企業がクラウドに移行するには、パブリック クラウド、プライベート クラウド、ハイ...

写真サイトを1ヶ月占拠し、キーワードランキングが急上昇

私は最近、昨年 8 月に構築した画像サイトを引き継ぎました。問題はトラフィックもランキングもなかった...

来年、電子商取引は大きな変化を迎えるだろう。一部の企業は株式を公開するかもしれない。

2013年、電子商取引は急速な発展の時代を迎えるでしょう。一方では、混乱後の電子商取引の情勢が徐々に...

国内のSaaSエンタープライズサービスはなぜ普及しないのか?

一般的な投資会社が国内の投資機会を探す場合、通常は米国を参考にします。一つの方法は、中国にコピーして...

ダブル11を勝ち取るためのライブストリーミング販売

平日は一番静かなライブ配信販売グループも、10月からはすごく賑やかになってきました。李佳琦のライブ放...

建武大学卒業生の「美人コンテスト」ウェブサイトのハッキングは著作権侵害に当たる

写真は「武漢美人コンテスト」ウェブサイトのスクリーンショット。本紙(記者ドゥ・アンナ、インターン生フ...

ジャック・マーが起業家精神について語る: 地に足のついたことをして、ベンチャーキャピタルにウェブサイトを見つけてもらう

アリババは、他のインターネット企業がとってきた、資金を調達し、人材を採用し、物事を実行するという古い...

「中国の声」のマーケティング手法についての簡単な説明

「中国の声」といえば、誰もが知っている番組だと思われます。この番組は中国で何億人もの人々の注目を集め...

404 エラーは 301 リダイレクトで解決できますか?

6月25日、筆者は「301リダイレクトを使用して404エラーをウェブサイトの外部リンクに変換する方法...

Pacificrack: 388 台の限定プロモーション、年間 10.88 ドル、888M メモリ/1 コア/18g SSD/2T データ転送

Hostcat は、QN データセンターが所有するブランドである Pacificrack から最新の...

Baidu Kステーションから回復プロセス記録までの分析例

この記事は主に、Web サイトがブロックされてから回復するまでのプロセス全体の例を示すために書きまし...