スクレイピーデータをExcelとして保存

スクレイピーデータをExcelとして保存

背景

Scrapy はデフォルトで csv として保存でき、Excel で開くことができます。 scrapy crawl spider_name -o data.csvを使用するだけです。しかし、csv 形式には、中国語のエンコードの問題やカンマ区切りなど、多くの不便な点があります。これらは解決できますが、一般ユーザーにとってはまだ十分に使いやすいとは言えません。

そこで、データを xlsx ファイルに直接保存して、すべての問題を完全に解決することを考えました。主にScrapyのpipeline.pyとpythonのオープンソースライブラリOpenPyxlを使用しました。

パイプラインについて

pipelineは、Scrapy のモジュールです。スパイダーによってデータがキャプチャされた後、 pipelineによって処理されます。通常、 pipelineには複数の「プロセス」があり、データはこれらの「プロセス」を順番に通過します。製品が特定の「プロセス」に合格しない場合は、廃棄されます。

pipelineには一般的にいくつかの用途があります。

  • クリーンな HTML データ (たとえば、不要なタグをクリーンにする)
  • データがキャプチャされたことを確認する(たとえば、特定のフィールドが含まれているかどうかを確認する)
  • 重複をチェックする(重複データをフィルタリングする)
  • キャプチャしたデータをデータベースに保存する

ここでは最後の関数を使用し、xlsx ファイルとして保存します。

OpenPyxlについて

OpenPyxlは、Excel 2007 xlsx/xlsm ファイルを読み書きするための Python ライブラリです。では、早速、いくつか例を挙げてみましょう。

 from openpyxl import Workbookwb = Workbook() # class instanceiationws = wb.active # worksheet をアクティブ化ws['A1'] = 42 # A1 テーブルにデータを入力しますws.append(['Kobe', '1997', 'Guard', 'Season reimbursement']) # データの行を追加しますwb.save('/home/alexkh/nba.xlsx') # ファイルを保存します

元のタイトル: Excel として保存された Scrapy データ

キーワード: Excel

<<:  Python エンベロープを使用してメールと添付ファイルを送信する

>>:  [翻訳] リクエストとlxmlを使用したWebスクレイピング

推薦する

ウェブマスターネットワークからの毎日のレポート:テンセントが速達サービスを開始、グループ購入による遺伝子変異が増加

1. Weiboの主要アカ​​ウントが消滅。これはWeiboの急成長期の極端な例です。彼らはWeib...

Slow Company の秘密を解読する 6 つの質問: Douban とは何ですか?

【はじめに】豆瓣は主流メディアではあまり見かけません。自然に成長している「スローカンパニー」であるこ...

優れたコピーライターは常に人を騙しており、これらの4つの「騙し」テクニックをよく使います。

月給5,000~50,000のこれらのプロジェクトはあなたの将来ですキャッチーなタイトルを使って申し...

Windows で Apache Kafka を実行するにはどうすればいいですか?

[[383471]] [51CTO.com クイック翻訳] Windows はあなたの好みの開発環境...

ウェブサイトのドメイン名とサーバーの選択、SEOの詳細に関する考察

初心者は、キーワードの選び方、ドメイン名の選び方、最適なドメイン名の種類など、いくつかの問題で混乱す...

arkecx hong kong cn2 giaはどうですか?エンタープライズレベルの1Gbps香港cn2 gia高帯域幅クラウドサーバーの簡単な評価

arkecxの香港クラウドサーバーは、国際回線と「香港-中国最適化」中国最適化回線に分かれています。...

Spark Technologyは「2020年第4位のICユニコーン」リストに掲載されました

最近、2021年世界半導体大会の「中国ICユニコーンフォーラム」でICユニコーン企業リストが発表され...

serversub-$8.99/香港/Xen/G ポート/無制限/512M メモリ/20gSSD

serversub からメールを受け取りました。香港に新しいデータ センターが追加されました。数日前...

映画ウェブサイトを最適化する方法を教える実践的な経験

最近、多くの人が自分の映画のウェブサイトを作りたいのですが、それをどのように宣伝したらよいか分かりま...

ウェブサイトの最適化 + オンラインストアの最適化 + モバイルの最適化 Yimake SEOコース3つの剣を組み合わせた

ウェブサイト最適化+オンラインストア最適化+モバイル最適化 Yimake SEOコースの3つの剣を組...

Pacificrack US VPSクラスターが期間限定で50%オフで販売中、32個のCセグメントがランダムに割り当てられる

アメリカのQNデータセンター傘下のVPSブランドであるPacificrackは、同社のクラスターVP...

クラウド コンピューティング、仮想化、コンテナを 1 つの記事で理解する

「クラウド コンピューティング」という言葉は、皆さんもよくご存知だと思います。 [[270331]]...

百度の隠れた懸念: トラフィック収益化曲線が下がり、コンテンツの障壁に直面

それは7月中旬の午後、百度(BIDU.NASDAQ)にとって、ありふれた一日だった。北京西二旗地下鉄...

2020 年に企業はどのクラウド コンピューティング戦略を選択すべきでしょうか?

多くの組織は、クラウド コンピューティングがビジネスの将来において重要な役割を果たすと確信しています...

ハイブリッドワークモデルがクラウドコンピューティング戦略をどのように変えているのか

世界中でコロナウイルスが流行しているため、多くの組織は従業員に在宅勤務を強いられ、新しい労働環境に素...