[翻訳] リクエストとlxmlを使用したWebスクレイピング

[翻訳] リクエストとlxmlを使用したWebスクレイピング

ウェブスクレイピング

Web サイトは HTML で記述されており、各 Web ページは構造化されたドキュメントです。現在の構造で必要なデータを取得し、データ形式を維持できる場合もありますが、通常は適切な構造でデータを取得することはできません (csv や json とは異なります)。

Web スクレイピングは適切なタイミングで登場しました。 Web スクレイピングでは、コンピュータ プログラムを使用して Web ページをフィルターし、データの形式を維持しながら適切な構造で対象データを取得できます。

lxml とリクエスト

lxml は、XML および HTML ドキュメントをすばやく解析し、エラー タグも処理できる優れた Python 拡張ライブラリです。さらに、速度と安定性が優れているため、組み込みのurllib2の代わりに Requests を使用します。 pip install lxmlpiprequests pip install requestsできます。

まず、 importから始めましょう:

 lxmlからhtmlをインポートしてリクエストをインポートする

原題: [翻訳] リクエストと lxml を使用した Web スクレイピング

キーワード: xml

<<:  スクレイピーデータをExcelとして保存

>>:  Django1.6 カスタム マークダウン フィルター

推薦する

現在最も効果的なアプリプロモーションチャネルの一覧です。

APPプロモーションの目的は何ですか? App Store を通じたチャンネルプロモーションですか?...

ストレージ仮想化とは何ですか?レコード層とブロック層にはどのようなデバイスが含まれていますか?

ストレージ仮想化とは、1 つのストレージ デバイスを複数のストレージ デバイスに仮想化したり、複数の...

QQグループを利用して6000以上のインデックスキーワードをホームページに掲載する方法

SEOに関しては、2006年とかなり早い時期から業界に入り、研修を経て正式に働き始めました。途中で何...

現在のソーシャルツールの分析:実際にはお金にならない

SNSやWeibo(WEB2.0)の台頭により、数多くのソーシャルツールが登場。その年は毎月のように...

Cloudcone: 登録から使用までの完全なチュートリアル + 最低構成の VPS のレビュー

多くの人が cloudcone をよく知っていますが、登録から使用までの簡単なチュートリアルを作成し...

感染症との戦いが始まって1か月が経ちましたが、企業のマーケティングはどこに向かっているのでしょうか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス今年は企業、特に中小企業...

境界のないインフラストラクチャ: マルチクラウドの世界で企業が IT を再考する方法

現在、マルチクラウドが約束する未来は、エンタープライズ IT の現状とは矛盾しています。つまり、現在...

Tuiba: Flash ウェブサイトの代替を作成し、Flash ウェブサイトを最適化します

現在、Flash ウェブサイトの SEO 最適化は、本当に難しい問題です。SEO の専門家であれ、ウ...

SEO担当者は常に、1つのテーマを持つウェブサイトの方がランキングとユーザーの信頼を獲得する可能性が高いことを覚えておく必要があります。

最近、著者はウェブサイトを構築し、2か月も経たないうちに、Baiduのホームページに「ダイエット薬ラ...

ネットワークマーケティングの利点は何ですか

オンラインマーケティングの利点を知りたい場合は、まずオンラインマーケティングとは何かを理解する必要が...

Dapr の可観測性メトリックとログ

この記事では、インジケーターとログのサポートについて紹介します。索引メトリクスにより、アプリのパフォ...

携帯電話の共同購入サイトが偽の携帯電話を販売し、フィッシングサイトが100万ドル以上を稼ぐ

「羊肉を売っているふりをして犬肉を売る」など、オンライン詐欺の手口が後を絶たず、一般消費者が警戒する...

Fan Yun: US cn2 VPS + 無料 50G 防御 + 無制限トラフィック、40 元/月、KVM/2g メモリ/2 コア/30g SSD

米国ロサンゼルスデータセンターのFan YunのVPSは、デフォルトで50Gbpsの高防御を無料で提...