[翻訳] リクエストとlxmlを使用したWebスクレイピング

[翻訳] リクエストとlxmlを使用したWebスクレイピング

ウェブスクレイピング

Web サイトは HTML で記述されており、各 Web ページは構造化されたドキュメントです。現在の構造で必要なデータを取得し、データ形式を維持できる場合もありますが、通常は適切な構造でデータを取得することはできません (csv や json とは異なります)。

Web スクレイピングは適切なタイミングで登場しました。 Web スクレイピングでは、コンピュータ プログラムを使用して Web ページをフィルターし、データの形式を維持しながら適切な構造で対象データを取得できます。

lxml とリクエスト

lxml は、XML および HTML ドキュメントをすばやく解析し、エラー タグも処理できる優れた Python 拡張ライブラリです。さらに、速度と安定性が優れているため、組み込みのurllib2の代わりに Requests を使用します。 pip install lxmlpiprequests pip install requestsできます。

まず、 importから始めましょう:

 lxmlからhtmlをインポートしてリクエストをインポートする

原題: [翻訳] リクエストと lxml を使用した Web スクレイピング

キーワード: xml

<<:  スクレイピーデータをExcelとして保存

>>:  Django1.6 カスタム マークダウン フィルター

推薦する

メタバースブランドマーケティングガイド

NFT は、分割不可能、置き換え不可能、一意という特性を持つ非代替性トークンです。メタバース概念の人...

ウェブマスターの推奨: 韓国の VPS 推奨、高速、安価、高防御、大容量

韓国の VPS の推奨: 韓国の VPS は物理的に本土に近く、速度が速く、登録も不要です。韓国の ...

ハイブリッドクラウドとマルチツールの世界で秩序を維持する方法

[[343867]]組織が重要性と競争力を維持するために、デジタル変革はますます重要になっています。...

Baidu ウェブマスター プラットフォーム

Baidu Webmaster Platformのサイトクロール例外ツールが新たにリリースされ、新た...

タオバオの売り手は小さくて美しい運営の考え方を持つべきだ

電子商取引の発展により、多くの若者がインターネット上で独自のビジネスを始めるようになりました。Tao...

ケーススタディ: ウェブサイトのキーワード詰め込みの限界

キーワードスタッキングの不正行為について、誰が明確に説明できますか?百度百科事典や他の上級ウェブマス...

誰でも使えるアジャイルメトリクスツール! Kyligence ZenがGAバージョンを正式にリリース

4月11日、Kyligence Indicator Platform製品発表会が盛況のうちに開催され...

高小双:船員募集ウェブサイトの大量のリンク切れを修正する方法

私は会社の船員研修ウェブサイトを引き継いで以来、長い間それを観察、分析し、多くの問題を発見しました。...

#BlackFriday# Hawkhost: cpanel 仮想ホスティング $21.53/2 年、香港/ロサンゼルス/ダラス/ニューヨーク/トロント

Hawkhost は、特別なブラックフライデー プロモーションを開始しました。cpanel パネルを...

ssdvps-5ドル/2IP/1gメモリ/30gSSD/2Tトラフィック/3データセンター

ssdvps の VPS サービスはかなり良いです。個人的にも使っています。サーバーは安定していて、...

WeChat R&Dシステムにおける分散構成システムの設計の概要

[[347509]]著者: ypaapyyang、Tencent WXG バックエンド開発エンジニア...

ウェブサイトの SEO トラフィックに関して避けられない要素は 3 つだけです。

現在の SEO 知識の多さにより、どの知識が正しいのかを見分けることが難しくなり、優れた知識を選別す...

クラウド ネイティブとエッジ コンピューティングが出会うと、どのような火花が散るでしょうか?

Kubernetes がコンテナ オーケストレーションとスケジューリングの事実上の標準となったため、...