以前、クローラー プロキシ Web サイトをクロールしたところ、ポートに対して何らかの処理が行われており インストールリナックス
ウィンドウズ
原理セレンについてSelenium は、複数のプラットフォーム上で複数のブラウザを操作し、ブラウザの実行、ページへのアクセス、ボタンのクリック、フォームの送信、ブラウザ ウィンドウの調整、右クリックやドラッグ アンド ドロップの操作、ドロップダウン ボックスやダイアログ ボックスの処理など、さまざまなアクションを実行できる Web 自動テスト ツールです。QA 自動テストに不可欠なツールです。 PhantomJsについてPhantomJs は、レンダリング エンジン (QtWebkit) と JS エンジン (JavascriptCore) を備えた、ページのないブラウザーと見ることができます。 PhantomJs には、DOM レンダリング、JS 実行、ネットワーク アクセス、Web ページのスクリーンショットなど、複数の機能があります。 PhantomJS は、主に PhantomJS のサイレント モード (ブラウザーを開かずにバックグラウンドで実行される) の理由で、Chromedriver や Firefox の代わりに使用されます。 クロールの例小さなテスト - zhidaow.com タイトルをクロールまずは簡単な例を見てみましょう。以前は、このようなコンテンツは一般的にrequests+BeautifulSoupまたはScrapyを使用して処理されていました。 from selenium import webdriverbrowser = webdriver.PhantomJS('D:\phantomjs.exe') # ブラウザーの初期化。Win では phantomjs パスを設定する必要があり、Linux では空白のままにできます。url = ' # アクセス パスを設定します。browser.get(url) # Web ページを開きます。title = browser.find_elements_by_xpath('//h2') # xpath を使用して要素を取得します。for t in title: # 出力をトラバースします。print t.text # テキストを出力します。print t.get_attribute('class') # 属性値を出力します。browser.quit() # ブラウザーを閉じます。例外が発生した場合、タスクブラウザでPhantomJSを閉じることを忘れないでください。複数のPhantomJSが実行され、コンピュータのパフォーマンスに影響を与えるためです。 元のタイトル: Selenium+PhantomJS+Xpath で Web ページの JS コンテンツをクロールする キーワード: JS |
これまで、SEOは中国で長年にわたり発展してきました。初期の盛り上がりから、流行、そして誰もがSEO...
Hostusのアジア最適化VPSがリリースされました。「Hostus-高速アジア最適化回線VPS/ク...
多くのウェブマスターは、ユーザーが必要とするコンテンツはウェブサイトのオリジナルコンテンツであると誤...
皆さん、こんにちは。最近、済南の天気は本当に暑いです。外を歩くとサウナに入るようなもので、思わず汗を...
BeastNode はロサンゼルスに登録された会社です。2011 年から VPS 事業に携わっており...
A5ウェブマスターネットワーク(www.admin5.com)は3月21日、今月19日にCCTVの「...
約1か月の「調整」を経て、Baiduはついに昨日3月13日にウェブサイトの掲載とランキングを大幅に更...
政府の活動報告に初めて記載された「新インフラ」は、間違いなく現時点で最も強力な産業トレンドの一つとな...
最近、AWS 中国 (寧夏) リージョン (Western Cloud Data が運営) と AW...
まず、同じ業界の友人たちに聞きたいのですが、あなたの新しいウェブサイトはオンラインになってから、含ま...
クラウド コンピューティングは現在、成熟したテクノロジーとアプリケーションです。米国国立標準技術研究...
5月4日にKubernetesバージョン1.24が正式にリリースされました。以前のバージョンと同様に...
ついに、ついに、Ceenの「世界的に有名な靴のタオバオアフィリエイト」プロモーションコンテスト[シー...
AutoNavi Maps、Sina Weibo、Momoなど多くの優れたモバイル製品を所有するアリ...
[はじめに] Ganji.com、58.com、Baixing.com はすべて Craigslis...