11、动态内容抓取与表单交互实战

动态内容抓取与表单交互实战

1. 动态内容抓取

1.1 Selenium与无头浏览器

在服务器上运行脚本时,使用常见浏览器搭配Selenium可能会出现问题,因此服务器更常使用无头浏览器。无头浏览器通常比全功能的网页浏览器更快且更具可配置性。目前最流行的无头浏览器是PhantomJS,它通过自己基于JavaScript的WebKit引擎运行。

安装PhantomJS

可以在大多数服务器上轻松安装PhantomJS,也可以根据最新的下载说明(http://phantomjs.org/download.html )在本地安装。

使用PhantomJS与Selenium

使用PhantomJS与Selenium只需进行不同的初始化:

from selenium import webdriver
driver = webdriver.PhantomJS()  # 注意:这里应使用phantomjs可执行文件的路径
# 如果你看到错误(例如PhantomJS('/Downloads/pjs'))

运行上述代码后,不会打开浏览器窗口,但会有一个PhantomJS实例在运行。我们可以访问一个页面并截取屏幕截图来测试代码:

driver.get('http://python.org')
driver.save_screenshot('../data/python_website.png')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值