动态内容抓取与表单交互实战
1. 动态内容抓取
1.1 Selenium与无头浏览器
在服务器上运行脚本时,使用常见浏览器搭配Selenium可能会出现问题,因此服务器更常使用无头浏览器。无头浏览器通常比全功能的网页浏览器更快且更具可配置性。目前最流行的无头浏览器是PhantomJS,它通过自己基于JavaScript的WebKit引擎运行。
安装PhantomJS
可以在大多数服务器上轻松安装PhantomJS,也可以根据最新的下载说明(http://phantomjs.org/download.html )在本地安装。
使用PhantomJS与Selenium
使用PhantomJS与Selenium只需进行不同的初始化:
from selenium import webdriver
driver = webdriver.PhantomJS() # 注意:这里应使用phantomjs可执行文件的路径
# 如果你看到错误(例如PhantomJS('/Downloads/pjs'))
运行上述代码后,不会打开浏览器窗口,但会有一个PhantomJS实例在运行。我们可以访问一个页面并截取屏幕截图来测试代码:
driver.get('http://python.org')
driver.save_screenshot('../data/python_website.png')
超级会员免费看
订阅专栏 解锁全文
1437

被折叠的 条评论
为什么被折叠?



