1.下载安装Python2.7,将Python安装目录加入系统环境变量PTAH中。
2.在Python官网下载SetupTools,解压安装。
3.安装SetupTools之后,在Python安装目录下可找到Scripts目录。
4.将Scripts目录加入系统环境变量PTAH中。
5.打开cmd命令行,将目录切换到Scripts目录下,输入命令“easy_install pip”安装pip。
6.pip安装完成后,输入命令“pip install -U selenium” 下载安装最新版本的selenium。
7.编写抓取动态页面的Python脚本,下面是爬取淘宝搜索“python”结果页的完整脚本代码。
# coding=gbk
from selenium import webdriver
import time
driver = webdriver.PhantomJS(executable_path="phantomjs.exe")
url = 'http://www.baidu.com/s?wd=%CC%EC%CF%C2%CE%DE%D4%F4'
def get_html():
return driver.page_source.encode('gbk','ignore')
def get_screen_shot():
driver.get_screenshot_as_file("3.jpg")
def test():
driver.get(url)
time.sleep(5)
print get_html()
get_screen_shot()
driver.close()
if __name__ == '__main__':
test()
8.执行脚本前需要下载浏览器phantomjs,将下载文件夹中的phantomjs.exe拷贝至我们的脚本所在目录下。
9.执行脚本,爬取页面,下面是对爬取结果截图的图片(部分)。