基于Python,Selenium和PhantomJS实现动态页面爬取

1.下载安装Python2.7,将Python安装目录加入系统环境变量PTAH中。
2.在Python官网下载SetupTools,解压安装。
3.安装SetupTools之后,在Python安装目录下可找到Scripts目录。
4.将Scripts目录加入系统环境变量PTAH中。
5.打开cmd命令行,将目录切换到Scripts目录下,输入命令“easy_install pip”安装pip。
6.pip安装完成后,输入命令“pip install -U selenium” 下载安装最新版本的selenium。
7.编写抓取动态页面的Python脚本,下面是爬取淘宝搜索“python”结果页的完整脚本代码。

# coding=gbk 

from selenium import webdriver 
import time 

driver = webdriver.PhantomJS(executable_path="phantomjs.exe")
url = 'http://www.baidu.com/s?wd=%CC%EC%CF%C2%CE%DE%D4%F4'

def get_html():
    return driver.page_source.encode('gbk','ignore')

def get_screen_shot():
    driver.get_screenshot_as_file("3.jpg")

def test():      
    driver.get(url)
    time.sleep(5)

    print get_html()
    get_screen_shot() 

    driver.close()

if __name__ == '__main__':
    test()

8.执行脚本前需要下载浏览器phantomjs,将下载文件夹中的phantomjs.exe拷贝至我们的脚本所在目录下。
9.执行脚本,爬取页面,下面是对爬取结果截图的图片(部分)。
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值