1.selenium+phantomjs
(1)selenium概念: 是一个浏览器的自动化测试工具,通过selenium提供的一些方法可以去操作浏览器,让浏览器做 一些自动化的工作
(2)selenium操作谷歌浏览器: 主要核心:而是selenium操作谷歌浏览器驱动,通过驱动再来操作浏览器
谷歌浏览器驱动下载地址
http://chromedriver.storage.googleapis.com/index.html
http://npm.taobao.org/mirrors/chromedriver/
谷歌驱动和谷歌浏览器版本关系映射表
http://blog.youkuaiyun.com/huilan_same/article/details/51896672
安装selenium:pip install selenium
【注】通过selenium操作浏览器的时候,一定要记得停顿,因为是真正的上网过程,要执行其中很多的请求,所以使用selenium非常的慢,效率低.
(3)selenium操作有界面的目的
phantomjs概念: 是一款浏览器,它是一款无界面浏览器。就是专门用来写爬虫代码用的。肯定有浏览器的功能,可以将html、css、图片、js给你显示成图文并茂的形式,phantomjs可以执行网页中的js代码。
网页的呈现形式,很多情况,html中的内容不是直接就有的,而是需要执行js代码,动态的给生成的
(a)捕获接口,分析接口,然后向接口发送请求,得到数据,得到的数据一般都是json格式,然后再解析json数据即可.
(b)捕获不到接口,或者捕获到接口,看不懂接口参数,使用大招,selenium+phantomjs,因为它的效率低,慢.
(4)