事情起于想做一个抓取网页的程序。我想抓一些资讯。问题是,许多网站采用js来控制翻页,我之前用java写的程序只能抓到首页,无法翻页。
于是在网上淘,淘啊淘,嫖啊嫖,
找到这篇, http://www.comingcode.com/?p=275 介绍如何抓取js中内容的。这篇文章流传范围挺广的。不少人都转载了。
里面提到的3种方法,第一种,我在csdn看了本专门介绍selenium的书,没找到有比较好的线索。第二种,不合我的想法。
第三种,使用spynner。
所需的工具:
1.python 2.7/3及以上版本。容易找到链接下载;
2.Pyqt 有压缩包。不过最好是直接用exe安装吧。
3.Spynner包。 Spynner网上不容易找到。我第一次能搜索到,第二次再去找的时候却难以找到。因此我将这个上传百度云 http://pan.baidu.com/s/1gdwB8JL
里面说到用pip安装。用pip安装确实比较方便。就像在linux环境下载一样。
Pip下载:https://pypi.python.org/pypi/pip
如何安装pip呢?
Pip使用:http://blog.163.com/wanyong_37/blog/static/127055589201451410847493/
4.beautifulsoup包。 下载地址 :http://download.chinaunix.net/download/0014000/13541.shtml
我推荐用pip下载。 命令:pip install beautifulsoup3/4/5 分别代表不同的版本。
5.IDE。自选。
他那个示范程序中,
其实还漏了一些包,比如程序中需要的pyquery包。这个用pip安装。我安装的过程中不太顺利,老是出错,提示:error:Unable to find vcvarsall.bat。网上有提示说要安装MinGW。安装地址:http://blog.youkuaiyun.com/sunny2038/article/details/6918602
可是我已经装了MinGW。初步估计还缺点别的包。所以我才说“还漏了一些包”。程序中BeautifulSoup包好像改名了,改成了bs4(4是版本号)。导入是这样的:import bs4
上面说到的一些包如果不是用pip下载的包,需要解压,并拷到PYthon2.7/3及以上版本的安装目录中;再在控制台下,cd 包所在的目录,然后用命令(比如):python setup.py install 安装。
先写到这里。
转载请注明出处,谢谢。