python
本项目使用python3.5以上版本进行开发,到python官方网站下载3.5以上版本,下载链接:https://www.python.org/downloads/
下载好之后进行安装,在安装界面记得勾选上add python 3.6 to path,可以省去手动配置python系统环境
进入控制台输入 :python -V 出现下图情况,说明python安装成功,系统环境也已经配置好了
scrapy
lxml和twisted
该项目主要使用python的scrapy框架来进行爬虫脚本的开发,安装scrapy之前需先下载并安装两个文件lxml.whl和twisted.whl,下载链接:http://www.lfd.uci.edu/~gohlke/pythonlibs/
根据python版本和windows版本选择相应的文件下载
安装wheel模块:pip3 install whell
找到下载文件的对应目录安装lxml和twisted:
pip3 install path/lxml-4.2.5-cp36-cp36m-win_amd64.whl (path为文件路径)
pip3 install path/Twisted-18.9.0-cp36-cp36m-win_amd64.whl (path为文件路径)
最后安装scrapy即可:pip3 install scrapy
输入scrapy version出现下图情况即说明安装成功
pywin32
windows系统在使用scrapy的时候还需要win32api,下载链接:https://github.com/mhammond/pywin32/releases,根据python版本和windows版本选择相应的文件下载安装
安装scrapy:
https://blog.youkuaiyun.com/xionghuixionghui/article/details/69271447?utm_source=blogxgwz0
virtualenv(python项目搭建独立的Python环境)
1.首先安装virtualenv,如果python版本是python3以上,使用pip3 install virtualenv(在当前项目目录下)
2.进入项目目录下,输入virtualenv --no-site-packages venv,添加参数--no-site-packages 这样已经安装到系统的python环境中的第三方包都不会复制过来,这样就得到一个不带任何第三方包的“干净”的python环境。
3.windows进入该环境
4.deactivate 退出环境
linux进入环境
https://www.cnblogs.com/kindnull/p/8478762.html
selenuim安装配置
python3下,直接可以在venv环境下执行pip3 install selenuim指令进行下载,下载完成后输入pip list有下图所示,说明环境配置selenuim库成功
ChromeDriver安装配置
selenium不自带谷歌浏览器的驱动,需要手动下载,下载ChromeDriver时必须与使用的浏览器版本号相对应;
参考链接:Chrome版本与chromedriver兼容版本对照表
下载链接:ChromeDriver下载地址
下载完成后有两种使用方式可供参考:
1、配置系统环境变量:将ChromeDriver的目录配人系统环境变量下的path下面
2、直接在程序中引用绝对路径:如下图所示
selenium在启动时会根据配置打开相应的浏览器,并在浏览器中模拟页面操作;为了提高爬虫效率,可配置为不打开浏览器,如上图中的option配置