Scrapy入门
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。它使用Twisted 这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。
个人认为Scrapy是Pytho世界里最强大的爬虫框架,没有之一,它比BeautifulSoup更加完善,BeautifulSoup可以说是轮子,而Scrapy则是车子,不需要你关注太多的细节。Scrapy不仅支持python2.7,Python3也支持。
安装scrapy
pip install scrapy
Pip是一个python包管理工具,主要是用于安装pypi上的软件包,可以代替easy_install工具。没有安装过的建议安装一下,经常用到,具体安装自行百度一下~
如果安装出现报错Vc++14.0 Twisted 等问题
解决方法:采用离线安装
安装地址 https://www.lfd.uci.edu/~gohlke/pythonlibs/
在里面找到Twisted 对应的版本
然后终端中运行scrapy