前言
学python,玩爬虫的人,肯定绕不开一个流行的爬虫框架——Scrapy。
Scrapy其发音为(/ˈskreɪpaɪ/),是一个开源、协作的框架,用于网络抓取和结构化数据提取,广泛应用与数据发掘、信息处理、历史存档、监测和自动化等领域。
虽然Scrapy最初设计用于网络抓取,但也可以用于获取API的数据或通用的网络爬虫。
Scrapy是基于twisted框架开发的,twisted是一个流行的事件驱动的python网络框架,因此Scrapy使用了异步的代码来实现并发。
按照官方的文档是先走一遍Scrapy最简单的代码,但是现在还没安装Scrapy所以无法运行,因此先不着急开启爬虫,我们先将理论,了解下Scrapy的工作原理。
为什么写这个
说下,我为什么要写这个教程呢,首先就是本人想学Scrapy相关的知识,因为这是一个高效数据提取库,不仅可以用来做爬虫,还可以快速的将数据结构化并持久化。这个框架支持异步请求处理,这样省去很多需要自己编写的代码。
如果要想学会一个知识,最好的方法就是,自己学后,可以给别人讲清楚,就是费曼学习法中提到的,能教别人才是真的学会,因此这个教程不仅是用于自己的学习,也是作为一种输出,保证所有涉及到的知识点都学会了。
声明
爬虫是一种技术,用好了一劳永逸,但是,还有但是,爬虫这门技术也在法律的边缘徘徊,如果你学了爬虫去爬取那些商业机密、大量的非公开、非开源信息,这是违法的行为,这里郑重声明,大家不要用爬虫去做违法的事情。
网络上如何界定内容能不能爬呢?最简单的方法,如果平台的内容需要付费查看,大家尽量就不要去爬取了,避免造成人家的经济损失,严重情况会被判刑的哟。
另外,欢迎大家关注我的头条和个人公众号,将不定期发放各种软件或软件源码供大家使用!