【Scrapy】Scrapy教程1——简介

最新推荐文章于 2025-04-05 17:59:45 发布

原创

最新推荐文章于 2025-04-05 17:59:45 发布 · 732 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy

文章目录

前言
为什么写这个
声明

前言

学python，玩爬虫的人，肯定绕不开一个流行的爬虫框架——Scrapy。
Scrapy其发音为(/ˈskreɪpaɪ/)，是一个开源、协作的框架，用于网络抓取和结构化数据提取，广泛应用与数据发掘、信息处理、历史存档、监测和自动化等领域。
虽然Scrapy最初设计用于网络抓取，但也可以用于获取API的数据或通用的网络爬虫。
Scrapy是基于twisted框架开发的，twisted是一个流行的事件驱动的python网络框架，因此Scrapy使用了异步的代码来实现并发。
按照官方的文档是先走一遍Scrapy最简单的代码，但是现在还没安装Scrapy所以无法运行，因此先不着急开启爬虫，我们先将理论，了解下Scrapy的工作原理。

为什么写这个

说下，我为什么要写这个教程呢，首先就是本人想学Scrapy相关的知识，因为这是一个高效数据提取库，不仅可以用来做爬虫，还可以快速的将数据结构化并持久化。这个框架支持异步请求处理，这样省去很多需要自己编写的代码。
如果要想学会一个知识，最好的方法就是，自己学后，可以给别人讲清楚，就是费曼学习法中提到的，能教别人才是真的学会，因此这个教程不仅是用于自己的学习，也是作为一种输出，保证所有涉及到的知识点都学会了。

声明

爬虫是一种技术，用好了一劳永逸，但是，还有但是，爬虫这门技术也在法律的边缘徘徊，如果你学了爬虫去爬取那些商业机密、大量的非公开、非开源信息，这是违法的行为，这里郑重声明，大家不要用爬虫去做违法的事情。
网络上如何界定内容能不能爬呢？最简单的方法，如果平台的内容需要付费查看，大家尽量就不要去爬取了，避免造成人家的经济损失，严重情况会被判刑的哟。

另外，欢迎大家关注我的头条和个人公众号，将不定期发放各种软件或软件源码供大家使用！
在这里插入图片描述