
Scrapy
文章平均质量分 87
jayhgq
喜欢接触一切未知的新事物
展开
-
【Scrapy】Scrapy教程12——中间件
中间件这部分算是一个高阶的Scrapy内容,即便不了解这部分也可以使用Scrapy,但是一些特殊情况使用中间件就比较方便处理了,比如修改请求和响应等。通过之前的工作原理图中,我们了解到Scrapy中有两个中间件,分别是下载器中间件和爬虫中间件,本节将一一讲解如何激活、编写自己的中间件和如何使用内置中间件。原创 2025-04-10 14:39:53 · 1029 阅读 · 0 评论 -
【Scrapy】Scrapy教程11——XPath详解
XPath是一门在XML文档中查找信息的语言,可以概括为以下几个特点。原创 2025-04-08 14:55:15 · 544 阅读 · 0 评论 -
【Scrapy】Scrapy教程10——CSS选择器详解
那首先要说明下,这里说的选择器呢,是web前端开发中CSS的选择器。还有一种常说的选择器是电子电路中的数据选择器,数据选择器是一种组合逻辑电路,其作用是根据给定的输入地址代码,从一组输入信号中选出指定的一个送至输出端的组合逻辑电路。这个选择器,不在本文讨论的范围内。我们这里说的是前端开发中CSS的选择器,对于技术人员,尤其是前端开发人员,对CSS再熟悉不过了,CSS指的是层叠样式表(CascadingStyleSheets),用来定义HTML元素如何显示的,那么CSS是如何找到HTML元素的呢?原创 2025-04-05 17:59:45 · 984 阅读 · 0 评论 -
【Scrapy】Scrapy教程9——Spider参数
括起来后,就是可以在字符串中自动使用变量,比如我的’category=electronics’,那我最终的url就是。代码中有个strat_urls,这个都是这是获取第一个爬取网址的地方,但是注意,这个网址和之前的不一样,后面有个。,熟悉Python一看就知道了,这个是用来在字符串中自动匹配变量的,也就是说category是一个变量,用。Spider支持接受一些参数去改变他的执行行为,这里借用官方的例子说明下,看下面的代码。不要丢,spider的crawl命令通过-a选项来传输参数。原创 2025-03-26 10:02:07 · 181 阅读 · 0 评论 -
【Scrapy】Scrapy教程8——处理子链接
通过前面几篇文章,已经了解了如何去爬取网页内容并存储到数据库,但是目前只是存储了一个页面的内容,现在想要获取每篇文章链接内的文章内容,我们来看看怎么获取。原创 2025-03-22 20:37:59 · 694 阅读 · 0 评论 -
【Scrapy】Scrapy教程7——存储数据
Scrapy创建项目时,默认生成了items.py文件,我们在这里定义items。看下面这个例子。这是官网的一个例子,熟悉Django的朋友会注意到,Scrapy的Items定义和Django的Models很像,此外Scrapy Items因为不区分不同的字段类型,而变得更简单。注意看,例子中每个字段使用的都是Field对象,就是这么简单。而Field对象的作用,是用来指定每个字段元数据的。比如上面示例中last_updated字段的序列化函数。原创 2025-02-20 22:26:50 · 867 阅读 · 0 评论 -
【Scrapy】Scrapy教程6——提取数据
前一小节我们拿到了页面的数据,那页面中那么多内容,我们想要其中的部分内容,该如何获取呢?这就需要对我们下载到的数据进行解析,提取出来想要的数据,这节就讲讲如何提取数据。原创 2025-02-18 22:09:34 · 800 阅读 · 0 评论 -
【Scrapy】Scrapy教程5——第一个Scrapy项目
通过前几节的学习,我们已经了解了Scrapy的基本操作,下面我们开始第一个项目,我以本人的为例进行爬虫讲解,之所以用我自己的网站,是因为我这个网站本来就是做知识分享用的,共大家学习,不会去限制爬取,现在很多网站为了防止爬虫,都会做很多限制策略,不适合新手练习,本人就提供这样一个练习平台给大家。原创 2025-02-18 16:57:07 · 889 阅读 · 0 评论 -
【Scrapy】Scrapy教程4——命令行工具
Scrapy支持使用模块设置自己的项目命令。如何实现可参考的实践方法。然后在项目的settings文件中配置来添加自定义命令。以上就是对Scrapy命令行工具的说明,有不明确的地方,可参考官方文档欢迎大家在各大平台关注我,我会不定期发布技术相关文章和各种小工具,并且欢迎共同技术探讨!原创 2025-02-17 15:45:19 · 831 阅读 · 0 评论 -
【Scrapy】Scrapy教程3——Scrapy的安装
前面了解了什么是Scrapy和其工作原理,下面先开始安装Scrapy。原创 2025-02-17 15:42:02 · 898 阅读 · 0 评论 -
【Scrapy】Scrapy教程2——工作原理
在学习Scrapy前,我们需要先了解其架构和工作原理,这样才能很好的去使用Scrapy。Scrapy的整体架构如下图所示,同时也标注出了其各个组件和数据流。原创 2025-02-16 22:31:27 · 908 阅读 · 0 评论 -
【Scrapy】Scrapy教程1——简介
学python,玩爬虫的人,肯定绕不开一个流行的爬虫框架——Scrapy。Scrapy其发音为(/ˈskreɪpaɪ/),是一个开源、协作的框架,用于网络抓取和结构化数据提取,广泛应用与数据发掘、信息处理、历史存档、监测和自动化等领域。虽然Scrapy最初设计用于网络抓取,但也可以用于获取API的数据或通用的网络爬虫。Scrapy是基于twisted框架开发的,twisted是一个流行的事件驱动的python网络框架,因此Scrapy使用了异步的代码来实现并发。原创 2025-02-16 16:35:46 · 426 阅读 · 0 评论 -
[Python]爬虫框架scrapy学习,读了这篇文章就可以上手scrapy
文章目录1. 安装scrapy2. 创建scrapy项目3. scrapy框架工作原理3.1 scrapy框架工作流程图3.2 Scrapy数据流讲解3.3 各个组件的讲解4. 提取数据5. 爬虫编写步骤6. 执行爬虫7. 测试项目案例(附源码)最近在研究scrapy框架,在这里简单整理下scrapy使用步骤进行记录,也方便大家阅读。1. 安装scrapypip install scrapy...原创 2020-02-12 21:15:17 · 336 阅读 · 1 评论