scrapy入门基础

本文详细介绍了Scrapy的安装、项目创建、爬虫文件建立及配置、日志管理和数据输出过程。通过实例展示了如何处理爬虫数据,包括消除Selector、使用pipelines进行数据处理。在遇到问题时,如数据传递错误,文中提供了解决方案,强调了pipelines的启用和配置。最终,成功实现了数据的输出和日志控制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.scrapy的安装

pip install scrapy

2.scrapy项目的创建

1.首先找到要建立项目的位置

请添加图片描述
在路径前面加上cmd然后回车
请添加图片描述

2.输入建立scrapy项目的命令
scrapy startproject + 你要起的项目名称
例如:scrapy startproject study

请添加图片描述
出现这个就说明创建成功了,打开pycharm就可以查看项目的结构
请添加图片描述

3.建立爬虫项目

1.在cmd命令中输入cd 加刚才的项目名

请添加图片描述

2.输入创建爬虫文件的命令
scrapy genspider 爬虫名称  爬取范围,要爬网站的起始url
例如: scrapy genspider baidu www.baidu.com

在这里插入图片描述

3.配置爬虫文件

请添加图片描述
这是建立爬虫文件自带的,起始的url也会自己填进去, 也可以自己进行更改,接下来我们就可以在parse函数里面进行爬虫代码的编写了

4.运行爬虫代码

1.写好爬虫代码

请添加图片描述
我们以彼岸图网为例

2.打开命令窗口输入如下指令
scrapy crawl 爬虫名称
例如:scrapy crawl baidu

请添加图片描述可以看到日志文件非常的多,怎样关闭日志呢。

3.关闭日志

进入项目文件打开seetings文件
请添加图片描述
在里面加入如下代码
请添加图片描述
这样只有级别为WARNING的错误才会出现,看看效果
请添加图片描述
但是这样的数据还是非常的杂乱,每句都有Selector。

4.消除Selector

请添加图片描述
在我们的语句后面加上.extract()就可以了,看下效果
在这里插入图片描述

5.在pipelines输出爬虫数据

1.传递数据到pipelines

使用yield将数据从爬虫文件传入pipelines
请添加图片描述然后再pipelines将数据输出一下
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

结果运行爬虫的时候报错了, 他说只能传递request对象,字典,或者空,而我们传递的是一个列表

2.修改传递数据

在这里插入图片描述

我们把数据变为字典结构再来一次

在这里插入图片描述
结果为空直接跳过了,这里发现我们没有开启pipelines

3.在seetings中找到ITEM_PIPELINES去掉他的注释即可

在这里插入图片描述
后面的值越小,执行越优先,现在我们执行运行爬虫命令
在这里插入图片描述
已经可以输出了。

4.解释一下后面的数字

在这里插入图片描述
我们在pipelines中再复制一个类, 然后进入settings中,加入新建的类

如果我们输出的结果中出现了wo与ni的那一行字典,说明其先经过了299这个类中
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值