Scrapy 小小试验遇到的3个问题

博客主要介绍Python爬虫中常见的报错及解决办法。包括因遵守robot协议导致的'Forbidden by robots.txt',可关闭scrapy自带功能解决;'TypeError: Object of type 'Selector' is not JSON serializable'是因忘记使用extract();'write() argument must be str, not bytes'将模式改为二进制写模式即可。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. Forbidden by robots.txt

报错截图

研究:

查了一下 robot.txt 发现有一个 robot 协议,这个协议中规定了本站点允许爬虫机器抓取哪些网页或文件,可以访问这个链接 www.baidu.com/robots.txt 查看权限

User-agent: Baiduspider

Disallow: /baidu

而 scrapy 默认遵守 robot 协议,我们只要不遵守就可以了。

解决:

关闭 scrapy 自带 ROBOTSTXT_OBEY 功能,在 setting 找到这个变量,设置为 False 即可。

二. TypeError: Object of type 'Selector' is not JSON serializable

问题:json 序列化失败
原因:忘记 extract()

extract():序列化该节点为unicode字符串并返回list

三.write() argument must be str, not bytes

报错信息:

代码:
filename=open('test.json','w')
复制代码
解决:

改成 wb,以二进制写模式打开就可以了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值