爬虫踩坑小记

本文介绍了使用pyspider和scrapy爬虫时遇到的典型问题及其解决方案,包括HTTPS证书错误、Unicode编码问题和请求过滤等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在用pyspider爬虫运行代码后出现:

HTTP 599: SSL certificate problem: unable to get local issuer certificate错误

错误原因:
这是因为在请求https开头的网址时,SSL验证错误,证书有问题
解决方法:
self.crawl(url,callback=self.index_page,validate_cert=False)

Python print时,遇到Unicode编码错误的情况,可能是在windows下,默认打开文件格式会被转为gbk格式,导致出错的情况

有两种解决方式:
1.修改标准输出流的编码方式

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

或者

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')

2.修改控制台编码
在命令行下输入 chcp
输出显示:活动代码页: 936
表示当前的编码是gbk
chcp 65001
表示转换为utf8

scrapy提示DEBUG:Filtered offsite request to
转载:https://blog.youkuaiyun.com/lvqiuyao/article/details/76841663
在使用scrapy爬取数据时,只可以执行parse函数中的内容,通过yield scrapy.Request(url,callback=self.detail)方式无法跳转到detail函数,导致显示详细信息的url不能被解析。
通过查看log,发现提示如下:

DEBUG:Filtered offsite request to 域名

通过查资料,发现request url的域名不能和文件中自己配置的allowed_domains不一致,否则会被过滤掉。
解决办法可以停用过滤功能,如下所示:

yield scrapy.Request(url,callback=self.detail,dont_filter=True)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值