scrapy常用设置和注意点!!!!

Scrapy爬虫高级配置详解
本文详细介绍了Scrapy爬虫中的高级配置选项,包括如何设置HTTP错误代码允许列表、响应URL的使用、页面跳转限制及重试机制,以及中间件中异常处理的最佳实践。这些设置对于优化爬虫性能、提高数据抓取成功率至关重要。
setting里的设置

HTTPERROR_ALLOWED_CODES = [405]   //这一条是忽略405错误退出进程,有可能跳到405页面,在parse注意判断,重新请求页面

爬虫里的设置

response.url   //这一条在parse里是返回上一个请求链接

meta = {'dont_redirect': True}      //这个是限定页面不能跳转
dont_filter = True   //这个是不过滤页面重新爬取,这个在页面取不到数据里,要重新爬取时很有用
中间件里的设置
process_exception   //这个方法里最好不要返回request 这样会停止进程的,最好在这里换IP然后什么也不要返回即可

 

转载于:https://www.cnblogs.com/firebirdweb/p/11287386.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值