job配置经验分享

本文探讨了爬虫抓取过程中遇到的常见问题,如抓取链接数量不足或下载速度慢等,并提出了解决方案。文章建议使用BroadScope扩大抓取范围,同时介绍了如何通过定制正则表达式和利用Scheduler来精准定位所需页面。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们常常会遇到一个问题,就是明明别人网站链接这么多,为什么我们抓取到的却这么少?
或者说抓取速度如此蜗牛?下载到的链接都不是我们想要的?
下面我们一点点来解决!
下载到的链接太少 其实是域限制太窄,比如限制在DecidingScope这样的话,如果入口散列在其他的二级域名的话,我们就无法抽取到这个链接,导致我们下载到的东西太少
个人建议用BroadScope
可是如果用了broadscope的话,下载到的东西又太多,因为他没有做任何限制!好多东西都不是我们想要的,比如js,css,jpg等等
我们需要扩展它的接口Extractor或者Scheduler
不过拓展这个接口是个很麻烦的问题,heritrix的原理大家都知道,判断链接通过scheduler才能下载,让后去解析里面的URL,所以我们要找全所有最终要下载页面的所有URL,让后定制出正则,一定要层层递进,不能断层。这样就可以快速的下载到我们所需的页面了!本人建议采用Scheduler,因为Extractor还要自己去提取url常常因为自己写的正则不太理想导致少抽取到URL!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值