job配置经验分享

最新推荐文章于 2025-03-03 16:21:48 发布

iteye_17257

最新推荐文章于 2025-03-03 16:21:48 发布

阅读量160

点赞数

分类专栏： heritrix 文章标签： CSS

heritrix 专栏收录该内容

19 篇文章

订阅专栏

本文探讨了爬虫抓取过程中遇到的常见问题，如抓取链接数量不足或下载速度慢等，并提出了解决方案。文章建议使用BroadScope扩大抓取范围，同时介绍了如何通过定制正则表达式和利用Scheduler来精准定位所需页面。

我们常常会遇到一个问题，就是明明别人网站链接这么多，为什么我们抓取到的却这么少？
或者说抓取速度如此蜗牛？下载到的链接都不是我们想要的？
下面我们一点点来解决！
下载到的链接太少其实是域限制太窄，比如限制在DecidingScope这样的话，如果入口散列在其他的二级域名的话，我们就无法抽取到这个链接，导致我们下载到的东西太少
个人建议用BroadScope
可是如果用了broadscope的话，下载到的东西又太多，因为他没有做任何限制！好多东西都不是我们想要的，比如js,css,jpg等等
我们需要扩展它的接口Extractor或者Scheduler
不过拓展这个接口是个很麻烦的问题，heritrix的原理大家都知道，判断链接通过scheduler才能下载，让后去解析里面的URL，所以我们要找全所有最终要下载页面的所有URL，让后定制出正则，一定要层层递进，不能断层。这样就可以快速的下载到我们所需的页面了！本人建议采用Scheduler,因为Extractor还要自己去提取url常常因为自己写的正则不太理想导致少抽取到URL！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。