Heritrix转载(一)

本文分享了作者将Heritrix开源框架改造成垂直搜索引擎爬虫的过程。针对Heritrix的一次性全站抓取特性,进行了定制化改造,包括XML配置种子URL、抓取频率及路径等,并探讨了UI远程监控的可能性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Heritrix是我真正意义上读的第一套开源框架源代码,直到今天才对其庐山真面目有点眉目,以前通过百度和GOOGLE等搜索引擎、csdn、javaeye去获取关于它的学习资料,但大部分是入门级的,只能教你怎么使用它,有一点的源码剖析也只是出于结构上大致的给你讲解下。不过这些对我们入门还是有用的,最起码你可以让其运行,然后花时间花精力去学习它。
不过由于我做的是垂直搜索引擎,由于Heritrix在抓取上通常是一次性将全站抓取,还没发做到垂直搜索引擎对爬虫的要求(像酷讯那样跟踪监视它需要抓取的网站,该网站一有新的内容就抓取过来),所以目前我正在将其进行改造,也通过xml配置种子URL、需要抓取的网址路径格式、多长时间抓取一次(就是多长时间重新对种子URL进行抓取)、抓取网页存放路径、抓取网页抽取类等配置实现一个垂直搜索引擎爬虫。
目前代码完成了大约80%,省去了Heritrix的UI启动方式。不过也在思考着是否将HERITRIX的UI方式进行扩展,可以通过UI远程监控控制爬虫的运行。
想法有很多,待完成的还有很多很多。正好也验证下我对HERITRIX源代码是否已经掌握?
加油!
接下来将上传我heritrix的各种学习资料,不过网络上也可以获取,不过这里相对应该更齐全!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值