专业搜索

计划建一个专业领域的搜索引擎,利用开源代码。

蜘蛛爬虫程序用Heritrix,Nutch;收录引擎用Solr. 这些都是开源的。

需要一名经验丰富的JAVA程序员,整合爬虫程序和收录引擎。对于Heritrix,只要程序员能编写一个heritrix writer, 把搜集的数据保存到MYSQL或XML,然后SOLR可以读取就可以了。NUTCH和SOLR的整合有documentation可以阅读,后者应该相对简易些。

相关链接:

1. Heritrix: http://crawler.archive.org/

2. Nutch: http://lucene.apache.org/nutch/

3. Solr: http://lucene.apache.org/solr/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值