搜索引擎
mangoitv
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lucene Nutch 入门简明教程总结(转载 收藏)
原文地址:http://cid-47027e68f36cbaf5.spaces.live.com/blog/cns!47027E68F36CBAF5!443.entry 先声明,是个菜鸟的总结。总结的是一件很菜鸟的事情。 事情的起因是1月2号,在实验室,黄黄的书架上看到一本书《Lucene in action》。觉得有意思,拿过来一看。又见Nutch是基于Lucene的一个开源搜索引擎...原创 2010-10-14 15:46:06 · 162 阅读 · 0 评论 -
Heritrix 项目介绍和架构 Nutch比较(转载 收藏)
Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术进行实验,以决定该爬什...原创 2010-10-14 16:06:00 · 144 阅读 · 0 评论 -
Heritrix使用的初步总结(收藏 转载)
一、框架介绍 公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。 目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,...原创 2010-10-14 17:29:46 · 120 阅读 · 0 评论
分享