
关于Nutch
setok
这个作者很懒,什么都没留下…
展开
-
Nutch 开始被 Apache "孵化"
come from :http://incubator.apache.org/projects/nutch.html-------------------------------------------------------------------------------------------------------------------------------项目状态是: On 2004-转载 2005-10-11 15:30:00 · 749 阅读 · 0 评论 -
Nutch 初体验之二
Nutch 初体验之一介绍了 Nutch 的基本信息 以及 如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。Nutch 的数据包括两种类型:Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的转载 2005-10-12 00:22:00 · 1674 阅读 · 0 评论 -
nutch 0.7 plug-ins 详解
1、nutch 0.7 发布了;2、nutch 的java源代码包路径改变成了org.apache...3、yahoo也使用了nutch,并做了很多的工作。1 2clustering-carrot2 : 一个搜索结果类聚的代码框架,目前和Egothor等搜 索引擎结合的很好; 地址:http://sourceforge.net/projects/car转载 2005-10-11 15:38:00 · 798 阅读 · 0 评论 -
Nutch 初体验 之一
来源:http://www.dbanotes.net/archives/2005/01/nutch_aee.html------------------------------------------------------------------------------------------------------------------------------------前几天看到卢亮的 L转载 2005-10-11 15:12:00 · 1256 阅读 · 0 评论 -
Nutch 的小技巧
come from :http://www.dbanotes.net/archives/2005/02/some_hints_for.html-------------------------------------------------------------------------------------------------------------------------好久没关注Nut转载 2005-10-11 15:23:00 · 852 阅读 · 0 评论