
lucene/nutch
文章平均质量分 81
kauu
搜索引擎工程师
展开
-
nutch 8.x安装与使用
作者:江南白衣 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码,另外很多地方作了合理化修正,非常值得升级。1.Nutch 0.8 的安装与运行nutch原创 2006-10-30 17:28:00 · 1643 阅读 · 6 评论 -
Nutch距离一个商业应用的搜索引擎还有多远
参考:http://lotusroots.bokee.com/6106980.html 了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。 作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大原创 2007-11-05 14:58:00 · 4653 阅读 · 5 评论 -
nutch的cache策略及cache策略研究
一个成熟的商业搜索引擎的cache应该是比较成功的,因为在长期的实践中证明 cache的好坏很大地影响着搜索引擎的效率。虽然I/O、算法等等很大地影响着搜索效率,但是在相差不大或着说在同一数量级上时,cache却可以让引 擎的效率成倍或大大地提高。在nutch中当然也是有cache的,只不过比较初级而已。 在nutch中负责cache的是原创 2007-11-02 13:43:00 · 4705 阅读 · 1 评论 -
Nutch Crawler工作流程
Nutch Crawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍: 1、先注入种子urls到crawldb 2、循环: generate 从crawldb中生成一个ur原创 2007-10-14 09:58:00 · 15064 阅读 · 6 评论 -
Nutch的Analysis包详解
对于中国用户,最早遇到的棘手问题可能就是中文分词了。由于nutch对中文的支持默认是单字分词,所以很多人在一拿到nutch后要解决的第二件事情 (第一件事情当然是让nutch跑起来了)往往是要加入一个可行的中文分词模块。所以对这个包研究的人也是最多的,在网上关于nutch的中文分词的文章 也是人气很高的。那么就让我们一起来走近它看看它到底是怎么一回事,也让我们来做个中文分词器让中文在nut原创 2007-10-23 15:24:00 · 3976 阅读 · 4 评论 -
nutch插件加载机制
当某个插件需要被加载时, Nutch 会加载所有插件的相关接口到缓存,此后每个插件需要实例的时候,根据相关接口和相关接口实现实例在缓存内的记录,使用反射实现一个实例并返回,下面以 QueryFilter 的所有插件被加载例子进行说明。 具体代码参看org.apache.nutch.seache转载 2007-08-24 09:58:00 · 3426 阅读 · 0 评论 -
hadoop 初记-试用
Hadoop Learning My DemoStatistic.java1. 初始化配置文件,临时文件存放目录,还有具体的Job。 Configuration defaults = new Configuration(); File tempDir = new File("tmp/stat-temp-"+Integer.toString(转载 2006-12-10 13:58:00 · 3367 阅读 · 0 评论 -
Hadoop笔记--不需要分布式编程经验地分布式编程
作者:江南白衣 Hadoop 是 Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式,让程序可以自动在普通机器组成的集群中以并行方式分布执行。 就如同java程序员可以不考虑内存泄露一样,MapReduce程序员也不许要关心海量数据如何被分配到多台机器上,不需要考虑机器失效的处理,不需转载 2006-12-10 13:44:00 · 2204 阅读 · 0 评论 -
Nutch 0.7.2 学习笔记
Nutch 学习笔记 我的jdk 是1.5.x ,Tomcat是5.0.x1 下载0.7.2 版本的包:里面已经包含了war文件,所以不需要Ant编译了2 安装Cygwin,这个没什么好说的。3 把Nutch借压缩到D:/nutch4 在D:/nutch下面建立一个文件 urls (没有后缀)http://www.ybu.edu.cn/5 在D:/nutch转载 2006-11-01 20:54:00 · 1508 阅读 · 0 评论