
搜索引擎
badonly
这个作者很懒,什么都没留下…
展开
-
为什么产生“Too many open files”
操作系统都会限制一个进程同时打开文件的最大数量,通常linux默认的是1024.lucene有可能会导致“Too many open files”的异常,这取决于你是否正确使用lucene。 1.总是要确保打开的文件句柄关闭掉,特别是出现错误的情况,捕获该异常,并在finally块释放持有的文件句柄。请记住,java没有拆构器,不要在finalize方法里处理文件句柄,该方法不会确保都被执行...2009-09-20 21:25:45 · 201 阅读 · 0 评论 -
lucuene索引文件介绍
没优化之前的索引文件包含了一系列的文件,其中每个文件的功能对应如下。 1.segments_* 文件描述一组索引的参数,使用头文件固定格式描述后面的内容,包括每个独立新建索引的大小、属性等。 2.Fnm文件是索引域的描述文件,一个独立的索引(PerIndex)叫做一个Segment(索引段),一个fnm文件描述了本索引的File数,各个Field的属性编号。 3.fdx文件是文档...原创 2009-04-30 08:36:33 · 142 阅读 · 0 评论 -
lucene2.4.1的TokenStream
[code="java"]import java.io.IOException; import org.apache.lucene.analysis.Token; import org.apache.lucene.index.Payload; /** * TokenStream用来分析文字流,按一定的规则罗列token,在lucene有字节流是即将要索引的文本,或者查询的关键字。...原创 2009-05-07 12:52:41 · 205 阅读 · 0 评论 -
用lucene的注意事项(抛砖引玉)
1.同一个索引目录,IndexWriter和IndexReader确保要唯一,他们两个都是线程安全的,可以被多个线程调用。 让专门的类去管理(实例化和销毁)IndexWriter和IndexReader。 2.尽量减少不必要的储存,只储存哪些要在返回结果里的字段,不需要检索的内容就不要建索引。索引太大了,对更新索引的效率都会有影响。 3.不要强制kill建索引的程序,强制kill很有可...2009-06-05 13:36:39 · 167 阅读 · 0 评论 -
lucene管理IndexReader和IndexWriter的最佳实践
实例化IndexReader需要加载索引文件,所以实例化它是非常耗资源的。 IndexReader是线程安全的,通常一个索引目录,我们只实例化一个IndexReader就够了。 当索引数据足够大(G的数量级)的时候,一般把索引资源按照某种规则散列到多个文件目录里(如:index-0,index-1,index-2.... 或者 blog,posts....),当然这些文件目录应该放在同...原创 2009-12-03 16:09:33 · 240 阅读 · 0 评论 -
linux下安装nutch-1.0--内部网络爬虫和检索的实现
Nutch是一个完整的开源全文检索软件,它是建立在lucene java之上增加,增加了一些web特性, 如网络爬虫,link-graph数据库,HTML文本解析和其他格式文档解析,等等。 [b][size=large]下载nutch[/size][/b] 1.选择安装nutch的目录,我就直接安装到/home/admin下 [code="java"][root@search-te...原创 2010-01-12 15:56:27 · 183 阅读 · 0 评论 -
装饰器模式实现检索模块
[img]http://dl.iteye.com/upload/attachment/241398/dd68339b-af94-3845-bfdd-14af6019ddb3.jpg[/img]2010-04-28 12:22:04 · 172 阅读 · 0 评论