
lucene
lzj0470
这个作者很懒,什么都没留下…
展开
-
lucene开发搜索引擎的一些经验
中文分词:中文分词在建立中文词时有非常大的作用,建立词库就是在中文分词的基础上进行开发的,然后再对词库进行人工的处理才能得到词库。然后我们再用中文词库建立了一批索引,在这个索引上进行一些搜索,对比原来的索引文件进行的搜索,发现用中文分词的索引比标准分词的索引慢,在不加排序的情况下,标准分词的搜索给1秒左右,中文分词就是2秒,加上了排序后标准分词给为2秒,而中文分词则能达5秒左右,差距相当大,观察后...原创 2009-07-17 22:49:26 · 129 阅读 · 0 评论 -
关于lucene的性能数据_并发
1 环境:windows 2003 + tomcat6.0.14 + lucene 2.2.0配置: Intel Pentium D CPU 3.00GHz,3.00GHz,992MB内存 索引数据量:200万loadrunner 200并发测试,每秒钟请求一次.平均hit/sec = 187.54平均响应时间小于0.5秒 cpu 100%,内存:830MB IndexReader还没有采用...原创 2009-07-17 22:58:07 · 156 阅读 · 0 评论 -
lucene 索引 原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章...原创 2010-01-05 18:13:57 · 105 阅读 · 0 评论 -
Lucene中文分析器的中文分词准确性和性能比较
Lucene中文分析器的中文分词准确性和性能比较 作者: approximation 对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、Paodin...原创 2009-07-30 10:29:44 · 127 阅读 · 0 评论