lucene3.5遇到的一些问题（练习）

最新推荐文章于 2018-10-24 07:01:23 发布

cgh4752423

最新推荐文章于 2018-10-24 07:01:23 发布

阅读量609

点赞数

CC 4.0 BY-SA版权

分类专栏： lucene3.5 文章标签： lucene path windows query 服务器 linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cgh4752423/article/details/7950094

lucene3.5 专栏收录该内容

1 篇文章

订阅专栏

一、（1）分页方式一：查询只需要传入每页显示多少条记录，当前是第几页就可以了。

当然是对搜索返回的结果进行分页，并不是对搜索结果的总数量进行分页，因为我们搜索的时候都是返回前n条记录。

例如indexSearcher.search(query, 100);//只返回前100条记录

刚开始用的时候返回的记录数我是用searcher.maxDocs()所有的记录数，发现返回全部记录，检索的速度很慢。后来就改为：控制返回记录的数量，如将上面的100改为pageNo*pageSize。

（2）分页方式二、

TopScoreDocCollector topCollector = TopScoreDocCollector.create(
100, false);
searcher.search(query, topCollector);
System.out.println("命中：" + topCollector.getTotalHits());
// 查询当页的记录
ScoreDoc[] docs = topCollector.topDocs((pageNO - 1) * pageSize,
pageSize).scoreDocs;；

可以用这个方法加入排序功能。TopFieldCollector.create(sort, topCount, false, false, false, false);

但是只要加入排序，检索时间就增加几乎4倍。

二、创建索引的时候，记得设置writerConfig.setRAMBufferSizeMB(int n) ;这个方法是指，创建索引的时候内存使用达到n值的时候就将index写到磁盘上。 n的值根据自己服务器的内存大小看着办设置;在writer.addDocument()之后就不要使用writer.commit();全部addDocument()之后直接writer.close()。

三、我使用的庖丁分词器。注意在系统变量中配置词典的路径变量PAODING_DIC_HOME=path，path指的是词典dic放置的路径。

四、解析各种文档，如poi解析word抽取文本信息：在windows下支持十几M大小，在linux下能支持200多M。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。