
搜索引擎[lucene]
摩西_玄晨
专注于Java,现从事移动服务汽车产品互联生活公益旅游等应用开发,喜欢研究大数据集群性能等领域,关注优秀的项目设计与架构体系。
展开
-
Lucene排序以及自定义排序
现在开发搜索系统,使用的是开源界比较推崇的Lucene,版本是Maven库上面的3.5,这个版本里面有很多方法都不建议使用了。所以代码创建的方式有那么点变化,我使用的分词器是IkAnalyzer。Lucene全文检索的功能是很强大的,我们在做电子商务系统的时候肯定是会遇到排序的问题,比如销量,比如价格等等,为了方便客户我们便需要Lucene的排序功能,其实Lucene中的排序很简单也很方便,我们在转载 2012-08-15 14:26:28 · 757 阅读 · 0 评论 -
lucene 4.3 ansj分词演示
当然用他之前强烈建议你吧内存调大(不是让你买内存去).不得不说.他是个内存消耗大户.不会调内存????其实我也不会.呵呵在eclipse中Run As--> Run Configurations--> Arguments 找到个框框 VM Arguments写上:-Xms1024m -Xmx1024m如果你空闲内存连1G都木有.有两个办法.1.买内存or换机器 2.删除用户词典(强烈不建议原创 2013-06-17 15:52:03 · 2679 阅读 · 0 评论 -
分布式搜索elasticsearch------索引修复
在使用基于lucene的各类搜索引擎(如:elasticsearch、solr)时,有可能出现类似如下的错误:Caused by: java.io.EOFException: read past EOF: NIOFSIndexInput(path="/usr/local/sas/escluster/data/cluster/nodes/0/indices/index/5/index/_59ct转载 2013-03-27 15:14:28 · 814 阅读 · 0 评论 -
lucene 3.0与之前版本的一些区别导致的问题
score为NAN在文章http://bbs.chinaunix.net/viewthread.php?tid=1632554 中找到答案; Java代码 IndexSearcher searcher = new IndexSearcher(dir,true); //加上这句 searcher.setDefaultFieldSortScorin原创 2012-08-27 13:50:03 · 701 阅读 · 0 评论 -
Lucene Scoring 评分机制
版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.原文出处:http://blog.chenlb.com/2009/08/lucene-scoring-architecture.htmlLucene 评分体系/机制(lucene scoring)是 Lucene 出名的一核心部分。它对用户来说隐藏了很多复杂的细节,致使用户可以简单地使转载 2012-08-25 11:35:35 · 559 阅读 · 0 评论 -
Annotated Lucene(源码剖析中文版)
Apache Lucene是一个高性能(high-performance)的全能的全文检索(full-featured text search engine)的搜索引擎框架库,完全(entirely)使用Java开发。它是一种技术(technology),适合于(suitable for)几乎(nearly)任何一种需要全文检索(full-text search)的应用,特别是跨平台(cross-转载 2012-08-25 11:33:37 · 669 阅读 · 0 评论 -
Lucene的评分(score)机制的简单解释
通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。 在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。 tf:是查询的词在文档中出现的次数的平方根 idf:表示反转文档频率,观察了一下所有的文档都一样,所以那就没什么用处,不会起什么决定作用。 boo转载 2012-08-25 11:36:33 · 611 阅读 · 0 评论 -
Lucene之IndexWriter、IndexReader保证唯一实例(备忘)
大家知道,lucene中的IndexWriter和IndexReader都是线程安全的类,但是不能出现多多线程绑定多个实例的情况。因此很有必要保证IndexWriter和IndexReader全局只有一个实例子。我们首先写一个类,让他来保证全局只有一个实例,类的接口如下:1 public interface LuceneManager {2 public IndexWrit转载 2012-08-22 09:37:51 · 1267 阅读 · 0 评论 -
Lucene高级篇
Lucene相关度排序的调整Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的事情。以下代码基于Lucene 2.0。看So转载 2012-08-15 15:57:11 · 700 阅读 · 0 评论 -
lucene管理IndexReader和IndexWriter的最佳实践
实例化IndexReader需要加载索引文件,所以实例化它是非常耗资源的。 IndexReader是线程安全的,通常一个索引目录,我们只实例化一个IndexReader就够了。 当索引数据足够大(G的数量级)的时候,一般把索引资源按照某种规则散列到多个文件目录里(如:index-0,index-1,index-2.... 或者 blog,posts....),当然这些文件目录应该放转载 2012-08-22 11:03:33 · 3020 阅读 · 2 评论 -
lucene的分布式搜索-入门篇
我的废话: 前些日子客户对以前网站搜索功能不太满意,因为用户输入关键字进行查询时要再选择对应的分类栏目,用户体验不是很到位。所以找我们对他的网站提供全文检索的功能,跟搜索引擎类似输入一组关键字就可以就找到结果,无需选择分类的栏目。 对这样的要求第一个想到的就是Apache Lucene,加上一个开源的中文分词包,整一套分词表 很好解决这个需求,但如果把这个需求深入的去考虑,转载 2012-08-22 09:09:27 · 843 阅读 · 0 评论 -
lucene入门篇
如果你想快速查询你磁盘上文件,或查询邮件、Web页面,甚至查询存于数据库的数据,你都可以借助于Lucene来完成。最新jar可到此下载:http://mirror.bit.edu.cn/apache/lucene/java/ 下图先宏观的表示了搜索应用程序和 Lucene 之间的关系,也反映了利用 Lucene 构建搜索应用程序的流程,大家先直观的认识下:原创 2012-08-14 11:45:31 · 641 阅读 · 0 评论 -
luence全文检索本地磁盘,可构建磁盘搜索引擎,有代码
我使用的maven添加的jar包。maven中的pom.xml中添加lucene的jar包的方法是: Xml代码 project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=转载 2012-08-14 15:31:29 · 1469 阅读 · 0 评论 -
分享下自己的lucene工具类
分享下自己的lucene工具类,不足之处欢迎吐槽!package com.junjiao.util.search;import java.io.File;import java.io.IOException;import java.io.StringReader;import java.lang.reflect.InvocationTargetException;impor原创 2013-05-22 13:22:44 · 1126 阅读 · 0 评论