
Lucene
东哥的博客
java开发/搜索开发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lucene开发,垂直搜索(比如淘宝,京东类似搜索功能)——第一节 认识搜索
搜索是个什么东东呢?大家一看到这个词,应该就会想到,baidu,google这2个当前我们经常用的 。对的,这想法是完全正确的。但是baidu,google是完整的搜索引擎。 搜索的确就是像baidu,google类似的东东。但是搜索到底是基于什么技术实现的呢?它是基于全文检索的技术实现。以下图示可能对理解全文检索有帮助 以上图片反应了lucene全文检索的整个过程。原创 2011-12-02 14:19:09 · 1133 阅读 · 0 评论 -
Lucene开发,垂直搜索(比如淘宝,京东类似搜索功能)——第六节 中文分词 搜索
下面是中文分词搜索的代码: (测试代码,稍作改动可以正式使用。以下代码都是在lucene3.x中,最新版本3.4可能有改动。不过思路不变) public void searchIKIndexByString(String index){ //存放索引目录 File indexDir = new File("D:\\l原创 2011-12-02 16:23:02 · 1743 阅读 · 0 评论 -
Lucene开发,垂直搜索——第七节 用Lucene实现分组,facet功能,FieldCache
假如你像用lucene来作分组,比如按类别分组,这种功能,好了你压力大了,lucene本身是不支持分组的。 当你想要这个功能的时候,就可能会用到基于lucene的搜索引擎solr。 不过也可以通过编码通过FieldCache和单字段,对索引进行分组,比如:想构造类别树。大类里面还有小类那种。 这个功能实现起来可能会比较麻烦,主要是lucene提供的支持也不多,参考资料也不多。原创 2011-12-02 16:46:49 · 4527 阅读 · 2 评论 -
Lucene开发,垂直搜索(比如淘宝,京东类似搜索功能)——第二节 为什么要使用搜索
这里主要拿电子商务网站为例子。为什么必须使用搜索引擎技术呢? 电子商务网站有几个特点: 1.访问量比较大,特别是对于像淘宝,京东等大型电子商务网站,更是如此。淘宝一天的访问量肯定是以亿为单位的。如果是做活动,可能还会以10亿计。 2.安全性要求高。电子商务网站比一般的网站在安原创 2011-12-02 14:44:16 · 1745 阅读 · 0 评论 -
Lucene开发,垂直搜索(比如淘宝,京东类似搜索功能)——第六节 中文分词
lucene本身不支持中文分词,毕竟嘛,这是人家外国人写的开源框架,当然不太会考虑其他国家的使用,不过它支持对中文分词的 扩展。 下面是网上对几个中文分词器的评论: paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序原创 2011-12-02 16:07:37 · 1787 阅读 · 0 评论 -
Lucene开发,垂直搜索——第八节 用Lucene实现分组,好的实现,solr
如果看了第七节,那么可以告诉你,lucene对分组的支持的确不是很好,如果想对多个字段分组,问题就大了,必须每次自己将多个字段合并为一个字段,用“,”或者空格分隔。这样得到的结构将会比较固定,假如有一天,我们要用3个字段来分组呢?那么代码就得重新写,这就不好了。如果每次变动都要改代码那么这个方案就有待商榷。 现在好了,前面的其实都是铺垫,咱们要用的将会是solr。还记得当原创 2011-12-02 17:02:36 · 1437 阅读 · 0 评论 -
Lucene开发,垂直搜索(比如淘宝,京东类似搜索功能)——第五节 lucene搜索索引。
以下是通过刚刚建立的索引进行索引查询。 以下是通过lucene自带的 TermQuery来查询,即使用lucene自带的默认分词器,英文分词器进行分词。 在以后的文章中会将到中文分词等相关内容。 (以下代码用在项目中会由io问题,最好再改进一下,这里只用了测试。考虑到公司代码安全问题,这里只给出开发中的部分测试代码。) public Arra原创 2011-12-02 15:36:33 · 1161 阅读 · 0 评论 -
Lucene开发,垂直搜索(比如淘宝,京东类似搜索功能)——第四节 lucene建索引。
Lucene索引库是Lucene操作的核心位置。建索引是往里面建,查询也是从索引库里面查。 1.先到官网去下载Lucene.jar包。我用的lucene版本是Lucene 3.03,建议版本不要使用太高,版本太高了可能使用的人少,参考资料少。高版本的,官网给的资料也不一定很多。apache官网自己去下吧。 Lucene需要的jar包如下:原创 2011-12-02 15:11:34 · 1883 阅读 · 1 评论 -
Lucene开发,垂直搜索(比如淘宝,京东类似搜索功能)——第二节 为什么要使用Lucene
说了这么多,那么我们为嘛要使用Lucene来做搜索呢? 现在做搜索应该有好几个框架可以使用,比如,google使用的是BigTable作为底层索引存储。baidu也应该有自己的框架,yahoo也有。但是为嘛我们要用Lucene呢? 接下来谈谈lucene的优缺点。 (1)索引文件格式独立于应用平台。Luc原创 2011-12-02 14:58:10 · 2195 阅读 · 1 评论 -
solr去除log
在和solr搭配的tomcat中去除日志: org.apache.solr.level = WARNING原创 2012-05-09 10:59:43 · 665 阅读 · 1 评论