
Lucene
熊猫家族
敢想,敢拼,敢赢,IT技术,研发实践,互联网,资讯,编程语言,搜索引擎,Lucene,Solr,Java,生活,旅游,吃货,熊猫吃货,微生活,健康,美食
展开
-
lucene创建索引高级特性和索引创建参数优化
1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索...原创 2010-11-01 11:12:31 · 193 阅读 · 0 评论 -
Solr 获取分词
个人博客:http://demi-panda.com Solr 1.4 有了对字段的分词。FieldAnalysisRequestHandler 可以对某个字段或字段类型的分词器对查询串取到分词数据。 用 solr 的默认配置,如 solr 1.4.0。 我用 mmseg4j 为例。在 solr.root/example/solr/conf/schema.xml 的 ...原创 2012-05-07 18:32:04 · 350 阅读 · 0 评论 -
对Lucene PhraseQuery的slop的理解
所谓PhraseQuery,就是通过短语来检索,比如我想查“big car”这个短语,那么如果待匹配的document的指定项里包含了"big car"这个短语,这个document就算匹配成功 。可如果待匹配的句子里包含的是“big black car”,那么就无法匹配成功了,如果也想让这个匹配,就需要设定slop,先给出slop的概念:slop是指两个项的位置之间允许的最大间隔距离,下面我举...原创 2012-06-12 10:55:21 · 166 阅读 · 0 评论 -
Lucene Similarity (Lucene 文档评分score机制详解)
个人博客:http://demi-panda.com 文档的分值代表了该文档在特定查询词下对应的相关性高低,他关联着信息检索向量空间模型中的向量夹角的接近度。一个文档越与查询词相关,得分越高。分值计算公式如下: score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · id...原创 2012-04-06 16:06:55 · 148 阅读 · 0 评论