
Lucene / Solr
jasonwang178
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
solr使用中文,庖丁分词
1、分析器改造 net.paoding.analysis.analyzer.PaodingTokenizer.java extends Tokenizer 原来是 extends TokenStream 2、net.paoding.analysis.analyzer.solr.ChineseTokenizerFactory.java package net.paodin...原创 2011-04-13 17:38:54 · 171 阅读 · 0 评论 -
solr 中文分词 mmseg4j 使用例子
solr 中文分词 mmseg4j 使用例子 原文出处:http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.htmlmmseg4j 第一个版本就可以方便地与 solr 集成,在 google code 上面有简单的说明,第一版的发布博客也有简单的使用说明:中文分词 mmseg4j。为了更清...原创 2011-04-13 18:54:30 · 114 阅读 · 0 评论 -
How to: 调试 Solr 查询中文乱码问题
出现乱码或者查不到结果的排查方法:1) Tomcat的server.xml需要保证:如果没有设置URIEncoding="UTF-8",在提交查询的select的url会出现乱码,当然也就查不到了。2) 添加索引的时候,xml数据文件需要包含utf-8声明,也就是:然后使用Solr自带的post.jar或者curl来进行post索引:java: java -Durl=htt...原创 2011-04-15 16:26:23 · 472 阅读 · 0 评论 -
How to: 使用curl添加solr索引
curl -F "file=@data.xml" http://localhost:8080/solr/updatecurl -H "Content-Type: text/xml" -d "" http://localhost:8080/solr/update原创 2011-04-15 16:28:25 · 226 阅读 · 0 评论 -
solr 查询参数说明
常用q - 查询字符串,必须的。fl - 指定返回那些字段内容,用逗号或空格分隔多个。start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用。rows - 指定返回结果最多有多少条记录,配合start来实现分页。sort - 排序,格式:sort=<field name>+<desc|asc>[,<field n...原创 2011-04-15 16:38:17 · 111 阅读 · 0 评论 -
lucene 的分析器(analyzer)与分词器(tokenizer)和过滤器(tokenfilter)
1〉analyzer主要包含分词器跟过滤器,他的功能就是:将分词器跟分析器进行合理的组合,使之产生对文本分词和过滤效果。因此,分析器使用分词和过滤器构成一个管道,文本在“滤过”这个管道之后,就成为可以进入索引的最小单位。 2〉tokenizer主要用于对文本资源进行切分,将文本规则切分为一个个可以进入索引的最小单元 3〉tokenfilter主要对分词器切分的最小单位进入索引进行预处...原创 2011-05-02 22:05:25 · 350 阅读 · 0 评论 -
如何配置SOLR高亮 (highlight)
打开SOLR的核心配置文件: solrconfig.xml 找到 standard request handler 写入以下XML配置代码: <requestHandler name="standard" class="solr.SearchHandler" default="tr...原创 2011-05-02 22:43:31 · 305 阅读 · 0 评论