
搜索引擎
文章平均质量分 77
iteye_2386
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Solr Multicore 结合 Solr Distributed Searching 切分大索引来搜索
原文出处:http://blog.chenlb.com/2009/01/solr-multicore-work-with-solr-distributed-searching-to-search-big-index.htmlSolr Distributed Searching (分布式搜索) 是 solr 1.3 的特性。大索引,可能有多种原因要把它分成N个小的索引,可以把...原创 2011-07-12 15:01:08 · 99 阅读 · 0 评论 -
如何使SOLR系统自动AUTO COMMIT
转自:http://blog.youkuaiyun.com/thundersssss/article/details/5386536 在很多情况下,我们并不想自己主动触发COMMIT相应的XML给SOLR,这样带来很多的不便,恰好,SOLR通过配置文件可以自行在满足指定的条件下自动的COMMIT索引,同时,让前端检索实例可以检索到最新生成的数据,而不需要人为干预。 方法很简单:找到s...原创 2011-12-02 18:17:38 · 197 阅读 · 0 评论 -
全文检索、数据挖掘、推荐引擎系列---去除停止词添加同义词
转自:http://www.cnblogs.com/yantao7589/archive/2011/08/19/2145991.html Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucen...原创 2012-02-28 15:37:58 · 169 阅读 · 0 评论 -
Lucene3.5.0Field属性
Field.Store.COMPRESS:压缩保存,用于长文本或二进制数据Field.Store.YES:保存Field.Store.NO:不保存 Field.Index.NO:不建立索引Field.Index.TOKENIZED:分词,建索引Field.Index.UN_TOKENIZED:不分词,建索引Field.Index.NO_NORMS:不分词,建索引.但是Field的值不像通常...原创 2012-02-20 15:22:49 · 118 阅读 · 0 评论 -
如何设置SOLR的高亮 (highlight)
转自:http://blog.youkuaiyun.com/thundersssss/article/details/5369654 打开SOLR的核心配置文件: solrconfig.xml 找到 standard request handler 写入以下XML配置代码: [c-sharp] view plaincopyprint? &...原创 2012-02-16 15:51:53 · 169 阅读 · 0 评论 -
mahout使用
转自:http://hi.baidu.com/pakko/blog/item/3516fd6e34032bce80cb4afb.html运行kmeans的简单的例子:1:将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata例如:bin/hadoop fs...原创 2012-02-10 11:23:09 · 142 阅读 · 0 评论 -
Mahout详细安装过程
转自:http://hi.baidu.com/pakko/blog/item/e3d2228bd72a7a05c9fc7a71.html 1、jdk安装1.1、到官网下载相关的JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 1.2、打开“终端”输入:sh jdk-6u2...原创 2012-02-10 11:22:08 · 181 阅读 · 0 评论 -
Lucene3.0分词原理与分词系统
分词原理建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器,把短语或者句子切分成相同的结果,才能保证检索过程顺利进行。1、 英文分词的原理基本的处理流程是:输入文本、词汇分割、词汇过滤(去...2010-04-22 18:47:14 · 122 阅读 · 0 评论 -
搜索引擎的相关词提示
好的搜索引擎应该就用户当前的检索词提示出与之相关的其他关键词供用户参考。当前多数搜索引擎采用的基本方式是从其它用户常用的检索词中选出切词后有包含关系的词作为相关词,并选出其中检索量或搜索结果数最大的显示出来进行提示。显示的地方有两处:一是当用户在搜索框输入检索词时根据检索词动态提示相关词,同时显示出对应的结果数,二是完成搜索后,在搜索结果页面上方或下方显示出相关词。例如在慧聪网...2010-04-22 15:14:22 · 324 阅读 · 0 评论 -
Solr Multicore 试用小记
原文出处:http://blog.chenlb.com/2009/01/try-solr-multicore.htmlSolr Multicore 是 solr 1.3 的新特性。其目的一个solr实例,可以有多个搜索应用。下面来小试一下。官方发布的示例。在solr1.3/example/multicore目录(可以认为是multi.home)下,有一个 solr.xml(这只是默认文...原创 2011-07-12 15:02:00 · 114 阅读 · 0 评论 -
Solr 4.0: Realtime GET
he next functionality I decided to look at, from the upcoming Solr 4.0, is the so called “Realtime Get”. It allows you to see the data even though it was not yet added to the index, thus before the co...原创 2012-09-15 14:54:51 · 274 阅读 · 0 评论