
数据检索
李元乐
山高李维峰
展开
-
数据检索---基于Lucene索引
有了大量的数据之后,想要找到特定的数据,任意查询,也是一个巨大的调整。这里有来一起回顾下Lucene索引。(以下很多来自百度百科,算作是科普吧)说起Lucene,它是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。原创 2015-09-25 10:52:13 · 406 阅读 · 0 评论 -
数据检索---ElasticSerach
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是原创 2015-09-25 11:18:51 · 1223 阅读 · 0 评论 -
数据检索---分词算法
在Lucene索引的时候已经引出了分词(Analyser)这个慨念,分词也是信息检索的时候重要的一步。我们知道英文一个单词就是一个词,两者直接使用空格天然的隔开,分词就变得很容易了,而汉语的一个句子里面有很多个汉字组成,里面有基本意义的就是词语,单个汉字往往没有对句子有足够的信息,而词语可以说是最小的语义单位。在检索的时候我们一般都是根据词语来匹配的,词语在整片文字中扮演着重要的角色。1、基于原创 2015-10-20 12:17:08 · 2793 阅读 · 0 评论 -
数据检索---空间向量模型VSM
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。M个无序原创 2015-10-20 12:44:52 · 1653 阅读 · 0 评论 -
数据索引---Solr DIH
Solr DIH就是Data Import Handler.由于很多时候我们的数据在数据库里面,需要将数据库里面的数据导出进行索引.Solr提供了一个很方便的接口来从数据库生成索引。DIH支持从单表和多表管理来导入数据,可以跨数据库来读取数据,还可以增量索引数据,应该说满足很多一般的需求。以下以solr-5.3.0为例,下面来说说一个简单的从Mysql数据库导入数据的配置,更多复杂的配置,需要原创 2015-11-24 14:26:47 · 882 阅读 · 0 评论 -
ElasticSearch Java API
看惯了很多Restful方式的ElasticSearch操作,总是感觉不爽,怎么说还是要代码吗,实践应用的时候不管索引还是查询都可能或多或少离不开代码。下面来说说ES的java API操作,当然其他语言的也不是不可以,既然ES支持restful.ElasticSearch POM.xml org.elasticsearch elasticsearch原创 2016-01-19 09:50:27 · 1387 阅读 · 0 评论 -
数据索引---Solr Cloud(Solr5) with ZooKeeper
上次说的得,要整个Solr Cluster也就是Solr Cloud,现在好像比较流行Cloud滴说。就像Solr介绍的一样Apache Solr includes the ability to set up a cluster of Solr servers that combines fault tolerance and high availability. Call原创 2015-11-15 21:25:33 · 2050 阅读 · 0 评论 -
数据检索---基于Solr索引
还是先来科普下,Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。在Solr的官网(http://lucene.apache.org/solr/)上说的Solr is the popular,原创 2015-09-25 11:03:37 · 1145 阅读 · 0 评论