
solr+lucene
a925907195
best
展开
-
SolrCloud 4.7+Tomcat 安装配置实践
SolrCloud 4.7+Tomcat 安装配置实践 SolrCloud 4.3.1+Tomcat 7安装配置实践我们使用Solr Replication可以实现Solr服务器的可用性,即使某一个索引副本由于磁盘介质故障或者误操作删除等,其他的多个复制副本仍然可以提供服务。如果只是单纯的基于Solr Replication技术,只能对一个索引进行管理维护,当索引数据达到一定规模,搜索的性原创 2014-11-14 15:02:14 · 1394 阅读 · 0 评论 -
solrCloud选举时间缩短的方法当一个leader挂掉后,其中的几个replica要重新选一个
solrCloud 选举时间缩短的方法 当一个leader挂掉后,其中的几个replica 要重新选一个leader出来,但默认的是要等待3分钟,这个时间也太长了。对于开始在测试solrCloud功能来说,等待这么长时间,有可能觉得重新选举失败的挫败感。 这里4.1之后已解决了这个bug: 默认情况下可以看到,当某个leader挂彩了时候,日志打印如下: I转载 2015-04-29 11:09:40 · 1795 阅读 · 0 评论 -
SOLR使用手册之操作collection
一.Collections API 参考:https://cwiki.apache.org/confluence/display/solr/Collections+API 因为API比较多,我就不一一列举,只列出比较重要的几个1.创建collection官方示例:/admin/collections?action=CREATE&name=name&numShards=n转载 2015-05-01 20:14:23 · 16683 阅读 · 0 评论 -
Lucene增强功能:Payload的应用
Lucene增强功能:Payload的应用目录(?)[-]第一待索引数据处理第二实现解析Payload数据的Analyzer第三 实现Similarity计算得分第四创建索引第五查询有关Lucene的Payload的相关内容,可以参考如下链接,介绍的非常详细,值得参考:http://www.ibm.com/developerwor转载 2015-12-12 18:29:11 · 2908 阅读 · 2 评论 -
lucene 源码中tfidf打分模块解析随笔
Lucene的文档打分的公式:score(q,d) = coord(q,d) · queryNorm(q) · ∑( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )原创 2015-12-23 22:51:50 · 1452 阅读 · 0 评论 -
基于Solr的HBase多条件查询测试
某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快 速检索,对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证。原理:基于Solr的HBase多条件查询原理很简单,将HBase转载 2016-01-14 11:18:55 · 778 阅读 · 0 评论 -
lucene的IndexReader的初始化过程
在使用Lucene时,有一条建议”不要频繁去打开关闭硬盘索引”。为什么会有这条建议?这就需要在IndexReader的实例化过程中找答案。先说一个结论“IndexReader的实例化过程是一个非常耗时的过程”。由于IndexReader只是一个抽象类,在调用代码:真正得到的是StandardDirectoryReader对象。首先来看一下StandardDirectoryReader的类图转载 2017-01-16 15:16:30 · 3415 阅读 · 0 评论 -
mapreduce创建solrcloud索引
原理图(摘自网络):1、datasourcehdfs或者TableMapReduceUtil来scan数据(不建议HFileInputFomat方式,易丢失数据)2、mapsetup()方法中通过zkHost创建CloudSolrServer,目的是通过docId,来计算这个docId应该router到哪个shardId,关键代码为:// cop转载 2017-01-17 15:06:07 · 569 阅读 · 0 评论 -
SimHash简介以及java实现
目录(?)[-]Simhash 算法简介算法几何意义和原理比较相似度示例代码适用场景REF转自:http://www.open-open.com/lib/view/open1375690611500.html关于 罗刚 老师 搜索解密中的 SimHash算法 、 TITS算法 、标准Trie树、三叉Trie树 Java实现 下载地址转载 2017-05-11 21:12:14 · 2419 阅读 · 0 评论 -
geohash算法原理及实现方式
geohash算法原理及实现方式1、geohash特点2、geohash原理3、geohash的php 、python、java、C#实现代码4、观点讨论geohash有以下几个特点:首先,geohash用一个字符串表示经度和纬度两个坐标。某些情况下无法在两列上同时应用索引 (例如MySQL 4之前的版本,Google App Engine的数据层等),利用ge转载 2017-05-08 16:20:57 · 635 阅读 · 0 评论 -
solr中facet及facet.pivot理解(整合两篇文章保留参考)
Facet['fæsɪt]很难翻译,只能靠例子来理解了。Solr作者Yonik Seeley也给出更为直接的名字:导航(Guided Navigation)、参数化查询(Paramatic Search)。上面是比较直接的Faceted Search例子,品牌、产品特征、卖家,均是 Facet 。而Apple、Lenovo等品牌,就是 Facet values 或者说 Constr转载 2014-12-29 18:00:58 · 8086 阅读 · 1 评论 -
IK分词源码讲解(七)-TokenStream以及incrementToken属性处理
首先介绍下在lucene中attributeSource的类层次:org.apache.lucene.util.AttributeSource· org.apache.lucene.analysis.TokenStream (implementsjava.io.Closeable)· org.apache.lucene.analysis.NumericTok原创 2014-12-11 17:26:39 · 6612 阅读 · 0 评论 -
IK分词源码讲解(一)-初始篇
IK分词全名为IK Analyzer,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,本系列的文章主要对ik的核心源码进行解析讲解,与大家分享,如果有错误的地方还望指教。先来个整体概况:其实从上面的图可以看出,真实的ik的代码其实并不多,这样给我们开始接触心里压力就小的多。先打开IKAnalzyerDemo.java文件,先大体看看IK的工作流原创 2014-12-09 17:15:30 · 14973 阅读 · 0 评论 -
对于solrcloud节点删除后,依然在页面显示问题
因为在创建solrcloud的节点后,配置文件会传入Zookeeper中进行统一的原创 2014-11-14 15:19:50 · 3218 阅读 · 0 评论 -
solr在使用solrj操作中的各个操作大全(在solrcores中测试)
package com.fjsh.SearchJobsFirst;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import java.util.GregorianCalendar;import java.util.HashMap;import java.util.I原创 2015-01-07 13:35:08 · 43361 阅读 · 3 评论 -
solr 中的group使用说明
参数说明param nameparam valuedescriptiongrouptrue/falseif true, turn on result groupinggroup.field[fieldname]Group原创 2015-01-07 13:31:38 · 8593 阅读 · 3 评论 -
IK分词源码讲解(二)-分词器
IK里的分词器主要是三个分词器:CJKSegmenter(中文分词),CN_QuantifierSegmenter(数量词分词),LetterSegmenter(字母分词)。这三个分词器都继承了ISegmenter接口,思路相差不大,其中采用的结构也比较容易理解,采用字典树(CJK使用)或其他简单数据结构(CN_QuantifierSegmenter和LetterSegmenter)匹配文本中的当原创 2014-12-09 17:23:56 · 4653 阅读 · 0 评论 -
IK分词源码讲解(四)-停用词处理
对于停用词以及未切分的词的处理方法:过滤掉CHAR_USELESS字符,包括标点以及无法识别的字符,pathMap中存储的是lexemePath集合,找出相邻的lexemePath,把它们之间未切分的字符逐字符输出,原来的ik源码里面有processUnkownCJKChar(),在IK2012中,这个方法被合并到了outputToResult(), //对分词进行歧义处理原创 2014-12-09 17:26:38 · 4266 阅读 · 0 评论 -
IK分词源码讲解(三)-分词歧义处理(智能分词)
分词的歧义处理是IK分词的一个重要的核心模块,主要使用组合遍历的方式进行处理。从子分词器中取出不相交的分词集合,例如分词结果为abcd(abcd代表词),abcd是按其在文本中出现的位置排序的,从前到后。假如a与b相交,b与c相交,c与d不相交,则将分词结果切成abc和d两个块分别处理当在分词的时候使用的是智能分词,那么便从相交的块中选出最优的结果,这个由judge方法来进行处理/**原创 2014-12-09 17:25:45 · 7126 阅读 · 0 评论 -
IK分词源码讲解(五)-ik配置及在Solr中的配置使用
在solr中配置使用IK很简单下载最新的Ik2012中文分词器。 2.解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1.将该目录下的IKAnalyzer.cfg.xml,IKAnalyzer2012FF_u1.jar,stopword.dic放到安装TOMCAT_HOME/webapps/solr/WEB-INF/class原创 2014-12-09 17:27:19 · 5458 阅读 · 2 评论 -
Elasticsearch部分总结
git上发现了网友总结的Elasticsearch BAT大厂面试题。只有题目,部分有答案,但不全。 正好抽出一些时间一起梳理一下。既然是面试题,每个人都会有自己的结合业务场景的答案,没有非常标准的答案。欢迎大家留言拍砖指正。1、elasticsearch了解多少,说说你们公司es的集群架构,索引数据大小,分片有多少,以及一些调优手段 。面试官:想了解应聘者之前公司接触的ES...转载 2019-08-04 14:32:09 · 455 阅读 · 0 评论