- 博客(6)
- 收藏
- 关注
原创 solr4.2 edismax查询方式评分计算
lucene从4.0开始就提供了多个打分模型,包括TF-IDF,BM25,DRF等。默认的实现还是基于经典的TFIDF模型。下面对solr edismax查询中涉及到的一些公式进行介绍。 tf(float freq):词频,freq为某个词在该文档的相应field中出现的次数, 默认为Math.sqrt(freq):idf(long docFreq, long numD...
2013-05-20 11:06:47
450
原创 solr4.2更新流程
solr4.2的update大致流程:execute--->RequestHandlerBase.handleRequest--->ContentStreamHandlerBase.handleRequestBody --->JavabinLoader.load-->JavaBinUpdateRequestCodec.StreamingUpdateHandler...
2013-04-27 20:35:02
306
原创 关于avro序列化
Avro提供了两种序列化的方式: avro-specific: 和thrift一样可以通过idl方式生成代码,生成命令:java -jar avro-tools-1.7.4.jar compile schema data.avsc src/ avro-generic: 支持schema的动态加载,不需要重新编译就可以处理新的...
2013-03-05 20:45:10
246
原创 使用JMeter测试solr请求
一.安装JMeter 在官网http://jmeter.apache.org/download_jmeter.cgi下载JMeter 直接解压JMeter安装包 Linux下运行 $JMETER_HOME/bin/jmeter.sh Windows下运行 $JMETER_HOME /bin/jmeter.bat 启动图形界面 二.编写JMete...
2013-02-17 16:58:06
227
原创 lucene4 codec分析
lucene4的一个很大的变化就是提供了可插拔的编码器架构,可以自行定义索引结构,包括词元,倒排列表,存储字段,词向量,已删除的文档,段信息,字段信息 关于codec:lucene4中已经提供了多个codec的实现Lucene40, 默认编码器.Lucene40CodecLucene3x, read-only, 可以用来读取采用3.x创建的索引,不能使用该编码器创建索...
2013-01-15 18:27:34
373
原创 SolrCloud的DistributedQueue分析
SolrCloud中采用了DistributedQueue来同步节点间的状态信息。SolrCloud中总共会在3个地方保存队列信息: /overseer/queue:保存每个shard的配置信息,以及状态信息(recovering,recovery_failed,active,down,sync) 对应的生产者为:ZKController中的overseerJobQueue 消费...
2013-01-04 20:40:14
201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人