
java solr
文章平均质量分 94
飞鸟up
由于技术更新很快,所有的文章都可能随时间的推移失效,请阅读的时候参考当前技术的相应版本.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
solr调优参考
转自:http://rdc.taobao.com/team/jm/archives/1753共整理三部分,第一部分Solr常规处理,第二部分针对性性处理,前者比较通用,后者有局限性。务必根据具体应用特性,具体调节参数,对比性能。第三部分solr查询相关的 具体应用需要全面去把控,各个因素一起起作用。第一部分E文连接 http://wiki.apache.org/转载 2014-07-17 14:19:53 · 733 阅读 · 0 评论 -
solr search基础知识(控制符及其参数)
搜索: 天后王菲,如果希望将王菲的相关度加大,用^控制符。tianho原创 2014-07-09 14:41:36 · 3817 阅读 · 1 评论 -
solr的copyFeild用法(改变各个feild的权重,修改打分结果)-注意!
copyField的dest字段本身有分析器处理:原创 2014-07-07 17:50:37 · 3044 阅读 · 0 评论 -
Solr Dismax查询解析器-深入分析
Solr 支持多种查询解析,给搜索引擎开发人员提供灵活的查询解析。Solr 中主要包含这几个查询解析器:标准查询解析器、DisMax 查询解析器,扩展 DisMax 查询解析器(eDisMax)DismaxDismax handler比standard handler多如下功能:以不同的权值来搜索多个field。限制查询语法为一个小的集合并且用无语法错误。该特性是强制的并是转载 2014-11-08 20:10:14 · 6375 阅读 · 0 评论 -
solr 的edismax与dismax比较与分析
edismax支持boost函数与score相乘作为,而dismax只能使用bf作用效果是相加,所以在处理多个维度排序时,score其实也应该是其中一个维度 ,用相加的方式处理调整麻烦。而dismax的实现代码逻辑比较简单,看起来比较易理解,edismax是它的加强版,其实是改变了不少。。比如在以下:先看看dismax的解析主要实现思路:首先取出搜索字段名qf转载 2014-11-08 19:00:43 · 1495 阅读 · 0 评论 -
solr dismax与edismax的参数列表
dismaxq.altqf (Query Fields)mm (Minimum 'Should' Match)pf (Phrase Fields)ps (Phrase Slop)qs (Query Phrase Slop)tie (Tie breaker)bq (Boost Query)bf (Boost Functions)edismaxq.altqf (Qu原创 2014-11-10 16:17:58 · 3915 阅读 · 0 评论 -
solr实际案例
重写公司的站内搜索。经过前期一段时间对lucene和solr的熟悉,最后决定使用Solr作为新系统的基础框架。现在已经是第一阶段开发的后期,核心代码行数有11000+(不包含admin及client等)。现已实现的功能要比已有系统要丰富些,但综合比较两个系统总的代码量,其实新系统并不多得太多。新系统使用Solr代替了已有系统实现的部分功能,这减少了新系统的代码量,同是新系统实现了已有系统不具有的功转载 2014-11-19 16:59:10 · 1865 阅读 · 0 评论 -
Eclipse下使用Subversion(SVN工具)
本文目的让未使用过版本控制器软件或者未使用过subversion软件的人员尽快上手。subversion的使用技巧很多,这里只总结了最小使用集,即主要的基本功能,能够用来应付日常工作。因此不涉及subversion服务器端的搭建和配置。为什么要使用版本控制当多人共同开发同一个软件时,会涉及源代码的共享以及带来的相关问题,比如追究某个代码是由谁在什么时间修改的转载 2014-10-17 18:17:41 · 671 阅读 · 0 评论 -
solr4.10.2源码接口-QueryComponent
1、Class SearchComponent(抽象类)public abstract class SearchComponent extends Object implements SolrInfoMBean, NamedListInitializedPluginmethod:(1)distributedProcess(ResponseBuilder rb) //Proce原创 2014-11-26 14:39:42 · 944 阅读 · 0 评论 -
solr4.10.2源码接口- SolrRequestHandler
1、在solrconfig/xml中注册Different SolrRequestHandlers配置如:estHandler name="/test" class="solr.tst.TestRequestHandler" />2、SolrRequestHandler的类信息继承的父类:SolrInfoMBeanSolrRequestHandler的实现类:原创 2014-11-26 16:48:47 · 1136 阅读 · 0 评论 -
solr wiki - solr的组件
AnalysisRequestHandler4.2k - rev: 7 (current) last modified: 2011-03-16 20:10:38CSVUpdateRequestHandler0.0k - rev: 1 (current) last modified: 2011-09-09 09:36:33CategorySolrRequestHandler原创 2014-11-25 17:41:31 · 1004 阅读 · 0 评论 -
solr异常--Expected mime type application/octet-stream but got text/html.
Exception in thread "main" org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Expected mime type application/octet-stream but got text/html. Apache Tomcat/7.0.54 - Error report<!--原创 2014-06-17 11:36:26 · 19665 阅读 · 2 评论 -
solr jetty便捷启动
Solr下载下来后默认就可以运行的,它是运行在自带的jetty服务器上面2、进入solr的example目录,里面有个start.jar,然后打开命令窗口输入java –jar start.jar启动solr的服务器打开浏览器,输入http://localhost:8983/solr/原创 2015-01-13 11:47:44 · 1519 阅读 · 0 评论 -
solr4.0+IKAnalyzer 中文搜索,无法查询到结果的解决方法-【布尔逻辑和 空格后默认加默认搜索字段】
solr4.0+IKAnalyzer 中文搜索,无法查询到结果,目前列举下面两种情况。情况1:solr4.0+IKAnalyzer安装好后,根据IKAnalyzer的安装文档在schema.xml做了配置,“随意问技术百科”已索引,但是搜索“随意问”搜索不出结果。通过在solr的管理界面进行查询,开启 debugQuery(调试模式),查询q参数输入,test:随意转载 2014-12-29 15:20:24 · 2153 阅读 · 0 评论 -
solr通过http请求搜索
请求搜索必要的条件是:搜索条件SolrParams1.SolrParams params = new SolrQuery(“”);原创 2014-06-19 17:39:06 · 2687 阅读 · 0 评论 -
Solr4.3---4.6删除数据的办法
Solr4.6的管理界面上,如果不配置数据导入的功能,将看不到清除数据的按钮。我表示很遗憾,正好我们线上没有配置数据导入的功能。 网上搜到的各种清理solr数据的HTTP请求,拿到我的solr4.6上测试,报service not found。看了这些请求都是在solr4之前的版本上运行的。找到了个Solr4.2的Http请求,改了改参数,才可以用。 http://so转载 2014-09-28 10:56:24 · 780 阅读 · 0 评论 -
solr4.3+tomcat入门部署
solr4.3的入门配置 目前阿帕奇官方仅推荐2个比较稳定的版本一个是4.3的版本,一个3.6的版本 3.6的版本没有用过,所以在此无涉及,下面就来说说solr4.3的入门配置 solr4.3与solr4.2最大的区别就在与solr4.3的日志模块与核心模块分离出来了 所以在进行安装配置时需要另行配置,其他的步骤基本与solr4.2的相同 准备环境t转载 2014-08-27 17:26:31 · 1189 阅读 · 0 评论 -
solr facet查询及solrj 读取facet数据(相当有用)
yuanc一. Facet 简介Facet 是 solr 的高级搜索功能之一 , 可以给用户提供更友好的搜索体验 . 在搜索关键字的同时 , 能够按照 Facet 的字段进行分组并统计 .二. Facet 字段1. 适宜被Facet 的字段一般代表了实体的某种公共属性 , 如商品的分类 , 商品的制造厂家 , 书籍的出版商等等 .2. F转载 2014-08-14 18:25:27 · 8868 阅读 · 0 评论 -
solr replication原理探究
无论是垂直搜索,还是通用搜索引擎,对外提供搜索服务其压力都比较大,经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况,一般的应对方法就是【集群】+【负载均衡】。Solr提供了两种解决方案来对应访问压力。其一是Replication,其一是SolrCloud。Replication采用了master/slave 模式,用读写分离的思想来提高对外服务能力。但转载 2014-06-25 16:29:19 · 1030 阅读 · 0 评论 -
zookeeper原理(转)
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee转载 2014-06-25 17:26:15 · 707 阅读 · 0 评论 -
solr笔记--solr3.2以后支持document和json两种对象来更新索引
requestHandler name="/update/json" class="solr.JsonUpdateRequestHandler"/>原创 2014-06-27 15:36:20 · 1959 阅读 · 0 评论 -
solr-用mmseg4j配置同义词索引和检索(IKanlyzer需要修改源码适应solr接口才能使用同义词功能)
solr中自带有synonyms的功能,但是功能很有限,因为中文需要在分词的基础上进行搜索,所以官方的配置就没有多大意义。 概念说明:同义词大体的意思是指,当用户输入一个词时,solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出,展示给用户,提高交互的友好性(当然这些同义词的定义是要在配置文件中事先定义好的),比如:用户输入:日本,那么就可能有一些相关的原创 2014-07-02 14:15:26 · 1526 阅读 · 0 评论 -
Lucene源码解析--Analyzer之Tokenizer
Analyzer包含两个核心组件,Tokenizer以及TokenFilter。两者的区别在于,前者在字符级别处理流,而后者则在词语级别处理流。Tokenizer是Analyzer的第一步,其构造函数接收一个Reader作为参数,而TokenFilter则是一个类似的拦截器,其参数可以是TokenStream、Tokenizer。Tokenizer的类结构图:各类的介绍:1转载 2014-07-03 11:55:01 · 1567 阅读 · 0 评论 -
solrconfig.xml配置详解
solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置。 可以在tomcat的安装路径下找到这个文件C:\Program Files\Apache Software Foundation\Tomcat 8.0\solr\collection1\conf 1.datadir节点转载 2014-07-04 14:41:01 · 1078 阅读 · 0 评论 -
solr注意事项-solrconfig中的默认搜索域会覆盖schema中的默认搜索域,注意copyfeild中被corp的字段搜索
solrconfig.xml文件中关于select的 will be overridden by parameters in the request --> explicit 10 text原创 2014-07-04 17:12:46 · 4103 阅读 · 0 评论 -
Solr查询过程源码分析
SearchHandler.handleRequestBody():solr搜索主流程1.调用:RequestHandlerBase|--handleRequest(req, rsp);2.源码分析:|-prepare() |前期的请求参数准备工作,QueryComponent可以在schemal文件中设置,易扩展|-- SearchComponent c : compon转载 2014-07-25 18:43:11 · 1389 阅读 · 0 评论 -
有关Lucene的问题(4):影响Lucene对文档打分的四种方式
原文出自:在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。转载 2014-07-28 11:49:55 · 1002 阅读 · 0 评论 -
solr的查询语法、查询参数、检索运算符
1、查询语法 solr的一些查询语法 1.1. 首先假设我的数据里fields有:name, tel, address 预设的搜寻是name这个字段, 如果要搜寻的数据刚好就是 name 这个字段,就不需要指定搜寻字段名称. 1.2. 查询规则: 如欲查询特定字段(非预设字段),请在查询词前加上该字段名称加 “:” (不包含”号) 符号,转载 2014-07-08 09:38:53 · 2954 阅读 · 0 评论 -
solrserver实例化
以下是httpClient实例化方式,需要tomcat运行Solr服务1、ConcurrentUpdateSolrServer实例化SolrServer,该类实例化多用于更新删除索引操作ConcurrentUpdateSolrServer(String solrServerUrl, int queueSize, intthreadCount)转载 2014-08-04 10:46:47 · 671 阅读 · 0 评论 -
omitTermFreqAndPositions设置,词频FQ在打分中默认为1
compressed=true|false,是否使用gzip压缩(只有TextField和StrField可以压缩)compressThreshold=压缩阀值multiValued=true|false 是否包含多个值,即一个名字可以被多个document所用。omitNorms=true|false这是个高级选项。设置为true,省略与这一field相关的规范(这将禁用转载 2014-08-05 16:41:35 · 1766 阅读 · 0 评论 -
企业级搜索引擎Solr 第三章 索引数据(Indexing Data)
企业级搜索引擎Solr 第三章 索引数据(Indexing Data)[3] 虽然本书中假设你要建索引的内容都是有着良好结构的,比如数据库表,XML文件,CSV,但在现实中我们要保存很混乱的数据,或是二进制文件,如PDF,Microsoft Office,甚至是图片和音乐文件。 我(Eric Pugh)在首次使用Solr时,就需要处理客户在几年间产生的大量P转载 2014-07-15 10:05:46 · 1429 阅读 · 0 评论 -
lucene、solr中的日期衰减方法-------function query --尚未测试在solr4.8
经常有一种情景是这样的:我们索引了N年的文章,而查询时候无论直接用相关度、或者用时间排序,都是比较鲁莽的;我们想要一种既要相关度比较高,又要时间上比较新的文章。这时候的解决办法就是,自定义日期衰减的ValueSourceQuery,然后在正常normalQuery的基础上后遭CustomScoreQuery即可。下面给出2种在solr中使用日期衰减的方法比如我们的索引中的时间字段是转载 2014-07-14 18:48:50 · 1680 阅读 · 0 评论 -
solr :term 查询, phrase查询, boolean 查询
Search for two different terms, new and house, requiring both to match • Search for two different terms, new and house, requiring only one to match • Search for the exact phrase "new house"原创 2014-07-15 14:33:15 · 2268 阅读 · 0 评论 -
Solr中Facet用法和Group用法
group用法://组查询基础配置params.set(GroupParams.GROUP, "true"); params.set(GroupParams.GROUP_FIELD, "dkeys");params.set(GroupParams.GROUP_LIMIT, "5"); params.set(GroupParams.GROUP_FORMAT, "grouped")原创 2014-08-12 11:33:13 · 5580 阅读 · 0 评论 -
tomcat的日志和应用solr本身的日志(复制solr的resource下的log4j.property文件到tomcat下的solr应用的WEB_INF/classes下)
测试很久不用的solrcloud伪分布式集群,发现启动zk集群后,启动tomcat后 ,其中一个节点的tomcat窗口显示已经启动(没有任何异常),但是去访问该节点则报错:HTTP Status 503 - Server is shutting down or failed to initializetype Status reportmessage Server is shuttin原创 2015-01-07 11:39:50 · 3692 阅读 · 1 评论