- 博客(28)
- 收藏
- 关注
转载 solrcloud随笔DistributedQueue
solrcloud有两个公开的队列一个是Overseer Job Queue,另一个是Overseer Collection Queue,这两个队列分别通过两个Overseer进行读取并执行相关的操作。另外还有一个临时存储的队列,是针对OverSeer Job Queue容错的,这里不描述。...
2015-10-13 16:27:00
198
转载 Solr实现主键自增长
http://www.gaoss.cn/?p=115 转载于:https://my.oschina.net/zengjie/blog/322718
2014-09-27 22:40:00
466
转载 SolrCloud SPLITSHARD原理解析
在搞搜索查看本文 首先讲一讲split的好处,当索引达到一定的数量级的时候,搜索的速度或许就会达到一个瓶颈,因为数据量一旦增多,各种查询开销也会一并增加,在solrcloud中,创建索引的时候我们一般都只会创建符合当前性能需求的分片数量,但是数据假如是不可预期的增长的话,那么当当个sh...
2014-08-31 19:05:00
566
转载 谈谈SolrCloud
首先不废话,新版本搜索架构图 介绍下着里面几个东西: commonindex:这个东西是我们自己写的一个工具包,这个工具包提供给需要进行索引的应用,封装了定时增量索引,全量索引,数据导出等功能。 search-admin为一个辅助web应用,实现了Solr配置集中管...
2014-05-15 22:07:00
173
转载 SolrCloud wiki翻译(6)近实时搜索, 索引复制,灾难恢复
SolrCloud and Replication SolrCloud与索引复制 Replication ensures redundancy for your data, and enables you to send an update request to any no...
2014-02-28 10:21:00
132
转载 SolrCloud Wiki翻译(5)读写容错性
Read Side Fault Tolerance “读”容错 With earlier versions of Solr, you had to set up your own load balancer. Now each individual node load bal...
2014-02-17 18:15:00
153
转载 SolrCloud Wiki翻译(4)Distributed Requests
One of the advantages of using SolrCloud is the ability to distribute requests among various shards that may or may not contain the data that you'...
2014-02-12 18:38:00
160
转载 SolrCloud Wiki翻译(3)Shards & Indexing Data
When your data is too large for one node, you can break it up and store it in sections by creating one or moreshards. Each is a portion of the lo...
2014-02-12 09:12:00
142
转载 SolrCloud Wiki翻译(2)Nodes,Cores,Clusters & Leaders
Nodes and Cores Node和Core In SolrCloud, anodeis Java Virtual Machine instance running Solr, commonly called a server. Each Solr core can...
2014-02-11 08:40:00
178
转载 SolrCloud Wiki翻译(1) Getting Started with SolrCloud
SolrCloud是被设计用来提供一个高可用性、可容错的环境用来索引您的数据再进行搜索。在SolrCloud里面,数据都被组织成多个“块”或者叫做“shards”(分片),使数据能够存放在多台物理机器上,并且使用replicas(复制块)提供的冗余来实现可伸缩性和容错性,该系统使用一...
2014-02-08 18:28:00
157
转载 eclipse启动tomcat一直处在starting状态
遇到这个问题好久了,找了很多地方都没有找到解决的办法,今天无意中解决了这个问题,故记录一下。 其实很简单,是因为我设置了eclipse的代理,但是这个代理可用性不是很好,或者说是有问题的,然而eclipse启动判断tomcat是否启动其实是通过网络去访问tomcat的虚拟机的,然后会通...
2012-11-13 10:58:00
350
转载 eclipse下发布Maven Web项目至tomcat后启动报ClassNotFoundEx...
由于Maven项目通过pom文件自动管理依赖,所以在WEB-INF/lib下不会有任何的jar包文件,需要修改项目配置文件.project和classpath配置文件.clsspath文件。 打开.project文件先在buildSpecs下面加入两个节点 <buil...
2012-11-12 13:56:00
239
转载 dom4j解析XML报ConnectionException解决
记录下,因为Dom4j会去有DTD声明的xml那个地址去下载验证文件,会请求网络,如果不能连接,会报错 ,通过设置如下解决 SAXReader reader = new SAXReader(); reader.setFeature("http://apache.org/xml...
2012-10-31 16:31:00
190
转载 Lucene搜索流程(4.Query)
最进由于工作的事和国庆,回家了没有环境来写文章,所以搁置了好久,人一懒就不想动,其中有人催我,想想也不能半途而废了,由于之前也写了些草稿,决心今天一定要写了这玩意。闲话不多说,开始介绍Lucene的查询。 如果将整个Lucene系统当做一个数据库系统也勉强说得过去,因为它拥有完善的存储系...
2012-10-10 17:22:00
228
转载 让你的实时搜索引擎远离AlreadyCloseException
最近由于家里的事回去了趟,而且在忙着搞openfire和spark的二次开发,搜索这块的博客更新就慢下来了,本来打算今天更新搜索流程第四章的,但是想到一个由于近实时搜索造成的AlreadyCloseException给我造成蛮大的困扰,在网上找了这块很少的资料,我就想把我的方法贡献出来,下面我...
2012-09-03 20:04:00
245
转载 Lucene搜索流程(3.IndexSearcher)
不知道大家看了上一篇的关于IndexReader的粗浅介绍是否有所收获,如果感觉到有不明白的地方请@我。 好了,按照流程来,今天我们就来说说IndexSeacher,小二上茶~~~~~~~哈哈 到了IndexSearcher这里就应该到了离我们最近的地方了,也可以说是我们用的最多的地方了,...
2012-08-28 20:20:00
184
转载 Lucene搜索流程(2.IndexReader)
上一篇说到了Directory为我们搜索提供了基础,下面我们就要开始打开这个Directory了。 用IndexReader打开一个Directory还是包含了不少细节的,下面我们一起来探讨下 首先IndexReader其实是一个abstract的类,所以我们打开不可能实例化这个类,那我...
2012-08-26 22:52:00
158
转载 Lucene搜索流程(1.Directory)
因为工作上的一些原因,还有一些个人的原因,好久没有写博客了,最近新版本转测试了,而且搞搜索引擎这么久了,总觉得要写点什么来看看自己到底会了些什么东西,同时在网上看到了很多对Lucene搜索介绍的文章,有复杂的,有简单的,复杂的对初学者来说太过深奥了,简单的对想要进一步学习的人来说又太过浅显了,...
2012-08-23 10:48:00
87
转载 lucene开发心得
写在前面:这个公司的搜索引擎项目终于差不多完工了,感谢有些人对我的支持和相信,由于是自己的第一个lucene的项目,所以整个过程中遇到了不少的问题和走了不少的弯路,不过好在撑了来,为了以后你们不走和我一样的弯路,也为了给自己做个记录,特此把一些心得写在这里,文笔不太好请见谅。 项目用的@lu...
2012-05-19 11:03:00
120
转载 lucene开发必备工具luke介绍
本文已经迁移到搞搜索 做lucene开发的,免不了要和索引文件打交道,但是一些二进制的文件我们怎么去看,下面就要隆重的有请luke了 根据百度百科的说法:Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。 ...
2012-04-30 18:47:00
205
转载 记录一个HTTP客户端的开发
MessageBytes valueMB = headers.getValue("host"); // Check host header if (http11 && (valueMB == null)) { error...
2012-03-24 15:37:00
124
转载 Lucene索引文件组成(2)
四、具体格式 上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。 4.1. 正向信息 Index –>...
2012-03-05 19:34:00
72
转载 Lucene索引文件组成
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lu...
2012-03-05 19:22:00
120
转载 Lucene索引机制
架构概览 图一显示了 Lucene 的索引机制的架构。Lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 HTML 文档,HTML 解析器会做一些预处理的工作,比如过滤文档中的 HTML 标签等等。HTML 解析器的输出的是文本内容,接着 Lucene 的分词器(Analyz...
2012-03-05 19:08:00
73
转载 Lucene简介
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 目前已经有很多应用程序的搜索功能是基...
2012-03-05 19:07:00
90
转载 JVM内存组成
java内存组成介绍:堆(Heap)和非堆(Non-heap)内存 按照官方的说法:“Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配。堆是在 Java 虚拟机启动时创建的。”“在JVM中堆之外的内存称为非堆内存(Non-heap memory...
2012-02-29 13:20:00
66
转载 JVM参数调优
不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正确的选择不同的GC策略,调整JVM、GC的参数,可以极大的减少由于GC工作,而导致的程序运行中断方面的问题,进而适当的提高Java程序的工作效率。但是调整GC是以个极为复杂的过程,由于各个程序具备不同的特点,如:web和...
2012-02-29 13:19:00
96
转载 关于调试那点事
公司项目模块比较多,模块之间联系比较多,客户端和服务端之间的接口出现问题就是家常便饭了。 而且两帮人都不在一起办公,这个是个非常棘手的问题。 经常是你再写代码,即时通讯工具上就闪起来了:XXX看下XXX接口,报文是XXX,赶紧看下是哪里的原因。 没办法,本着不影响他人的工作...
2012-01-31 14:38:00
74
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅