
lucnen
zhoushuai3066
这个作者很懒,什么都没留下…
展开
-
lucene入门
<br />转帖地址:http://cleaneyes.javaeye.com/blog/182907<br />索引3種方式:倒排、後綴數組和簽名文件. <br /><br />一段讀寫文本文件的代碼:Java代码 BufferWriter writer = new BufferWriter(new FileWriter(destFile)); BufferReader reader = new BufferReader(new FileReader(readFile)); String li转载 2010-08-12 18:52:00 · 562 阅读 · 0 评论 -
indexReader和indexWriter的管理
原帖地址:http://luckaway.iteye.com/blog/540180实例化IndexReader需要加载索引文件,所以实例化它是非常耗资源的。IndexReader是线程安全的,通常一个索引目录,我们只实例化一个IndexReader就够了转载 2011-08-29 20:23:30 · 949 阅读 · 0 评论 -
lucene3.0分页
原帖地址:http://blog.163.com/sejin@126/blog/static/82750455201143023743825/在绝大多数项目中需要分页取出目标结果。lucene当中提供了现成的方法,使用很方便。主要用到的方法(API):转载 2011-08-29 20:43:13 · 664 阅读 · 0 评论 -
heritrix2
1.heritrix是比较出名的开源项目,首先到它官方网站下载安装,推荐在linux下安装,windows下也可以添加到eclipse中运行,但我运行出来的结果不是很好,有很多内置的模块在它自身提供的web管理页面上无法使用。2.根据用户手册将安装包在本地解包后,设置环境变量HERITRIX_HOME,在conf目录下修改文件heritrix.properties,包括web控制台的端口以及管转载 2011-11-14 23:57:35 · 673 阅读 · 0 评论 -
Heritrix
关于Heritrix使用的步骤 1.关于安装: 目前的版本号为1.14.3,官网地址为 http://crawler.archive.org/。常规安装,即解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 2.安装的后续工作: 将 %HERITRIX_HOME%/her转载 2011-11-10 15:50:45 · 424 阅读 · 0 评论 -
Heritrix 介绍!~
原帖地址:http://www.iteye.com/topic/84206一、框架介绍 公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。 目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络转载 2011-11-10 17:46:05 · 760 阅读 · 0 评论 -
lucene的query
检索前,需要对检索字符串进行分析,这是由QueryParser来完成的。为了保证查询的正确性,最好用创建索引文件时同样的分析器。QueryParser解析字符串时,可以指定查询域,实际可以在字符串中指定一个或多个域。例如:“Info:电视台 AND ID:3329”,“Info:电视台”,“电视台”,假如不指定默认域,就会在默认域查询。 QueryParser调用静态方法Parse后会返回转载 2012-09-01 15:31:43 · 1240 阅读 · 0 评论 -
Solr Multicore意义
转帖地址:http://aixiangct.blog.163.com/blog/static/9152246120111128114423633/Solr Multicore意义 Solr Multicore 是 solr 1.3的新特性。其目的一个solr实例,可以有多个搜索应用。 我们既可以把不同类型的数据放到同一index中,也可以使用分开的多in转载 2012-10-17 12:17:30 · 3069 阅读 · 0 评论 -
solr安装
转帖地址:http://www.cnblogs.com/ibook360/archive/2011/11/29/2267451.htmlApache Solrj EmbeddedSolrServer使用Solr的配置网上讲的很多,但是实施总是遇到困难,现总结如下:1. 从官网下载solr core的源码包,将solrwar包放到tomcat的webapps文件夹下,其它web容转载 2012-10-17 10:57:57 · 1402 阅读 · 0 评论 -
solr DataImport
转帖地址:http://www.cnblogs.com/chenying99/archive/2012/08/04/2622905.html1 配置RequestHandler DataImportHandler --> requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.Da转载 2012-10-17 16:45:54 · 802 阅读 · 0 评论 -
solr增量数据配置说明
z转帖地址:http://www.blogjava.net/conans/articles/379546.html以下资料整理自网络,觉的有必要合并在一起,这样方便查看。主要分为两部分,第一部分是对《db-data-config.xml》的配置内容的讲解(属于高级内容),第二部分是DataImportHandler(属于基础),第三部分是对db-data-config.xml的进阶(这个国转载 2012-10-18 23:43:58 · 7724 阅读 · 0 评论 -
solr使用
http://blog.youkuaiyun.com/xzknet/article/details/6716071http://blog.youkuaiyun.com/xzknet/article/details/6710753转载 2012-10-18 14:20:10 · 498 阅读 · 0 评论 -
solr server的实例化
转帖地址:http://www.cnblogs.com/llz5023/archive/2012/05/24/2516379.htmlSolr3.6版本SolrServer实例化类型有httpClient,和本地化,如果Solr服务器不在本地就用httpClient,在本地就用EmbeddedSolrServerSolrServer可以操作索引,包括更新删除查询等操作以下是ht转载 2012-10-18 14:39:48 · 2020 阅读 · 0 评论 -
solr3.6实时索引定时器实现
转帖地址:http://www.cnblogs.com/chenying99/archive/2012/08/04.html企业要求数据表的数据更新后能够实时的被搜索引擎搜索到,查找solr的DataImport的文档提到了一个定时器实现这种实时要求的解决方案实现方法:1 配置监听器web.xml listener> listener-class>转载 2012-10-18 17:44:16 · 2896 阅读 · 0 评论 -
BooleanQuery说明
原帖:http://blog.youkuaiyun.com/rick_123/article/details/6637121关于BooleanQuery在搜索中的用处 我们在搜索中可能会遇到要搜索索引文件中不同字段,不同字段之间就存在了与或非的运算关系,如:这个xx字段中必须存转载 2011-08-25 11:22:59 · 1023 阅读 · 0 评论 -
穿越搜索
<br />http://www.google.com/intl/zh-CN/landing/teleport/原创 2011-04-01 12:09:00 · 389 阅读 · 0 评论 -
教你使用solr搭建你的全文检索
<br />原帖地址:http://www.bitscn.com/plus/view.php?aid=131907<br />Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档:<br /> 实战Lucene,第 1 部分: 初识 Lucene:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/<br /> 用Lucene加速Web搜索应用程序的开发:http://www.转载 2011-03-14 17:28:00 · 553 阅读 · 0 评论 -
lucene简介~2
<br />Author : Summer<br />Team : I.S.T.O <br />Lucene简介<br />Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包 。目前国内外已有很多基于Lucene的应用。相对其它开源的全文搜索(Egothor,Xapian,MG4J)来说,Lucene已经是非转载 2010-08-12 21:33:00 · 323 阅读 · 0 评论 -
lucene例子~
这是一段实施基本搜索功能的代码示例:Java代码 Directory dir = FSDirectory.open(new File(“index”))); IndexSearcher searcher = new IndexSearcher(dir, true); Query q = new TermQuery(new Term(“contents”, ”java”)); TopDocs hits = searcher.search(q, 10); searcher.close转载 2010-08-12 23:32:00 · 447 阅读 · 0 评论 -
mmseg4j 多分词模式与 paoding 分词效果对比
<br />可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明. <br /> <br />原文出处:http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html<br />mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。<br />paoding 分词效果:-----------转载 2010-08-13 11:57:00 · 528 阅读 · 0 评论 -
当前几个主要的Lucene中文分词器的比较
原帖地址:http://www.236z.com/html/1/2/20/2009/08/06/46531.html基本介绍: paoding :Lucene中文分词庖丁解牛 Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的正向迭代最细粒度切分算法,多子处理器分析模式 2. 开发者 基本介绍: <br /><br /><br />paoding :L转载 2010-08-13 11:58:00 · 805 阅读 · 0 评论 -
Paoding中文分词参考手册
<br />Paoding中文分词参考手册<br /> <br />本文档对应paoding-analysis 2.0.4–alpha2,目前还在草稿状态。<br />由于没有docbook编辑文档的经验和环境,暂时以word编辑文档。<br /> <br />目录<br /> <br />一般使用<br /> <br />使用评估<br />参考资料<br />下载<br />开始使用<br />分词策略<br /> <br />高级专题<br /> <br />配置参考<br />PaodingMake转载 2010-08-13 12:22:00 · 2392 阅读 · 0 评论 -
Lucene的索引文件格式(1)
<br />原帖地址:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(sc转载 2010-08-13 21:02:00 · 533 阅读 · 0 评论 -
lucene3.0
<br />1 倒排索引<br />倒排索引是满足实际应用而设计的一种数据结构。倒排索引的每一个元素是一个索引项,每一个索引项是由关键字属性值和关键字关联结果,或者记录的存放地址组 成。倒排索引是利用索引关键字直接确定文档列表,最后确定希望找到的文档列表。与传统的顺序查找和记录组织方式相反,因此称为倒排索引。通常把采用倒排索 引方式组织的文件或者倒排索引和文档主文件一起称为倒排文件。<br />2 Lucence索引器<br />2.1 模式<br />2.1.1 独立索引模式:每个Document独立索引转载 2010-08-14 15:26:00 · 500 阅读 · 0 评论 -
Document Boost和Field Boost
在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。<br />如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。<br />这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。<br />如果不进行设定,则Document Boost和Field Boost默认为1。<br />Document Boost及F转载 2010-08-14 17:15:00 · 1304 阅读 · 0 评论 -
lucene中的query1
构建各种Lucene Query (1)(2008-12-12 12:13:04)转载标签:it 分类:自然语言处理 搜索流程中的第二步就是构建一个Query。下面就来介绍Query及其构建。当用户输入一个关键字,搜索引擎接收到后,并不是立刻就将它放入后台开始进行关键字的检索,而应当首先对这个关键字进行一定的分析和处理,使之成为一种后台可以理解的形式,只有这样,才能提高检索的效率,同时检索出更加有效的结果。那么,在Lucene中,这种处理,其实就是构建一个Query对象。就Query转载 2010-08-14 16:13:00 · 464 阅读 · 0 评论 -
Lucene:基于Java的全文检索引擎简介
<br />Lucene是一个基于Java的全文索引工具包。<br /> <br />http://www.chedong.com/tech/lucene.html基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展从Lucene我们还可以学到什么另外,如果是在选转载 2010-06-21 15:57:00 · 392 阅读 · 0 评论 -
Lucene的索引文件格式(2)
原帖地址:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html四、具体格式<br />上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。4.1. 正向信息<br />Index –> Segments (segments.gen, segment转载 2010-08-13 21:13:00 · 597 阅读 · 0 评论 -
深入Lucene索引机制
深入Lucene索引机制<br />原帖地址:--http://www.cnblogs.com/gaoyoubo/archive/2010/01/27/1657424.html<br />Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。<br />在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接转载 2010-09-19 18:08:00 · 541 阅读 · 0 评论 -
Heritrix基础
<br />原帖地址:http://www.cnblogs.com/hejycpu/archive/2009/01/26/1381004.html<br />下载Heritrix<br /><br /> 下载页面:http://crawler.archive.org/downloads.html,在此页面中选择 Sourceforge Downloads进入下载列表,选择一个版本的ZIP压缩包进行下载。我下载的版本是Heritrix-1.12.1,因为网上的说明好像都是针对这个版本的……<br />转载 2010-09-26 17:02:00 · 702 阅读 · 0 评论 -
solr 分组功能
wiki地址:http://wiki.apache.org/solr/FieldCollapsing" src="http://wiki.apache.org/moin_static188/modernized/img/attention.png" title="" height="16" width="16">Solr4.0 " src="http://w转载 2012-11-23 17:28:41 · 4289 阅读 · 0 评论