
抓取搜索
文章平均质量分 77
wwty1314
这个作者很懒,什么都没留下…
展开
-
lucene排序问题
The fields used to determine sort order must be carefully chosen. 选择排序字段一定要细心。Documents must contain a single term in such a field, and the value of the term should indicate the document's re...2010-04-22 21:25:07 · 136 阅读 · 0 评论 -
构造单例的IndexWriter对象
问题由来:参考一些资料,以及自己知道的io操作的资源消耗,知道IndexWriter也有同样的问题,同时IndexWriter同一时间只能有一个实例存在(如果在第一个IndexWriter实例存在之后,索引目录下会产生一个write.lock文件,这个时候你想实例化第二个IndexWriter时,肯定会报错的)。所以考虑能否构造一个单例IndexWriter出来,然后一直持有。 参考了...原创 2010-07-02 21:16:01 · 366 阅读 · 0 评论 -
Lucene的多线程访问原则和同步,锁机制
此文出自网络,针对当前的3.0版本不知道锁机制是否有所改变,有待在实践中验证 本文介绍lucene多线程环境下的使用原则和commit.lock与write.lock实现的锁机制。设计之初就是服务于多线程环境,大多数情况下索引会被不至一个线程访问。索引时一个关键资源。在对这样的资源进行访问时,不可避免地会出现同步访问 的问题。因此需要有很好的策略来处理这些并发访问,以保证资源的合理使...原创 2010-07-01 22:13:28 · 246 阅读 · 0 评论 -
lucene 标准化因子 norm
摘自forfuture1978的lucene系列文章,以供特别理解标准化因子 为什么会有标准化因子呢?从第一章中的描述,我们知道,在搜索过程中,搜索出的文档要按与查询语句的相关性排序,相关性大的打分(score)高,从而排在前面。相关性打分(score)使用向量空间模型(Vector Space Model),在计算相关性之前,要计算Term Weight,也即某Term相对于某Docum...原创 2010-06-27 11:42:46 · 1089 阅读 · 0 评论 -
三种中文分词算法优劣比较
出处:http://blog.youkuaiyun.com/liuzongshun/archive/2009/05/27/4216403.aspx 目前为止,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表所示:各种分词方法的优劣对比: (1)歧义...原创 2010-06-27 10:54:44 · 1081 阅读 · 0 评论 -
布尔代数和搜索引擎的索引
文章来自:http://googlechinablog.com/2006/05/blog-post_10.html 世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出布尔运算的框框。布尔(George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。布尔在工作之...原创 2010-06-27 10:41:13 · 204 阅读 · 0 评论 -
lucene-contrib的介绍
analyzers下分为两个包:common:提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词smartcnSmartChineseAnalyzer 是一个智能中文分词模块, 能够利用概率对汉语句子进行最优切分, 并内嵌英文tokenizer,能有效处理中英文混合的文本内容。 它的原理基于自然语...原创 2010-06-09 22:44:26 · 182 阅读 · 0 评论 -
lucene当中的各种query的功能目录
TermQuery----字段精确匹配 BooleanQuery----如果你想这么查询:“在content域中包含java或perl的document”,那么你可以建立两个TermQuery并把它们用BooleanQuery连接起来 PhraseQuery----多关键字的搜索,可以指定各个关键字相隔的距离 DisjunctionMaxQuery----多字段的...原创 2010-06-06 22:47:31 · 131 阅读 · 0 评论 -
lucene当中的各种query(三)
MultiTermQuery包含以下query:FuzzyQuery, NumericRangeQuery, PrefixQuery, TermRangeQuery, WildcardQuery FuzzyQuery是一种模糊查询,它可以简单地识别两个相近的词语。 即相似度匹配NumericRangeQuery数字形式的范围查询PrefixQuery前缀搜索A Query that...原创 2010-06-05 18:06:58 · 326 阅读 · 0 评论 -
lucene当中的各种query(二)
MultiPhraseQuery实现以下功能:前缀搜索:IndexSearcher searcher=new IndexSearcher(INDEX_STORE_PATH); MultiPhraseQuery query=new MultiPhraseQuery(); query.add(new Term("bookname","钢")); ...原创 2010-06-05 16:15:45 · 123 阅读 · 0 评论 -
lucene当中的各种query(一)
TermQuery首先介绍最基本的查询,如果你想执行一个这样的查询:“在content域中包含‘lucene’的document”,那么你可以用TermQuery:Term t = new Term("content", " lucene");Query query = new TermQuery(t); BooleanQuery如果你想这么查询:“在content域中包含...原创 2010-06-03 23:23:11 · 321 阅读 · 0 评论 -
全文检索理论补习之索引部分
首先,数据分两种:结构化数据和非结构化数据 结构化数据如数据库数据非结构化数据如邮件,word文档 非结构化数据的另一种叫法是全文数据 当然还有一种分类为半结构化数据:如html和xml数据;半结构化数据可以根据需要按照结构化数据来处理,也可以按照非结构化数据来处理 结构化数据本来就是按照一定的规则来组织的数据,不用多说;关键的问题就在于非结构化数据即全文数据的搜索上。...原创 2010-05-30 23:28:36 · 104 阅读 · 0 评论 -
lucene开发过程中的问题总结
1、问题: 目前索引里面已经有1000多万的数据了,现在需要每几分钟就增量得添加新的内容到索引中。 但是,我发现新加入索引后,整个索引结构都要重新调整。非常耗时(长达半个小时)。 不知道大家有没有什么比较好的办法,加快这个过程? 回答: 我觉得用lucene做,一个原则索引里面尽量少存储,索引文件小了,optimize要移动的数据块也小。 还有Lucene实在不适合做实时,有一个办法,将新索引...原创 2010-07-11 09:44:05 · 166 阅读 · 0 评论 -
关于搜索开发过程中的总结
1、我想索引文件损坏并不是因为文件没有被关闭,而是在更新索引的时候程序中断的,造成了文件的不完整,才会导致索引文件的损坏的问题--针对IndexWriter没有正常关闭的问题,如果是索引数据写入完毕,最后没有关闭,只会导致索引文件被锁,而不会造成数据的损毁,数据的损毁是在写入的过程中程序突然异常而造成了写入数据的不完整而造成的 2、3.0确实取消了2元分词,因为对未知词使用2元切分,在召回...原创 2010-07-10 15:07:34 · 195 阅读 · 0 评论 -
大型网站的Lucene应用
本文来自网络,仅供参考学习! 1. 在大规模的应用中,Lucene更适合用于狭义的“搜索”,而不应当负责数据的存储。我们看看Lucene的源代码也可以知道,Document和Field的存储效率是不够好看的。手机之家的团队也发现了这一点,他们的办法是,用Lucene存放索引,用Memcache + Berkeley DB(Java Edition)负责存储。这样有两个好处,一是减小了Luc...原创 2010-07-08 16:19:29 · 132 阅读 · 0 评论 -
提高索引性能
本文内容来自ibm中国,仅供参考学习 利用 Lucene,在创建索引的工程中你可以充分利用机器的硬件资源来提高索引的效率。当你需要索引大量的文件时,你会注意到索引过程的瓶颈是在往磁盘上写索引文件的过程中。为了解决这个问题, Lucene 在内存中持有一块缓冲区。但我们如何控制 Lucene 的缓冲区呢?幸运的是,Lucene 的类 IndexWriter 提供了三个参数用来调整缓冲区的大小...原创 2010-07-08 16:03:59 · 137 阅读 · 0 评论 -
站内搜索引擎之比较
有很多网站都在网页上加个“站内搜索引擎”、“搜索引擎”、“全文检索”等等相关字样。 用户一用,结果发现,既不能多关键组合查询,也不能支持国际语法,甚至不能支持全文检索,就更别谈不支持相关性排序等真正的搜索引擎具备的功能了。这些搜索和真正的站内搜索引擎有和区别呢? 真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络...2010-04-22 22:09:15 · 194 阅读 · 0 评论 -
nutch的抓取策略
1.Web database,也叫WebDB,其中存储的是爬虫所抓取网页之间的链接结构信息,它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内存储了两种实体的信息:page和link。 针对page:Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页,因为网页有很多个需要描述,WebDB中通过网页的URL和网页内容的MD5两种索引...原创 2011-07-06 11:56:54 · 267 阅读 · 0 评论