
lucene
bob007
这个作者很懒,什么都没留下…
展开
-
lucene 解析文档
DocumentHandler接口处理InputStream对象生成一个lucene的document的对象SAX或digest从xml中提取文本信息用PDFBox从PDF中提取文本信息使用Jtity从html中提取文本信息使用NekoHTML从html中提取文本信息使用POI和textmining提取word中的文本信息使用javax.swing.text.r原创 2012-08-21 20:45:41 · 478 阅读 · 0 评论 -
lucene 高级搜索
对搜索结果进行排序search(Query,sort)通过相关性排序 Sort.RELEVANCE按照索引顺序排序 Sort.INDEXORDER通过某个域进行排序 new Sort("category")以相反顺序排序 new Sort("pubmonth", true)根据多个域进行排序 SortField跨度查询PhrasePrefi原创 2012-08-20 19:05:40 · 603 阅读 · 0 评论 -
solr 相关资料地址
solr教程http://wenku.baidu.com/view/0605a776a417866fb84a8e29.htmljava调用solrhttp://www.cnblogs.com/powerxu/archive/2012/05/25/2518709.htmlhttp://blog.youkuaiyun.com/lisong526/article/details/7494683原创 2012-10-13 23:40:59 · 411 阅读 · 0 评论 -
Heritrix配置
转自http://yourlei.blog.sohu.com/111046417.html自己上班搞了2年多的蜘蛛和采集,只是一直是使用自己的程序,今天抽时间想看看其他蜘蛛的情况,于是下载了heritrix-1.14.2。搜索了一下相关的安装介绍。基本步骤如下: (1)解压下载的heritrix-1.14.2.zip的压缩包,如将其放在E:\datasource\heritrix转载 2013-05-27 00:20:32 · 620 阅读 · 0 评论