
lucene
文章平均质量分 83
西楚小羽的窝窝
奔跑吧,程序猿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
lucene创建索引初步和搜索初步
1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 2 lucene的工作方式 lucene提供的服务实际包含两部分:一入一出。所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除原创 2015-02-06 21:18:08 · 818 阅读 · 0 评论 -
lucene3.5实现自定义同义词分词器
最近一直在学Lucene3.5,感觉里面的知识真的很棒。今天就和大家一起分享一下我们自己来实现一个同义词的分词器。 一个分词器由多个Tokenizer和TokenFilter组成,这篇文章讲解的就是我们利用这两个特性实现自己的一个简单的同义词分词器,不妥之处请大家指出。 一、设计思路 什么叫同义词搜索呢?比如我们在搜 ”中国“ 这个词的时候,我们也可以搜索 ”大陆“ 这个词,后者搜索的要原创 2015-04-01 10:40:02 · 1268 阅读 · 0 评论 -
Lucene3.5自定义评分以及根据域进行自定义评分设定
一、首先来综述一下Lucene自定义评分的步骤: 1、创建一个评分域 FieldScoreQuery fd = new FieldScoreQuery("score", Type.INT); 2、根据评分域和原有的query创建自定义的query对象 MyCustomScoreQuery query = new MyCustomScoreQuery(q, fd);@SuppressWa原创 2015-03-29 13:29:03 · 1274 阅读 · 0 评论 -
Tika基本使用
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 Tika提供了对如下文件格式的支持: PDF - 通过Pdfbox MS-* - 通过POI HTML - 使用nekohtml将不规范的html整原创 2015-03-30 16:25:20 · 1982 阅读 · 0 评论 -
lucene再查询分页搜索和lucene的搜索_基于searchAfter的实现
package com.dhb.search; import java.io.File; import java.io.FileReader; import java.io.IOException; import org.apache.commons.io.FileUtils; import org.apache.lucene.analysis.standard.StandardAnalyze原创 2015-02-10 21:56:24 · 904 阅读 · 0 评论 -
lucene搜索实例解析
1、搜索的简单实现(TermQuery) 1.1 创建 IndexReader 1.2 创建 IndexSearcher 1.3 创建Term和TermQuery 1.4 创建TermQuery获取TopDocs 1.5 创建TopDocs 获取ScoreDoc 1.6 根据S原创 2015-02-09 23:54:52 · 625 阅读 · 0 评论 -
lucene索引_加权操作、对日期和数字进行索引、IndexReader的设计
继上一篇之后,进行的一些补充代码。 package com.dhb.index; import java.io.File; import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.原创 2015-02-09 18:02:59 · 988 阅读 · 0 评论 -
lucene索引_创建_域选项和lucene索引_的删除、更新.
今天进一步测试了一下Lucene的,写下了一些小代码,记录了下来,希望帮助以后进一步了解Lucene。 package com.dhb.index; import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.a原创 2015-02-07 14:17:22 · 688 阅读 · 0 评论 -
从概念理解Lucene的Index(索引)文档模型
Lucene主要有两种文档模型:Document和Field,一个Document可能包含若干个Field。 每一个Field有不同的策略: 1.被索引 or not,将该字段(Field)经过分析(Analyisi)后,加入索引中,并不是原文 。 2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索。 3.可选择是否存储(store),将原文转载 2015-02-06 23:34:50 · 852 阅读 · 0 评论 -
lucene3.5通过NRTManager和SearchManager实现近实时搜索
实时搜索(近实时搜索) 完全的实时搜索:只要数据库一变动,马上要更新索引,writer.commit来操作 近实时搜索:当用户修改了信息之后,先把索引保存到内存中,然后在一个统一的时间对内存中的所有的索引进行提交操作。 reopen,NRTManager(near-real-time) lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索原创 2015-04-07 14:46:42 · 1333 阅读 · 0 评论