
Lucene搜索引擎
莫欺少年穷
JAVA高级工程师,熟悉常用框架,参与架构的设计和完善,一枚联想工作的梦想奋斗师!
展开
-
【转载】Lucene学习笔记(三)
三、用Lucene建立索引: 大纲: 1. Lucene索引的建立过程以及相关技术的简介 2. Lucene的文档格式 3. Lucene索引的优化 4. Lucene索引的同步机制 5. Lucene索引的格式 1. 索引建立的过程:大致分为以下四步"提取文本"、"构建Document"、"分析"和"建立索引"。 1.1 提取文本:为了使Lucene对文档数据建立索引原创 2012-06-11 18:02:41 · 1570 阅读 · 0 评论 -
【转载】Lucene学习笔记(五)
五、Lucene的分析器: 大纲:1. Lucene分析器Analyzer 2. JavaCC与Tokenizer 3. Lucene内建的分析器 4. 定制自己的分词器和过滤器 1. Lucene分析器----Analyzer 1.1 Analyzer的概述:中文翻译是"分析器"。 它主要用于分析切词或者过滤搜索时遇到的各种文本。用更具体的话说其实就是"分词"和"过滤"。原创 2012-06-11 18:05:21 · 1035 阅读 · 0 评论 -
【转载】Lucene学习笔记(一)
本人学习Lucene真实笔记,其中如有表达、理解错误或不清的地方希望大家指正,同时希望对需要的朋友有所帮助。 申明:此文章中说到的分词器就是分析器(后边小节会讲到)中的一种,不要理解错了。 一、Lucene基础: 大纲:1. 信息获取与搜索引擎的发展 2. Lucene的历史 3. 建立索引(索引库)与搜索 1. 信息获取技术包含:信息的表示、存储、组织原创 2012-06-11 18:00:38 · 1098 阅读 · 0 评论 -
【转载】Lucene学习笔记(二)
二、第一个"搜索引擎": 大纲:1.Lucene下载包结构简介 2.使用Lucene为本地文件建立索引 3.测试性搜索 4.改进的意见 1.初识Lucene 1.1 Lucene的下载:可到Apache官网http://lucene.apache.org下载Lucene开发工具包,这里我们用1.4.3稳定版本 1.2 Lucene的源码包结构: 1.2.1 anal原创 2012-06-11 18:01:29 · 1357 阅读 · 0 评论 -
【转载】Lucene学习笔记(四)
Lucene技术拓展: Lucene与数据库结合的建议:(引用自下边的2.2标题中的内容) 比较好的一种方式是让Lucene和数据库结合使用,在索引中存入一些关键性的数据, 如数据库表中数据的ID字段、路径字段或者简单文本。而真正的数据提取则从数据库中得到 (就是根据据搜索出来的Document文档中保存的表数据的类似ID字段的数据到数据库中取出真正的数据), 这样既可以发原创 2012-06-11 18:04:06 · 1300 阅读 · 0 评论 -
【转载】Lucene学习笔记(六)
六、高级搜索技巧: 大纲:1. 对搜索结果的排序 2. 多字段搜索和多索引搜索 3. 对搜索结果的过滤 1. 对搜索的结果排序:Lucene 1.4以前的版本,搜索结果只能够以Lucene内部的评分标准,采用降序排列来返回搜索结果集, 通过这种方式实现将最相关的结果排在返回结果的较前面显示。如果想实现通过自己的方法排序也行, 不过就要使用一些比较麻烦的手段了,就是先得到返回原创 2012-06-11 18:06:06 · 1227 阅读 · 0 评论 -
【转载】Lucene学习笔记(七)
七、性能测试:不重要,就是用一些代码进行了一些实际性能的测试。 大纲: 1. Google和百度的搜索速度 2. 性能测试的方案 3. 文档的预处理 4. 性能测试结果比较 1. 搜索的速度 1.1 Google和百度的搜索速度:自己到网上搜索尝试一下就知道了。 1.2 建立索引的速度:就是一些统计信息,不需要掌握。 2. 设定测试环境与测试方案 2.1原创 2012-06-11 18:06:45 · 749 阅读 · 0 评论 -
【转载】Lucene学习笔记(八)--完
八、搜索引擎的中文问题: 大纲: 1. 中文分词的一些常见问题 2. Lucene的StandardAnalyzer对中文的处理 3. CJKAnalyzer对中文的处理 4. 中科院的中文分词工具 1. 中文分词的问题: 1.1 分词:指的就是将一个完整的句子换分为一个个的分词(Term)对象的过程。 这种分词应当满足某种语言规则,以便于为其建立索引。 1.2 中文原创 2012-06-11 18:07:25 · 1219 阅读 · 0 评论