自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (2)
  • 收藏
  • 关注

转载 Lucene 的学习

通过这几天的看书和学习,对 Lucene 有了更进一步的认识,所以总结一下这些天的学习成果把 Lucene 的学习心得也学出来。1          Lucene 的认识 提到 Lucene 很多人都知道这个开源的搜索工具,其魅力也是很大的。它让我们对搜索引擎的认识不在那么神秘,也不会在觉得百度和 google 的技术多么的高深没测,其实其原理都是一样的,只是他们要做的更好,走的更远罢了。

2006-12-31 22:52:00 1406

转载 Lucene.net系列六 -- search 下

本文主要结合测试案例介绍了Lucene下的各种查询语句以及它们的简化方法.通过本文你将了解Lucene的基本查询语句,并通过学习相关的测试代码以加强了解. 具体的查询语句在了解了SQL后, 你是否想了解一下查询语法树?在这里简要介绍一些能被Lucene直接使用的查询语句.1.         TermQuery查询某个特定的词,在文章开始的例子中已有介绍.常用于查询关键字.

2006-12-31 22:28:00 843

转载 Lucene.net 系列五 --- search 上

在前面的系列我们一直在介绍有关索引建立的问题,现在是该利用这些索引来进行搜索的时候了,Lucene良好的架构使得我们只需要很少的几行代码就可以为我们的应用加上搜索的功能,首先让我们来认识一下搜索时最常用的几个类.查询特定的某个概念当我们搜索完成的时候会返回一个按Sorce排序的结果集Hits. 这里的Score就是接近度的意思,象Google那样每个页面都会有一个分值,搜索结果按分值排

2006-12-31 22:27:00 845

转载 Lucene.net 系列四 --- index 下

本文将介绍有关索引并发控制的问题,以结束对Lucene.net建立索引问题的讨论.1. 允许任意多的读操作并发.即可以有任意多的用户在同一时间对同一份索引做查询工作.2. 允许任意多的读操作在索引被正在被修改的时候进行.即哪怕索引正在被优化,添加删除文档,这时也是允许用户对索引进行查询工作. (it’s so cool.)3. 同一时间只允许一个对索引修改的操作.即同一时间只允许I

2006-12-31 22:25:00 757

转载 Lucene.net 系列三 --- index 中

 本文将进一步讨论有关Lucene.net建立索引的问题:主要包含以下主题:1.索引的权重2.利用IndexWriter 属性对建立索引进行高级管理3.利用RAMDirectory充分发挥内存的优势4.利用RAMDirectory并行建立索引5.控制索引内容的长度6.Optimize 优化的是什么?本文将进一步讨论有关Lucene.net建立索引的问题:索引的权重根据文档的

2006-12-31 22:24:00 797

转载 Lucene.net 系列二 --- index (上)

Lucene建立Index的过程: 1.        抽取文本. 比如将PDF以及Word中的内容以纯文本的形式提取出来.Lucene所支持的类型主要为String,为了方便同时也支持Date 以及Reader.其实如果使用这两个类型lucene会自动进行类型转换. 2.        文本分析. Lucene将针对所给的文本进行一些最基本的分析,并从中去除一些不必要的信息,比如

2006-12-31 22:23:00 820

转载 Lucene.net 系列一

What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它

2006-12-31 22:21:00 855

转载 lucene搜索引擎技术的分析与整理(代码情景分析)

6. 测试的主程序 规则: 加粗体的黑色代码,表示将作深入分析 try { Directory directory = new RAMDirectory(); Analyzer analyzer = new SimpleAnalyzer(); IndexWriter writer = new IndexWriter(directory, analyzer, true);

2006-12-31 22:18:00 1044

转载 lucene搜索引擎技术的分析与整理(lucene代码分析)

5. Lucene 代码分析 应用情景分析  Query query = parser.parse(queries[j]);  获得布尔查询  hits = searcher.search(query);   return new Hits(this, query, filter);  getMoreDocs(50)  TopDocs top

2006-12-31 22:16:00 932

转载 lucene搜索引擎技术的分析与整理(功能分析)

2.   功能分析2.1.   与Oracle数据库对比Lucene的API接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看:可以先把Lucene当成一个支持全文索引的数据库系统。 

2006-12-31 22:10:00 1177

转载 lucene搜索引擎技术的分析与整理(lucene文档结构)

Lucene文档结构 Lucene中最基础的概念是索引(index),文档(document.,域(field)和项(term)。索引包含了一个文档的序列。·   文档是一些域的序列。·   域是一些项的序列。·   项就是一个字串。存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。4.1.   Lucene概念详细介绍域的

2006-12-31 22:04:00 917

转载 lucene结构说明中文文档

本文定义了Lucene(版本1.3)用到的索引文件的格式。Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和Jakarta Lucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。随着Lucene不断发展,本文也应该更新

2006-12-31 21:57:00 821

转载 关于Lucene的详细说明和操作使用方式

Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。 本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器,它将查询字串解析为Lucene Query对象。 项(Term) 一条搜索语句被拆分为一些项(term)和操作符(operator)。项有两种类型:单独项和短语。 单独项就是

2006-12-31 21:55:00 1012

转载 Lucene in Action

Lucene in Action中文版 第一部分 Lucene核心1.      接触Lucene  2.      索引 3.      为程序添加搜索4.      分析5.      高极搜索技术6.      扩展搜索第二部分 Lucene应用7.      分析常用文档格式8.      工具和扩充9.      Lucene其它版本1

2006-12-31 21:53:00 1656

转载 用Lucene建立索引及查询示例

首先去 apache 网站下载 lucene 的开发包,并配置好环境变量http://jakarta.apache.org/lucene/docs/index.html建立索引程序:/* * Created on 2004-4-26 */import org.apache.lucene.index.*;import org.apache.lucene.analysis.standard.*;i

2006-12-31 21:51:00 690

转载 Document类

建立索引的过程建立索引是搜索引擎的第一步,建立索引可以分为以下几个步骤:提取文本信息构建Document分析建立索引 提取文本信息Lucene对文档数据建立索引的第一步就是把这些需要建立索引的文档数据转换为Lucene能够处理的类型。实际上Lucene是无法处理pdf, txt, doc ... 这些格式的物理数据的,那么如果有一堆PDF格式的文件或者是DOC格式的

2006-12-31 21:49:00 1501 1

转载 Lucene的平行索引

有时对于一个Document来说,有一些Field会被频繁地操作,而另一些Field则不会。这时可以将频繁操作的Field和其他Field分开存放,而在搜索时同时检索这两部分Field而提取出一个完整的Document。     这要求两个索引包含的Document的数量必须相同。     在创建索引的时候,可以同时创建多个IndexWriter,将一个Document根据需要拆分成多个包

2006-12-31 21:47:00 594

Lucene.Net

Apache Lucene.Net is a C# full-text search engine. Apache Lucene.Net is not a complete application, but rather a code library and API that can easily be used to add search capabilities to applications. Apache Lucene.Net is compiled against Microsoft .NET Framework 1.1 The Apache Lucene.Net web site is at: http://incubator.apache.org/lucene.net/ Please join the Apache Lucene.Net-User mailing list by sending a message to: lucene-net-user-subscribe@incubator.apache.org FILES src/Lucene.Net The Lucene source code. src/Demo Some example code. src/Test Test code. contrib/* Contributed code which extends and enhances Apache Lucene.Net, but is not part of the core library. DOCUMENTATION MSDN style API documentation for Apache Lucene.Net exists. Those can be found at this site: http://incubator.apache.org/lucene.net/docs/2.1/

2009-06-18

pdf2text,源码

pdf2text,源码pdf2text,源码pdf2text,源码

2008-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除