
Lucene.net/dotLucene
文章平均质量分 80
zfrong
98年接触计算机,多年Windows软件Web开发经验。知识面广,善于发现问题、分析问题、解决问题。方向:IT项目(策划管理投资).大信息量处理(搜索检索信息抽取挖掘人工智能).
上海MSN:zfrong2000##hotmail.com
展开
-
DotLucene源码浅读笔记(1) : Lucene.Net.Analysis
DotLucene源码浅读笔记(1) : Lucene.Net.Analysis本系列笔记将以DotLucene的命名空间组织行文,阅读的DotLucene版本是1.9.RC1,并且以更好的使用而非研究为目的阅读。也就是说要避难就易拉。0), DotLucene主要命名空间概览: 命名空间功能说明Lucene.Net.Analysis语言分析器,转载 2008-11-06 19:28:00 · 804 阅读 · 0 评论 -
Lucene.net 系列(六)
Lucene.net 系列(六)search 下本文主要结合测试案例介绍了Lucene下的各种查询语句以及它们的简化方法.通过本文你将了解Lucene的基本查询语句,并可以学习所有的测试代码已加强了解.源代码下载具体的查询语句在了解了SQL后, 你是否想了解一下查询语法树?在这里简要介绍一些能被Lucene直接使用的查询语句.1. TermQuery查询某个特定转载 2008-11-06 19:45:00 · 823 阅读 · 0 评论 -
Lucene.net 系列(四)
Lucene.net 系列(四)index 下本文将介绍有关索引并发控制的问题,以结束对Lucene.net建立索引问题的讨论.1. 允许任意多的读操作并发.即可以有任意多的用户在同一时间对同一份索引做查询工作.2. 允许任意多的读操作在索引被正在被修改的时候进行.即哪怕索引正在被优化,添加删除文档,这时也是允许用户对索引进行查询工作. (it’s so cool.)3. 同一时间只允转载 2008-11-06 19:44:00 · 743 阅读 · 0 评论 -
DotLucene源码浅读笔记(1)补遗:编写简单中文分词器ChineseAnalyzer
DotLucene源码浅读笔记(1)补遗:编写简单中文分词器ChineseAnalyzer原理部分,可以参考DotLucene源码浅读笔记(1) : Lucene.Net.Analysis ,本篇是依据上篇文章的分析,编写出的简单中文分词器(ChineseAnalyzer).从DotLucene源码浅读笔记(1) : Lucene.Net.Analysis可以知道,与分词有关的主要是两个基类:转载 2008-11-06 19:32:00 · 864 阅读 · 0 评论 -
lucene结构说明中文文档
lucene结构说明中文文档 本文定义了Lucene(版本1.3)用到的索引文件的格式。Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和JakartaLucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的转载 2008-11-06 19:31:00 · 1134 阅读 · 0 评论 -
Lucene.net 系列(五)
Lucene.net 系列(五)search 上在前面的系列我们一直在介绍有关索引建立的问题,现在是该利用这些索引来进行搜索的时候了,Lucene良好的架构使得我们只需要很少的几行代码就可以为我们的应用加上搜索的功能,首先让我们来认识一下搜索时最常用的几个类.查询特定的某个概念当我们搜索完成的时候会返回一个按Sorce排序的结果集Hits.这里的Score就是接近度的意思,象Googl转载 2008-11-06 19:45:00 · 657 阅读 · 0 评论 -
Lucene.net 系列(三)
Lucene.net 系列(三)index 中本文将进一步讨论有关Lucene.net建立索引的问题:主要包含以下主题:1.索引的权重2.利用IndexWriter 属性对建立索引进行高级管理3.利用RAMDirectory充分发挥内存的优势4.利用RAMDirectory并行建立索引5.控制索引内容的长度6.Optimize 优化的是什么?源代码下载本文将进一步讨论有关Lucene.转载 2008-11-06 19:43:00 · 1166 阅读 · 0 评论 -
Lucene.net 系列二 --- index (上)
Lucene.net 系列二 --- index (上)Lucene建立Index的过程: 1. 抽取文本. 比如将PDF以及Word中的内容以纯文本的形式提取出来.Lucene所支持的类型主要为String,为了方便同时也支持Date 以及Reader.其实如果使用这两个类型lucene会自动进行类型转换. 2. 文本分析. Lucene将针对所给的转载 2008-11-06 19:42:00 · 669 阅读 · 0 评论 -
Lucene.net 系列一
Lucene.net 系列一What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能.Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Li转载 2008-11-06 19:41:00 · 718 阅读 · 0 评论 -
DotLucene源码浅读笔记(2) : Lucene.Net.Documents
DotLucene源码浅读笔记(2) : Lucene.Net.Documents这个写的比较抱歉,因为已经开始阅读Index部分了,Documents这个部分很早之前写了,但觉得没什么价值没发表,荒芜了一段时间,现在又开始了.这篇仅仅为了系列的完整.也发表了吧,大家随便仍鸡蛋吧 :).这个命名空间的类相对较少,也相对较简单,一共才四个类,主要的类是Document,Field,在DotLuc转载 2008-11-06 19:33:00 · 1041 阅读 · 1 评论 -
lucene、lucene.NET详细使用与优化详解
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文转载 2009-01-16 12:32:00 · 3350 阅读 · 0 评论