
Lucene专题
文章平均质量分 80
jxufewbt
这个作者很懒,什么都没留下…
展开
-
Lucene.Net系列一 ---simple example
What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以原创 2007-06-02 17:31:00 · 876 阅读 · 0 评论 -
总结:DotLucene如何才能快速生成索引?
DotLucene生成索引的速度的是个大问题。不过我通常是想法比技术多。所以除了常规的性能调整外。更重要的是通过尝试不同的做法来测试其索引的速度: 1,一般做法: 通过调整maxMergeDocs,mergeFactor,minMergeDocs参数来达到性能优化。另外也可以通过先索引到内存,然后倒入文件索引的方式。具体就不说。网上资料很多。 2,小数据多批次索引: 我在原创 2007-06-02 18:00:00 · 852 阅读 · 0 评论 -
Web Spider提取编码方法总结
概要:1,通过分析Header提取编码2,通过分析BOM(Byte Order Mark)提取编码3,通过分析页面的meta提取编码4,通过字节流分析检测编码正文:总结一下。目前有四种方法1,通过分析Header提取编码。 这个也是比较简单。也是大家常用的,不过既然是总结。那还是帖一下代码吧。Code highlighting produced by Actipro CodeHighlig原创 2007-06-02 17:59:00 · 1085 阅读 · 0 评论 -
DotLucene源码浅读笔记(2) : Lucene.Net.Documents
这个写的比较抱歉,因为已经开始阅读Index部分了,Documents这个部分很早之前写了,但觉得没什么价值没发表,荒芜了一段时间,现在又开始了.这篇仅仅为了系列的完整.也发表了吧,大家随便仍鸡蛋吧 :).这个命名空间的类相对较少,也相对较简单,一共才四个类,主要的类是Document,Field,在DotLucene中,可以这样认为,Document就是一种类似于数据库中的数据列的数据结原创 2007-06-02 17:57:00 · 833 阅读 · 0 评论 -
DotLucene源码浅读笔记(1)补遗:编写简单中文分词器ChineseAnalyzer
原理部分,可以参考DotLucene源码浅读笔记(1) : Lucene.Net.Analysis ,本篇是依据上篇文章的分析,编写出的简单中文分词器(ChineseAnalyzer).从DotLucene源码浅读笔记(1) : Lucene.Net.Analysis可以知道,与分词有关的主要是两个基类:词法分析器(Analyzer) :词法过滤和分析的类,实际上是对分词器, 过滤器的综合包装原创 2007-06-02 17:56:00 · 1022 阅读 · 0 评论 -
DotLucene源码浅读笔记(1) : Lucene.Net.Analysis
本系列笔记将以DotLucene的命名空间组织行文,阅读的DotLucene版本是1.9.RC1,并且以更好的使用而非研究为目的阅读。也就是说要避难就易拉。0), DotLucene主要命名空间概览: 命名空间 功能说原创 2007-06-02 17:54:00 · 1103 阅读 · 0 评论 -
在DotLucene/Lucene.net中, 增加自己的中文分词Analyzer
一种非常简单,但是不是很优化的方法,继承Lucene.Net.Analysis.Analyzer,实现了Lucene.Net.Analysis.Analyzer,Lucene.Net.Analysis.Tokenizer,Lucene.Net.Analysis.TokenFilter的子类.参考了Lucene.Net.Analysis.Cn的实现,该项目采用对汉语进行一元分词.ChineseAna原创 2007-06-02 17:54:00 · 2552 阅读 · 0 评论 -
Lucene.Net内存泄漏问题解决方法
private void MemoryLeak(){ Directory directory = new RAMDirectory(); Analyzer analyzer = new StandardAnalyzer(); IndexWriter writer = new IndexWriter(directory, analyzer, true); for (int i = 1;原创 2007-06-02 17:52:00 · 1396 阅读 · 0 评论 -
利用Lucene.net搜索引擎进行多条件搜索的做法
1 联合两个索引查询,已解决: IndexSearcher[] searchers = new IndexSearcher[2]; searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_outindexpath); MultiSearcher multiSearcher = new原创 2007-06-02 17:51:00 · 2072 阅读 · 0 评论 -
用Lucene.net建立自己的网站搜索
在家无聊。便研究一下 Lucene.net。 Lucene.net 是 lucene在java下移植到.net上来的。 于是 我打算做一个实验看看效果如何 以下是简单代码 1:建立索引 Lucene.Net.Analysis.Standard.StandardAnalyzer a=new Lucene.Net.Analysis.Standard.StandardA转载 2007-06-02 17:48:00 · 1100 阅读 · 0 评论 -
Lucene.net系列六 -- search 下
本文主要结合测试案例介绍了Lucene下的各种查询语句以及它们的简化方法.通过本文你将了解Lucene的基本查询语句,并通过学习相关的测试代码以加强了解.源代码下载具体的查询语句在了解了SQL后, 你是否想了解一下查询语法树?在这里简要介绍一些能被Lucene直接使用的查询语句.1. TermQuery查询某个特定的词,在文章开始的例子中已有介绍原创 2007-06-02 17:44:00 · 776 阅读 · 0 评论 -
Lucene.net 系列五 --- search 上
在前面的系列我们一直在介绍有关索引建立的问题,现在是该利用这些索引来进行搜索的时候了,Lucene良好的架构使得我们只需要很少的几行代码就可以为我们的应用加上搜索的功能,首先让我们来认识一下搜索时最常用的几个类.查询特定的某个概念当我们搜索完成的时候会返回一个按Sorce排序的结果集Hits. 这里的Score就是接近度的意思,象Google那样每个页面都会有一个分值,搜索结果按分原创 2007-06-02 17:42:00 · 757 阅读 · 0 评论 -
Lucene.net 系列四 --- index 下
本文将介绍有关索引并发控制的问题,以结束对Lucene.net建立索引问题的讨论.1. 允许任意多的读操作并发.即可以有任意多的用户在同一时间对同一份索引做查询工作.2. 允许任意多的读操作在索引被正在被修改的时候进行.即哪怕索引正在被优化,添加删除文档,这时也是允许用户对索引进行查询工作. (it’s so cool.)3. 同一时间只允许一个对索引修改的操作.即同一时间只允原创 2007-06-02 17:40:00 · 793 阅读 · 0 评论 -
Lucene.net 系列三 --- index 中
本文将进一步讨论有关Lucene.net建立索引的问题:主要包含以下主题:1.索引的权重2.利用IndexWriter 属性对建立索引进行高级管理3.利用RAMDirectory充分发挥内存的优势4.利用RAMDirectory并行建立索引5.控制索引内容的长度6.Optimize 优化的是什么?源代码下载本文将进一步讨论有关Lucene.net建立索引的问题:索引的权重根原创 2007-06-02 17:36:00 · 852 阅读 · 0 评论 -
C#使用Lucene建索引和搜索代码示例
private void BuildIndex_Category(int index, int len){ try { DB = new DBConnect(textBox1.Text.Trim()); string sql = "select * from common_category where COMMON_CAT原创 2007-06-02 09:49:00 · 3741 阅读 · 0 评论