
lucene
文章平均质量分 82
chaocy
这个作者很懒,什么都没留下…
展开
-
FSDirectory介绍
其中常用的就是FSDirectory:表示对文件系统目录的操作。RAMDirectory :内存中的目录操作。 首先我们看看类FSDirectory的源代码 import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.RandomAccessFile; import j原创 2010-09-06 09:07:00 · 3070 阅读 · 0 评论 -
分词汇总
<br /><br />SCWS:<br />Author:Hightman<br />算法:基于词频词典的机械中文分词引擎,采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词<br />准确率:经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。<br />性能:45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,<br /> 语言和平台:SCWS 采用纯 C 代码开发,以 Unix-Like OS原创 2010-10-09 12:23:00 · 2080 阅读 · 0 评论 -
使用solr搭建你的全文检索
<br /><br />Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档:<br />实战Lucene,第 1 部分: 初识 Lucene:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/<br />用Lucene加速Web搜索应用程序的开发:http://www.ibm.com/developerworks/cn/web/wa-lucene2/<br />一、 solr介转载 2010-10-12 14:51:00 · 578 阅读 · 0 评论 -
lucene-JE中文分词
<br />文章分类:Java编程<br />1、比较好的JAVA写的JE分词http://jesoft.cn:9080/je-analysis-1.5.3.jar,官网http://www.jesoft.cn/<br />2、提供相关的API<br />//采用正向最大匹配的中文分词算法,相当于分词粒度等于0<br />MMAnalyzer analyzer = new MMAnalyzer();<br /><br />//参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来<br />MM转载 2010-10-11 13:50:00 · 252 阅读 · 0 评论 -
lucene 3的中文分词mmseg4j
<br />lucene 3.x版本采用了全新的API,作为过渡的2.9中那些deprecated方法在3.0中已经彻底废弃了。不过我也没有太多东西要改,主要是修正了TokenStreams的相关代码,似乎TokenStream也是3.0中最大的革新。<br />A new TokenStream API has been introduced with Lucene 2.9. This API has moved from being Token-based to Attribute-based. Whi转载 2010-10-11 17:27:00 · 821 阅读 · 0 评论 -
在 Web 应用程序中集成 Lucene
<br /><br /> <br />我们开发一个 Web 应用程序利用 Lucene 来检索存放在文件服务器上的 HTML 文档。在开始之前,需要准备如下环境:Eclipse 集成开发环境Tomcat 5.0Lucene LibraryJDK 1.5<br />这个例子使用 Eclipse 进行 Web 应用程序的开发,最终这个 Web 应用程序跑在 Tomcat 5.0 上面。在准备好开发所必需的环境之后,我们接下来进行 Web 应用程序的开发。<br />1、创建一个动态 Web 项目在 Eclips转载 2010-10-12 15:21:00 · 1266 阅读 · 2 评论 -
用于Lucene的各中文分词比较
<br /><br />对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。<br />单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,将文字进行切分。车东的交叉双字分割或者叫二元分词我觉得应该算是按字索引的改进转载 2010-10-13 16:51:00 · 16073 阅读 · 4 评论 -
lucene demo indexFile
<br /><br />package org.apache.lucene.demo;<br /> <br />/**<br /> * Licensed to the Apache Software Foundation (ASF) under one or more<br /> * contributor license agreements. See the NOTICE file distributed with<br /> * this work for additional informatio原创 2010-10-11 15:25:00 · 334 阅读 · 0 评论