Java
文章平均质量分 69
xiewei906
奋斗成就男人~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何做好一个垂直搜索引擎
网络搜索主要包括信息采集、信息抽取、信息加工、信息检索四个模块。1) 信息采集(网络蜘蛛)对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。2) 信息抽取从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同...2008-02-19 17:52:55 · 261 阅读 · 0 评论 -
利用LUCENE工具包中的例子初步学习全文检索
第一个类Searcher,主要负责遍历指定的文件系统并且索引文件中包含.txt文件package com.biaoqi.ibs.util;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.io.Reader;import java.util.Date;...2008-02-21 14:48:08 · 129 阅读 · 0 评论 -
利用庖丁解牛工具包解决中文分词问题
利用LUCENE工具包时,虽然lucene缺省提供了2个比较通用的分析器SimpleAnalyser和StandardAnalyser,但这2个分析器对中文的支持都非常弱,所以要加入对中文语言的切分规则,后来发现了Qieqie的庖丁解牛,于是下载下来想好好利用这个来解决我的中文分词问题,但是经过我的测试,发现总是找不到那个字典目录,还好有源文件,后来就看了下它里面加载资源文件的类,可能就是路径没有...2008-02-21 15:28:32 · 241 阅读 · 0 评论 -
Lucene 排序及多字段查找
默认情况下,IndexSearcher类的search方法返回查询结果时,是按文档的分值排序的,可以使用重载的search方法对结果排序IndexSearcher.search(Query,Sort);new Sort() 和 Sort.RELEVANCE,以及null一样,采用默认排序,要定义排序字段,方法是将字段传入Sort对象Sort sort = new Sort(...2008-02-21 16:11:39 · 266 阅读 · 0 评论 -
CVS用户配置
先 说下CVSNT的用户验证方式,CVSNT的用户验证方式分两种:Windows系统用户与CVSNT用户共存的混合验证方式,及CVSNT用户单一验证 方式,默认工作在混合验证方式下,当然使用单一验证方式对用户的管理肯定比较方便一点,因此下面的配置就是围绕该方式进行的。各个资源库所使用的验证方式 及用户配置由其目录下CVSROOT里的配置文件决定,其中有几个比较重要的文件。 1、config文件(T...原创 2008-02-21 16:49:00 · 169 阅读 · 0 评论 -
转一篇lucene的使用的文章,写的比较全
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文...2008-02-21 17:03:48 · 776 阅读 · 0 评论 -
Java路径问题
一 相对路径的获得 说明:相对路径(即不写明时候到底相对谁)均可通过以下方式获得(不论是一般的java项目还是web项目) [code="java"]String relativelyPath=System.getProperty("user.dir"); [/code] 上述相对路径中,java项目中的文件是相对于项目的根目录 ...原创 2009-07-17 10:51:23 · 166 阅读 · 0 评论
分享