
JAVA搜索引擎资料
文章平均质量分 64
smildlzj
这个作者很懒,什么都没留下…
展开
-
Java开源HTML操作组件
NekoHTML 点击次数:2603NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHT转载 2006-09-22 00:58:00 · 2571 阅读 · 0 评论 -
正则表达式彻底去除HTML
public static String RMHTML(String Htmlstring) {/**转载请注明:PowerBy:LuluWww.HotCity.Cn*/// 删除脚本 Htmlstring = RegexPattern("]*>[//s//S]*?","",Htmlstring">//s*?script[^>]*>[//s//S]*?","",H原创 2007-02-06 15:31:00 · 1689 阅读 · 0 评论 -
Robot
凡上网者都用过搜索引擎,Altavista、Infoseek 、Hotbot、网络指南针、北大天网和华好网景的ChinaOK等等,它们的索引数据库涉及Internet上超过1亿的页面(Altavista和Hotbot),北大天网也收集了32万个www页面(国内),索引数据库的建立需要访问这些页面然后进行索引,如何做到对如此多的页面的访问,现在的搜索引擎无论是针对英文还是中文,都是采用网上机器人来实转载 2007-02-06 11:53:00 · 974 阅读 · 0 评论 -
Lucene学习笔记
1.Lucene的工作流程:(1) 使用IndexWriter,在指定的目录建立索引的文件 (2) 将需要检索的数据转换位Document的Filed对象,然后将Document用IndexWriter添加倒索引的文件中 (3) 处理索引信息,关闭IndexWriter流 (4) 创建搜索的Query (5) 给IndexSearcher2.Lucene的字段类型Luce转载 2006-10-09 01:33:00 · 1976 阅读 · 0 评论 -
中文网页自动分类新算法
张俐 李星 陆大 摘 要: 为了有效地组织因特网上极其丰富的信息资源,通过分析中文和中文网页的特点,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等,提取网页特征,并计算可调的词频加权参数,然后通过本类和非本类训练,建立专家数据库。实验表明,该算法可以获得80%以上的网页分类准确率。 关键词: 文本分类; 搜索引擎; 超文本描述语言 (HTML转载 2006-10-04 19:52:00 · 4687 阅读 · 2 评论 -
LUCENE Filed详解
/*以前一直不了解boost为何?其实boost就是由于后来进行相关度排序时用的,由于在query时, *每个term都分属与一个field。同样的term当其属于不同的field时,其重要性不一样,譬如 *field:中的term就要比field:中的term重要!而这个重要性如何体现就 *可以通过boost进行设定。可以把field:的boost至设大一些*注意boost在Documen转载 2006-10-02 12:26:00 · 1755 阅读 · 0 评论 -
lucene多种搜索方式详解例子
import java.io.StringReader;import java.util.Date;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.analysis.TokenStream;import org转载 2006-09-27 22:29:00 · 2031 阅读 · 0 评论 -
搜索引擎研究---网络蜘蛛程序算法相关资料
如何用C#语言构造蜘蛛程序 "蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛程序到底是怎样工作的呢? 蜘蛛是一种半自动的程序,就象现实当中的蜘转载 2006-09-21 12:44:00 · 2280 阅读 · 0 评论 -
Java开源Web爬虫
Heritrix 点击次数:3822Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 WebSPHINX 点击次数:2205WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。W转载 2006-09-21 20:42:00 · 2416 阅读 · 0 评论 -
网页主题相关度计算
转载 2007-02-16 21:11:00 · 1846 阅读 · 0 评论