在开发中小型搜索引擎的过程中,我使用由Java开发的开源软件:jspider,htmlparser,lucence,IKAnalyzer,下面我一一道来。
lucence很著名啦,不必多说,我写的这个引擎就是在它自带的demo基础上重构的。
jspider顾名思义,是一个用Java开发的爬虫。
htmlparser是解析html页面的,因为lucene自带的html解析器不够健壮,所以用了这个。
IKAnalyzer是为lucence定做的中文分词组件,在使用中我发现效果不错。
具体的编码下次再说吧,呵呵
本文介绍了一款基于Java开发的中小搜索引擎的构建过程,该系统利用了jspider进行网页爬取、htmlparser进行HTML解析、lucence作为核心搜索引擎,并采用了IKAnalyzer进行中文分词。

被折叠的 条评论
为什么被折叠?



