一、搜索引擎的原理简介
1.一个抓网络页面程序
把www中的各网站的内容抓到本地
2.一个文件解析工具
把抓下来的html、doc等源文件处理为更精确的格式文本
3.一个全文检索、分词、数据挖掘,解析文本,把数据抓到结构化数据库中
可以采取工具软件,未必要自己写。数据库可以是文件数据库。
4.开发一个搜索页面,从数据库里查询关键字
对查询关键字,进行一些逻辑处理。然后返回名称和url到页面。
二、Lucene和Nutch简介
Java开源社区,lucene是一个成熟完整的搜索包。http://lucene.apache.org/
而nutch是基于lucene的一个完整的搜索引擎,包括了上述4个方面。即适合入门,也适合在这个上面做二次开发。http://lucene.apache.org/nutch/
三、下载
Windows环境下Nutch搜索引擎配置实战

本文详述了在Windows操作系统中安装配置Nutch搜索引擎的过程,涵盖了从理解搜索引擎原理到下载相关软件,如Lucene、Tomcat,再到设置环境变量、修改配置文件,最后运行Nutch爬虫和在Tomcat中部署Nutch web应用。文章还提到了针对中文支持的配置,并推荐使用Luke工具查看索引。
最低0.47元/天 解锁文章
577

被折叠的 条评论
为什么被折叠?



