
搜索引擎
一只小蚂蚁吆
这个作者很懒,什么都没留下…
展开
-
Hadoop 简介及部署
这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和...原创 2010-12-12 20:30:48 · 142 阅读 · 0 评论 -
应用已有的开源搜索引擎-Nutch应用
Nutch作为一款刚刚诞生的开源Web搜索引擎,提供了除商业搜索引擎外的一种新的选择。个人、企业都可通过Nutch来构建适合于自身需要的搜索引擎平台,提供适合于自身的搜索服务,而不必完全被动接收商业搜索引擎的各种约束。 Nutch的工作流程可以分为两个大的部分:抓取部分与搜索部分。抓取程序抓取页面并把抓取回来的数据进行反向索引,搜索程序则对反向索引进行搜索回答用户的请求,索引是联系这两者...原创 2010-12-12 22:16:09 · 110 阅读 · 0 评论 -
windows下nutch的安装配置以及与tomcat的集成
Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 Nutch可以分为2个部分: 抓取部分crawler抓取程序抓取页面并把抓取回来的数据做成反向索引搜索部分searcher。搜索程序则对反向索引搜索回答用户的请求。 Nutch的爬虫有两种方式 爬行企业内部网(Intranet crawling)。针对少数网站进行,用crawl命...原创 2010-12-11 16:02:41 · 171 阅读 · 0 评论