nutch集群,威力很大,哈哈!!

使用三台虚拟机组成的Nutch集群进行网页爬取测试,对比单机爬取效率显著提升。测试环境下,集群爬取180个网站、深度4层仅需2小时,资源利用率约20%。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天用公司的服务器测试了一把nutch集群很好很强大!

之前也测试过,估计和网络的带宽有关系吧,效果不是很好,今天测试了一下,确实比单机的速度要快很多!

我测试的是用3台虚拟机

每台是8核心cpu 一个6g内存2个4g内存

然后爬的网址是180个,深度4层,开启线程200,完成时间是2个多小时,而且资源占用率也就达到20%

 

之前用8核心6g内存单机爬取 180个网址,深度4层 开启线程50个,爬取1星期没有爬取完,资源占用cpu全部100%,内存占用800M左右

 

所以集群的威力还是很大的,这么一看就可以看出来威力了,所以我打算把这3台再拆成6台,让服务器能够把资源利用到最大,下面要好好研究一下hadoop的存储结构和nutch的具体内容和lucene这块了!

 

下面是我截的图,用集群完成的开始和结束时间,还有搜索了一个关键词的搜索数量,现在研究一下如何用luke去查看

hdfs,所有的数量应该在这个查询数量之上。

 

 

 

 

图1

图2

 

图3 查询结果

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值