
nutch
iteye_18973
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
nutch集群,威力很大,哈哈!!
今天用公司的服务器测试了一把nutch集群很好很强大!之前也测试过,估计和网络的带宽有关系吧,效果不是很好,今天测试了一下,确实比单机的速度要快很多!我测试的是用3台虚拟机每台是8核心cpu 一个6g内存2个4g内存然后爬的网址是180个,深度4层,开启线程200,完成时间是2个多小时,而且资源占用率也就达到20% 之前用8核心6g内存单机爬取 180个网址,深度4层 开启...原创 2011-07-05 00:23:51 · 171 阅读 · 0 评论 -
nutch网页快照乱码解决方法
修改nutch\cached.jsp,将content =new String(bean.getContent(details))修改为content= new String(bean.getContent(details),"utf-8") 在画红框的地方加上UTF-8即可以下内容参考:http://blog.youkuaiyun.com/xiaomage_cn/a...原创 2011-07-22 16:06:03 · 120 阅读 · 0 评论 -
nutch1.4 部署应用
nutch1.4在2011年的11月26日正式发布了,nutch1.4之后更新了一些内容和一些配置,但是和1.3差别还是不大,但是和1.2之前的差异就比较大了,在nutch1.3之后,索引就用solr来进行生成了,包括查询也是用solr,所以在nutch1.2之前的web搜索服务也就不需要了。首先我们去nutch的官网下载最新版的nutch1.4地址为:http://www....2012-02-07 14:29:56 · 245 阅读 · 0 评论 -
nutch 总结 原创-胡志广
1. 网页快照乱码解决方法修改nutch\cached.jsp,将content = new String(bean.getContent(details))修改为content = new String(bean.getContent(details),"utf-8")在画红框的地方加上UTF-8即可以下内容参考:http://blog.youkuaiyun.com...2013-09-18 13:37:04 · 944 阅读 · 0 评论