
nutch
iteye_18973
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
nutch集群,威力很大,哈哈!!
今天用公司的服务器测试了一把nutch集群很好很强大! 之前也测试过,估计和网络的带宽有关系吧,效果不是很好,今天测试了一下,确实比单机的速度要快很多! 我测试的是用3台虚拟机 每台是8核心cpu 一个6g内存2个4g内存 然后爬的网址是180个,深度4层,开启线程200,完成时间是2个多小时,而且资源占用率也就达到20% 之前用8核心6g内存单机爬取 180个网址,深度4层 开启...原创 2011-07-05 00:23:51 · 170 阅读 · 0 评论 -
nutch网页快照乱码解决方法
修改nutch\cached.jsp, 将content = new String(bean.getContent(details)) 修改为content = new String(bean.getContent(details),"utf-8") 在画红框的地方加上UTF-8即可 以下内容参考:http://blog.youkuaiyun.com/xiaomage_cn/a...原创 2011-07-22 16:06:03 · 120 阅读 · 0 评论 -
nutch1.4 部署应用
nutch1.4在2011年的11月26日正式发布了,nutch1.4之后更新了一些内容和一些配置,但是和1.3差别还是不大,但是和1.2之前的差异就比较大了,在nutch1.3之后,索引就用solr来进行生成了,包括查询也是用solr,所以在nutch1.2之前的web搜索服务也就不需要了。 首先我们去nutch的官网下载最新版的nutch1.4 地址为: http://www....2012-02-07 14:29:56 · 244 阅读 · 0 评论 -
nutch 总结 原创-胡志广
1. 网页快照乱码解决方法 修改nutch\cached.jsp, 将content = new String(bean.getContent(details)) 修改为content = new String(bean.getContent(details),"utf-8") 在画红框的地方加上UTF-8即可 以下内容参考:http://blog.youkuaiyun.com...2013-09-18 13:37:04 · 943 阅读 · 0 评论