nutch 在hadoop环境下过滤抓取url的设置

转载于 2016-12-02 16:44:31 发布 · 582 阅读

·

0

·

电信运营商日志挖掘专栏收录该内容

40 篇文章

订阅专栏

本文介绍了解决Nutch在Hadoop环境下抓取特定网站超时的问题。通过调整URL过滤规则来排除无效链接，并说明了在分布式环境中正确配置regex-urlfilter.txt的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要: 有个网站有问题，导致nutch 抓取超过24小时，故修改 master主机的nutch conf下regex-urlfiter.txt，发现没有效果。nutch在Hadoop环境下运行，master 和 slave 主机都要读取regex-urlfilter.txt，这个文件应该放在哪儿？
分析：nutch在单机和hadoop环境下运行不一样， nutch目录下有一个runtime子目录，该子目录下有 local和deploy两个文件夹，local是本地运行的文件，deploy是分布式运行的文件，分布运行的conf文件应该打包到deyloy的apache-nutch-XX.job

中。所以，一旦要修改 nutch/conf中文件内容，修改完后，需要ant一下，重新生成deyloy的apache-nutch-XX.job即可

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。