
nutch
aa346359669
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
修改conf中的文件没有效果
如果修改了conf中的文件而没有效果的话试着重新ant编译一下。比如在本地执行可以爬取而在hadoop上不能爬取,可能是hadoop上不能识别新修改的配置文件而把url都filter掉了。用ant命令重新编译一次就好了...2015-01-07 10:55:11 · 610 阅读 · 0 评论 -
http://www.xxx.com/ skipped. Content of size 67099 was truncated to 59363
如果提示http://www.xxx.com/ skipped. Content of size 67099 was truncated to 59363在nutch-site.xml中添加:[code="java"] parser.skip.truncated false [/code]这是因为网站的页面内容采用truncate的方式分段返回,而nutch...原创 2015-01-07 10:56:31 · 1594372 阅读 · 1 评论 -
Plugins: directory not found: plugins java.lang.RuntimeException: Error in confi
Plugins: directory not found: pluginsjava.lang.RuntimeException: Error in configuring object在nutch-site.xml中添加:[code="java"] plugin.folders apache-nutch-1.6\src\plugin[/code]...原创 2015-01-08 17:47:17 · 2137 阅读 · 0 评论