Nutch
文章平均质量分 80
jiao732
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Nutch-2.2.1----Nutch过滤URL实践
通过分析Nutch的配置文件Nutch-default.xml和阅读了部分源代码后,了解了Nutch的插件机制以及如何通过修改conf中的文件实现过滤抓取数据。默认情况下,实现URL过滤的类为RegexURLFilter,对应的过滤文件为regex-urlfilter.txt,在不修改该文件的情况下,Nutch可以过滤后缀以gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|C转载 2014-04-25 15:34:54 · 1243 阅读 · 0 评论 -
在eclipse中配置Nutch2.2.1, Windows环境下(Linux流程一样)
请看我的笔记:http://app.yinxiang.com/shard/s12/sh/36b8e911-2d0e-4ee4-b34f-a426c6dc99c2/9543f94cd8abf12b4b9857e67709ad42原创 2014-04-24 20:19:25 · 2176 阅读 · 2 评论 -
Nutch2.2.1配置mysql存储
请看我的笔记http://app.yinxiang.com/shard/s12/sh/668283fe-0c9c-4d17-bb7d-8619774deb64/edb6e47002cc26a26abbc81afca8d6fd原创 2014-04-24 20:22:18 · 1239 阅读 · 0 评论 -
Nutch-2.2.1----过滤抓取数据
在Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt、domain-urlfilter.txt几个文件用于实现过滤抓取数据,比如不抓取后缀为gif、exe的文件等,通过修改其中的值可以达到只抓取感兴趣的内容的目的,在一定程度上也有助于提高抓取速度。转载 2014-04-25 15:29:42 · 1315 阅读 · 0 评论
分享