windows下nutch0.8初探

Nutch 0.8 爬虫部署

最新推荐文章于 2022-04-04 14:47:33 发布

最新推荐文章于 2022-04-04 14:47:33 发布 · 59 阅读

·

0

·

文章标签：

本文分享了作者在Windows环境下部署Nutch 0.8爬虫系统的经验，包括解决遇到的问题及注意事项，如修改配置文件nutch-site.xml及构建Ant脚本来启动爬取任务。

前一段时间试了一下nutch0.8没成功，然后尝试nutch-0.7.x都很顺利搞定，起初以为0.8有问题，但后来一些网友告诉我0.8没问题，我重新再试，好了，我来说说其中要注意的问题，以免新手走弯路。

我在windwos下开发，也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果，脚本如下：

<projectname="nutch-crawl"default="crawl"basedir=".">

<propertyname="lib.dir"location="lib"/>

<propertyname="conf.dir"location="conf"/>

<propertyname="urls.dir"location="urls"/>

<pathid="project.classpath">

<filesetdir="${lib.dir}"/>

<pathelementpath="${conf.dir}"/>

<filesetdir="."includes="nutch-*.jar"/>

</path>

<targetname="crawl">

<echo>crwalingstarting...</echo>

<propertyname="JVM.extra.args"value="-Xmx1000m"/>

<javaclassname="org.apache.nutch.crawl.Crawl"classpathref="project.classpath"fork="true">

<jvmargline="${JVM.extra.args}"/>

<argvalue="${urls.dir}"/>

<argvalue="-dir"/>

<argvalue="e:/xxcrawled20"/>

<argvalue="-depth"/>

<argvalue="2"/>

<argvalue="-threads"/>

<argvalue="10"/>

</java>

<echo>crwalingfinished...</echo>

</target>

</project>

应该注意2点
1）增加一个目录urls，放入一个文件，文件内容填上你要爬的url
2）修改nutch-site.xml，覆盖http.agent.name属性，一定要填入值

还有一点，如果你使用上面的ant脚本，你必须注意类路径的顺序， <pathelementpath="${conf.dir}"/>必须位于

<filesetdir="."includes="nutch-*.jar"/>之前。否则jar中的那个空的nutch-site.xml会取代conf目录下你修改好的nutch-site.xml

至于搜索这个部分没什么好说的
在nutch-site.xml中加入：

<property>

<name>searcher.dir</name>

<value>E:/xxcrawled2</value>

</property>

value部分填入你crwal时设置的目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。