使用ant驱动nutch crawl

本文介绍如何在Windows环境下使用Ant脚本运行Nutch爬虫,解决了因Nutch仅支持Shell脚本而带来的不便。通过示例展示了如何配置Ant任务来启动爬虫流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在windows下 跑nutch crawl必须使用cygwin,没办法的事情,目前nutch只有shell脚本驱动,这多多少少给windows开发者带来一些麻烦,虽然通常情况下,java应用总会部署在unix机器上,即使如此,对于众多在windows上开发 java 应用的开发者来说,不需要装什么其他东西,直接在window环境中就能跑 nutch crawl显得更省力,下面将nutch-0.7.1 bin目录下的nutch shell 脚本直接转换成ant脚本,nutch玩家直接将ant脚本放在nutch-0.7.1下直接运行即可,当然你应该根据你的需求设置一些脚本元素

<projectname="nutch-crawl"default="crawl"basedir=".">

<propertyname="lib.dir"location="lib"/>
<propertyname="conf.dir"location="conf"/>


<pathid="project.classpath">
<filesetdir="."includes="nutch-*.jar"/>
<filesetdir="lib"/>
<pathelementpath="."/>
<pathelementpath="${conf.dir}"/>
</path>


<targetname="crawl">
<echo>crwalingstarting...</echo>
<propertyname="JVM.extra.args"value="-Xmx1000m"/>
<javaclassname="org.apache.nutch.tools.CrawlTool"classpathref="project.classpath"fork="true">
<jvmargline="${JVM.extra.args}"/>
<argvalue="e:/nutch-0.7.1/urls"/>
<argvalue="-dir"/>
<argvalue="e:/xxcrawled"/>
<argvalue="-depth"/>
<argvalue="2"/>
<argvalue="-threads"/>
<argvalue="10"/>
</java>
<echo>crwalingfinished...</echo>
</target>

</project>

注意上面代码中的<arg>,你可以根据要求设置.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值