在windows下 跑nutch crawl必须使用cygwin,没办法的事情,目前nutch只有shell脚本驱动,这多多少少给windows开发者带来一些麻烦,虽然通常情况下,java应用总会部署在unix机器上,即使如此,对于众多在windows上开发 java 应用的开发者来说,不需要装什么其他东西,直接在window环境中就能跑 nutch crawl显得更省力,下面将nutch-0.7.1 bin目录下的nutch shell 脚本直接转换成ant脚本,nutch玩家直接将ant脚本放在nutch-0.7.1下直接运行即可,当然你应该根据你的需求设置一些脚本元素
<projectname="nutch-crawl"default="crawl"basedir=".">

<propertyname="lib.dir"location="lib"/>
<propertyname="conf.dir"location="conf"/>


<pathid="project.classpath">
<filesetdir="."includes="nutch-*.jar"/>
<filesetdir="lib"/>
<pathelementpath="."/>
<pathelementpath="${conf.dir}"/>
</path>


<targetname="crawl">
<echo>crwalingstarting...</echo>
<propertyname="JVM.extra.args"value="-Xmx1000m"/>
<javaclassname="org.apache.nutch.tools.CrawlTool"classpathref="project.classpath"fork="true">
<jvmargline="${JVM.extra.args}"/>
<argvalue="e:/nutch-0.7.1/urls"/>
<argvalue="-dir"/>
<argvalue="e:/xxcrawled"/>
<argvalue="-depth"/>
<argvalue="2"/>
<argvalue="-threads"/>
<argvalue="10"/>
</java>
<echo>crwalingfinished...</echo>
</target>

</project>
注意上面代码中的<arg>,你可以根据要求设置.































注意上面代码中的<arg>,你可以根据要求设置.