前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。
我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:
<project name="nutch-crawl" default="crawl" basedir=".">
<property name="lib.dir" location="lib"/>
<property name="conf.dir" location="conf"/>
<property name="urls.dir" location="urls"/>

<path id="project.classpath">
<fileset dir="${lib.dir}" />
<pathelement path="${conf.dir}"/>
<fileset dir="." includes="nutch-*.jar"/>
</path>
<target name="crawl" >
<echo>crwaling starting...</echo>
<property name="JVM.extra.args" value="-Xmx1000m" />
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
<jvmarg line="${JVM.extra.args}"/>
<arg value="${urls.dir}"/>
<arg value="-dir"/>
<arg value="e:/xxcrawled20"/>
<arg value="-depth"/>
<arg value="2"/>
<arg value="-threads"/>
<arg value="10"/>
</java>
<echo>crwaling finished...</echo>
</target>
</project>
应该注意2点
1)增加一个目录urls,放入一个文件,文件内容填上你要爬的url
2)修改nutch-site.xml,覆盖http.agent.name属性,一定要填入值
还有一点,如果你使用上面的ant脚本,你必须注意类路径的顺序, <pathelement path="${conf.dir}"/>必须位于
<fileset dir="." includes="nutch-*.jar"/>之前。否则jar中的那个空的nutch-site.xml会取代conf目录下你修改好的nutch-site.xml
至于搜索这个部分没什么好说的
在nutch-site.xml中加入:
<property>
<name>searcher.dir</name>
<value>E:/xxcrawled2</value>
</property>
value部分填入你crwal时设置的目录
我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:
<project name="nutch-crawl" default="crawl" basedir=".">
<property name="lib.dir" location="lib"/>
<property name="conf.dir" location="conf"/>
<property name="urls.dir" location="urls"/>

<path id="project.classpath">
<fileset dir="${lib.dir}" />
<pathelement path="${conf.dir}"/>
<fileset dir="." includes="nutch-*.jar"/>
</path>
<target name="crawl" >
<echo>crwaling starting...</echo>
<property name="JVM.extra.args" value="-Xmx1000m" />
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
<jvmarg line="${JVM.extra.args}"/>
<arg value="${urls.dir}"/>
<arg value="-dir"/>
<arg value="e:/xxcrawled20"/>
<arg value="-depth"/>
<arg value="2"/>
<arg value="-threads"/>
<arg value="10"/>
</java>
<echo>crwaling finished...</echo>
</target>
</project>
应该注意2点
1)增加一个目录urls,放入一个文件,文件内容填上你要爬的url
2)修改nutch-site.xml,覆盖http.agent.name属性,一定要填入值
还有一点,如果你使用上面的ant脚本,你必须注意类路径的顺序, <pathelement path="${conf.dir}"/>必须位于
<fileset dir="." includes="nutch-*.jar"/>之前。否则jar中的那个空的nutch-site.xml会取代conf目录下你修改好的nutch-site.xml至于搜索这个部分没什么好说的
在nutch-site.xml中加入:
<property>
<name>searcher.dir</name>
<value>E:/xxcrawled2</value>
</property>value部分填入你crwal时设置的目录
本文分享了作者在Windows环境下配置Nutch 0.8爬虫的经验,通过将shell脚本改为ant脚本来实现一键爬取,并详细介绍了配置过程中的注意事项。
8269

被折叠的 条评论
为什么被折叠?



